玩轉(zhuǎn)圍棋、國際象棋、撲克，DeepMind推出通用學(xué)習(xí)算法SoG

作者：機(jī)器之心 2023-11-18 09:48:23

AlphaGo 之后，DeepMind 又推出了贏得國際象棋的 AlphaZero、擊敗《星際爭霸 II》的 AlphaStar 等等。

2016 年 3 月，一場機(jī)器人與圍棋世界冠軍、職業(yè)九段棋手李世石展開的圍棋人機(jī)大戰(zhàn)受到全球的高度關(guān)注。我們知道，最后的結(jié)果是 DeepMind 的機(jī)器人 AlphaGo 以 4 比 1 的總比分獲勝。這是人工智能領(lǐng)域一個里程碑性的事件，也讓「博弈」成為一個熱門的 AI 研究方向。

AlphaGo 之后，DeepMind 又推出了贏得國際象棋的 AlphaZero、擊敗《星際爭霸 II》的 AlphaStar 等等。使用搜索和學(xué)習(xí)的方法，AI 在許多完美信息博弈中表現(xiàn)出強(qiáng)大的性能，而使用博弈論推理和學(xué)習(xí)的方法在特定的不完美信息博弈中表現(xiàn)出強(qiáng)大的性能。

然而，大多數(shù)成功案例有一個重要的共同點：專注于單一博弈項目。例如，AlphaGo 不會下國際象棋，而 AlphaZero 雖然掌握了三種不同的完美信息博弈，但 AlphaZero 無法玩撲克牌，也不清楚能否擴(kuò)展到不完美信息博弈。此外，現(xiàn)有研究往往會使用特定領(lǐng)域的知識和結(jié)構(gòu)使 AI 實現(xiàn)強(qiáng)大的性能。

現(xiàn)在，來自 Google Deepmind 的研究團(tuán)隊提出了一種利用自我博弈學(xué)習(xí)、搜索和博弈論推理實現(xiàn)強(qiáng)大博弈性能的通用學(xué)習(xí)算法 ——Student of Games（SoG）。研究論文發(fā)表在《Science Advances》上。

論文地址：https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG 算法結(jié)合了引導(dǎo)式搜索（guided search）、自我對弈（self-play）學(xué)習(xí)和博弈論推理（game-theoretic reasoning）。實驗結(jié)果表明，SoG 可以在大型完美和不完美信息博弈中表現(xiàn)出強(qiáng)大的性能，這是邁向任意環(huán)境真正通用算法的重要一步。

方法簡介

SoG 模型可以在不同的游戲中自由發(fā)揮，并教會自己如何與自己的另一個版本進(jìn)行對戰(zhàn)，能夠?qū)W習(xí)新策略并逐漸變得更有能力。雖然 AlphaZero 也可以適應(yīng)完美信息博弈，但 SoG 可以適應(yīng)完美和不完美信息博弈，從而具有更強(qiáng)的通用性。

SoG 采用成長樹虛擬遺憾最小化（growing-tree counterfactual regret minimization，GT-CFR）算法。GT-CFR 算法是一種隨時可以進(jìn)行局部搜索，非均勻地構(gòu)建子博弈，并將樹擴(kuò)展至最相關(guān)的未來狀態(tài)，同時可以迭代地細(xì)化價值與策略。

此外，SoG 還采用了有效的自我對弈：利用博弈結(jié)果和遞歸子搜索來訓(xùn)練價值與策略網(wǎng)絡(luò)，并應(yīng)用于之前搜索中出現(xiàn)過的情況。

SoG 算法通過聲音自我對弈來訓(xùn)練智能體：每個玩家在面臨決策時，使用配備虛擬價值與策略網(wǎng)絡(luò)（Counterfactual Value-and-Policy Network，CVPN）的聲音 GT-CFR 搜索來生成當(dāng)前狀態(tài)的策略，并根據(jù)該策略采取行動。

自我對弈過程會生成兩種類型的訓(xùn)練數(shù)據(jù)，用于更新價值與策略網(wǎng)絡(luò)，一種是搜索查詢，一種是完整博弈軌跡。在實際應(yīng)用中，自我對弈數(shù)據(jù)生成和訓(xùn)練是并行發(fā)生的：參與者生成自我對弈數(shù)據(jù)（并解決查詢）；訓(xùn)練者學(xué)習(xí)新網(wǎng)絡(luò)并定期更新參與者。

實驗結(jié)果

眾所周知，傳統(tǒng)搜索在不完美信息博弈中存在缺陷，并且評估集中在單一領(lǐng)域（如撲克牌），SoG 填補(bǔ)了這一空白。通過重新解決子博弈，SoG 保證可以找到近似納什均衡，并且在小型博弈中保證可計算性。

具體來說，SoG 在四種不同的游戲中展示了強(qiáng)大的性能：兩種完美信息博弈（國際象棋和圍棋）和兩種不完美信息博弈（撲克和 Scotland Yard）。值得注意的是，與撲克相比，Scotland Yard 的搜索范圍和游戲長度要長得多，需要長期規(guī)劃。

SoG 與 AlphaZero 一樣，利用最少的領(lǐng)域知識，將搜索與自我對弈相結(jié)合。與 MCTS 不同，SoG 的搜索算法基于虛擬遺憾最小化，對完美和不完美信息博弈都是有效的。

下圖展示了 SoG 在不同數(shù)量 GT-CFR 下的可利用性。

A 表為 Leduc 撲克，B 表為蘇格蘭場

下圖展示了 SoG 隨著神經(jīng)網(wǎng)絡(luò)評估次數(shù)的增加與 AlphaZero 可擴(kuò)展性的比較，測量方式為相對 Elo 評分尺度。

A 表為國際象棋，B 表為圍棋

責(zé)任編輯：張燕妮來源：機(jī)器之心

圍棋 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

玩轉(zhuǎn)圍棋、國際象棋、撲克，DeepMind推出通用學(xué)習(xí)算法SoG

方法簡介

實驗結(jié)果