成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

玩轉(zhuǎn)圍棋、國際象棋、撲克,DeepMind推出通用學(xué)習(xí)算法SoG

人工智能 新聞
AlphaGo 之后,DeepMind 又推出了贏得國際象棋的 AlphaZero、擊敗《星際爭霸 II》的 AlphaStar 等等。

2016 年 3 月,一場機(jī)器人與圍棋世界冠軍、職業(yè)九段棋手李世石展開的圍棋人機(jī)大戰(zhàn)受到全球的高度關(guān)注。我們知道,最后的結(jié)果是 DeepMind 的機(jī)器人 AlphaGo 以 4 比 1 的總比分獲勝。這是人工智能領(lǐng)域一個里程碑性的事件,也讓「博弈」成為一個熱門的 AI 研究方向。

AlphaGo 之后,DeepMind 又推出了贏得國際象棋的 AlphaZero、擊敗《星際爭霸 II》的 AlphaStar 等等。使用搜索和學(xué)習(xí)的方法,AI 在許多完美信息博弈中表現(xiàn)出強(qiáng)大的性能,而使用博弈論推理和學(xué)習(xí)的方法在特定的不完美信息博弈中表現(xiàn)出強(qiáng)大的性能。

然而,大多數(shù)成功案例有一個重要的共同點:專注于單一博弈項目。例如,AlphaGo 不會下國際象棋,而 AlphaZero 雖然掌握了三種不同的完美信息博弈,但 AlphaZero 無法玩撲克牌,也不清楚能否擴(kuò)展到不完美信息博弈。此外,現(xiàn)有研究往往會使用特定領(lǐng)域的知識和結(jié)構(gòu)使 AI 實現(xiàn)強(qiáng)大的性能。

現(xiàn)在,來自 Google Deepmind 的研究團(tuán)隊提出了一種利用自我博弈學(xué)習(xí)、搜索和博弈論推理實現(xiàn)強(qiáng)大博弈性能的通用學(xué)習(xí)算法 ——Student of Games(SoG)。研究論文發(fā)表在《Science Advances》上。

圖片

論文地址:https://www.science.org/doi/full/10.1126/sciadv.adg3256

SoG 算法結(jié)合了引導(dǎo)式搜索(guided search)、自我對弈(self-play)學(xué)習(xí)和博弈論推理(game-theoretic reasoning)。實驗結(jié)果表明,SoG 可以在大型完美和不完美信息博弈中表現(xiàn)出強(qiáng)大的性能,這是邁向任意環(huán)境真正通用算法的重要一步。

方法簡介

SoG 模型可以在不同的游戲中自由發(fā)揮,并教會自己如何與自己的另一個版本進(jìn)行對戰(zhàn),能夠?qū)W習(xí)新策略并逐漸變得更有能力。雖然 AlphaZero 也可以適應(yīng)完美信息博弈,但 SoG 可以適應(yīng)完美和不完美信息博弈,從而具有更強(qiáng)的通用性。

SoG 采用成長樹虛擬遺憾最小化(growing-tree counterfactual regret minimization,GT-CFR)算法。GT-CFR 算法是一種隨時可以進(jìn)行局部搜索,非均勻地構(gòu)建子博弈,并將樹擴(kuò)展至最相關(guān)的未來狀態(tài),同時可以迭代地細(xì)化價值與策略。

此外,SoG 還采用了有效的自我對弈:利用博弈結(jié)果和遞歸子搜索來訓(xùn)練價值與策略網(wǎng)絡(luò),并應(yīng)用于之前搜索中出現(xiàn)過的情況。

SoG 算法通過聲音自我對弈來訓(xùn)練智能體:每個玩家在面臨決策時,使用配備虛擬價值與策略網(wǎng)絡(luò)(Counterfactual Value-and-Policy Network,CVPN)的聲音 GT-CFR 搜索來生成當(dāng)前狀態(tài)的策略,并根據(jù)該策略采取行動。

圖片

自我對弈過程會生成兩種類型的訓(xùn)練數(shù)據(jù),用于更新價值與策略網(wǎng)絡(luò),一種是搜索查詢,一種是完整博弈軌跡。在實際應(yīng)用中,自我對弈數(shù)據(jù)生成和訓(xùn)練是并行發(fā)生的:參與者生成自我對弈數(shù)據(jù)(并解決查詢);訓(xùn)練者學(xué)習(xí)新網(wǎng)絡(luò)并定期更新參與者。

實驗結(jié)果

眾所周知,傳統(tǒng)搜索在不完美信息博弈中存在缺陷,并且評估集中在單一領(lǐng)域(如撲克牌),SoG 填補(bǔ)了這一空白。通過重新解決子博弈,SoG 保證可以找到近似納什均衡,并且在小型博弈中保證可計算性。

具體來說,SoG 在四種不同的游戲中展示了強(qiáng)大的性能:兩種完美信息博弈(國際象棋和圍棋)和兩種不完美信息博弈(撲克和 Scotland Yard)。值得注意的是,與撲克相比,Scotland Yard 的搜索范圍和游戲長度要長得多,需要長期規(guī)劃。

SoG 與 AlphaZero 一樣,利用最少的領(lǐng)域知識,將搜索與自我對弈相結(jié)合。與 MCTS 不同,SoG 的搜索算法基于虛擬遺憾最小化,對完美和不完美信息博弈都是有效的。

下圖展示了 SoG 在不同數(shù)量 GT-CFR 下的可利用性。

圖片

A 表為 Leduc 撲克,B 表為蘇格蘭場

下圖展示了 SoG 隨著神經(jīng)網(wǎng)絡(luò)評估次數(shù)的增加與 AlphaZero 可擴(kuò)展性的比較,測量方式為相對 Elo 評分尺度。

圖片

A 表為國際象棋,B 表為圍棋


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2021-07-29 09:29:12

AI游戲DeepMind

2020-09-16 19:11:22

AI

2021-02-20 17:13:01

ChessBase算法國際象棋

2023-09-20 10:49:35

Opera瀏覽器

2011-01-28 15:12:05

人機(jī)大戰(zhàn)沃森深藍(lán)

2022-08-10 18:14:49

國際象棋游戲位字段C語言

2021-12-07 09:51:06

神經(jīng)網(wǎng)絡(luò)AI算法

2024-10-22 13:28:53

2024-12-09 08:45:00

模型AI

2021-01-27 14:24:17

人工智能AI國際象棋AI

2022-07-26 12:52:10

AI機(jī)器人象棋

2025-06-06 09:04:00

2021-05-10 09:05:39

AI 數(shù)據(jù)人工智能

2022-11-17 12:49:36

世界冠軍AI國際象棋

2025-01-02 09:53:17

2022-02-24 23:59:05

人工智能下棋隱私

2022-10-08 09:53:17

AI算法

2009-06-08 10:27:43

2019-06-13 18:03:26

人工智能互聯(lián)網(wǎng)識別

2020-11-14 15:43:35

人工智能算法象棋
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩国产欧美一区 | 91 在线 | www.日韩av.com| 成人av在线播放 | 99视频在线 | 国产一区在线看 | 久久在线 | 国产日韩欧美精品一区二区三区 | 国产精品69久久久久水密桃 | 日本一区二区三区精品视频 | 综合九九| 91视频一88av | 亚洲一区二区中文字幕 | 国产一区二区三区久久久久久久久 | 久在线 | 亚洲资源在线 | 久久国产婷婷国产香蕉 | av一级在线观看 | 高清国产午夜精品久久久久久 | 99久久夜色精品国产亚洲96 | 国产最新精品视频 | 99精品国产一区二区青青牛奶 | 亚洲一区中文字幕在线观看 | 亚洲电影一级片 | 亚洲国产精品一区二区www | 国产高清精品一区 | 国产成人精品免费视频大全最热 | 成人在线播放网站 | 国产视频观看 | 日韩精品一区二区三区四区视频 | 国外成人免费视频 | 欧美精品一区二区三区在线播放 | 日本啊v在线| 色综合一区二区三区 | 亚洲一二三在线 | 久久久成人一区二区免费影院 | 国产传媒在线播放 | 国产在线中文 | 国产精品特级毛片一区二区三区 | 日本成人在线网址 | 亚洲精品永久免费 |