成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

新聞 人工智能
在人工智能OpenAI Five面前,OG不堪一擊。五個人類組成的戰隊,此前全程毫無懸念地以0:2敗下陣來,兩局加在一起,OG只推掉了兩座外塔。

 [[285612]]

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

Team OG,Dota2世界冠軍戰隊。

在人工智能OpenAI Five面前,OG不堪一擊。五個人類組成的戰隊,此前全程毫無懸念地以0:2敗下陣來,兩局加在一起,OG只推掉了兩座外塔。

不過,這還不是AI的巔峰。

現在OpenAI又訓練出了一個全新的AI,名叫Rerun。面對碾壓OG的OpenAI Five,Rerun的勝率達到了……呃……98%。

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

聽到這個消息,一位推特網友發圖明志。

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

主要依靠自學,就能在Dota2這么復雜的游戲中稱雄,人工智能是怎么做到的?今天,有關于此的答案揭曉。

沒錯,OpenAI不單發布了Rerun,還把自己三年多來對于Dota2項目的研究,通過一篇論文,正式公布出來。

在這篇論文中,OpenAI解釋了整套系統的原理、架構、計算量、參數等等諸多方面的內容。OpenAI指出通過增加batch size和總訓練時間等方法,擴展了計算規模,進而表明當今的強化學習技術可以在復雜的電子競技游戲中,達到超越人類的水平。

這些研究,可以進一步應用于各種兩個對手持續的零和博弈中。

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

(可能是閱讀之后)OG戰隊發推:“Wow!這篇論文看起來太棒了!”

此情此景,有網友無深情的感嘆道:Wow!OG戰隊夸了一篇論文好看?真是活久見……

這篇論文到底說了什么?

我們總結了幾個要點。

要點一:Dota2比下圍棋更復雜

與棋類對弈相比,電子競技游戲要更復雜。

攻克這一難題的關鍵是,把現有的強化學習系統規模,擴展到前所未有的水平,這耗費了數千塊GPU和好幾個月的時間。OpenAI為此構建了一個分布式的訓練系統。

訓練中的一個挑戰是,環境和代碼會不斷變化。為了在每次更改后無需從頭開始,OpenAI開發了一套工具,可以在不損失性能的情況下恢復訓練,這套工具稱為:surgery。

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

每局Dota2比賽時長大約45分鐘,每秒鐘會生成30幀的游戲畫面。OpenAI Five每4幀做出一個動作。國際象棋一局下約80步,圍棋下一局約150步,作為對比,Dota2打一局,AI需要“下”大概20000步。

而且由于戰爭迷霧的存在,Dota2中對戰的雙方,只能看到全盤游戲中的局部情況,其他部分的信息都是隱藏狀態。

與下圍棋的AlphaGo相比,打Dota2的AI系統,batch size要大50-150倍,模型大20倍,訓練時間長25倍。

要點二:AI如何學會打Dota2

人類玩Dota2通過鍵盤鼠標等,實時作出決定。剛才提到,OpenAI Five每4幀做出一個動作,這被稱為一個timestep。每個timestep期間,OpenAI會接收血量、位置等數據。

同樣的信息,人類和OpenAI Five接收的方式完全不同。

Dota2冠軍OG如何被AI碾壓?OpenAI累積三年的完整論文終于放出

人工智能系統發出動作指令時,大概可以想成這個樣子。

AI背后是一套神經網絡。policy (π) 被定義為從觀察數據到動作概率分布的函數,這是一個有1.59億個參數的RNN神經網絡。這個網絡主要由一個單層、4096-unit的LSTM構成。

結構如下圖所示:

LSTM貢獻了這個模型中84%的參數。

選手們的訓練,使用的是擴展版的近端策略優化(PPO)方法,這也是OpenAI現在默認的強化學習訓練方法。這些智能體的目標是最大化未來獎勵的指數衰減和。

在訓練策略的過程中,OpenAI Five沒有用到人類游戲數據,而是通過自我博弈。在圍棋、象棋等問題上,也應用了類似的方式訓練。

其中,80%的戰斗中對手是使用了最新參數的分身,而20%的對手是老參數的分身。每經過10次迭代之后,新訓練出的分身就被標為老前輩。如果當前正訓練的AI擊敗了新秀或者老前輩,系統就會根據學習率更新參數。

按照OpenAI CTO此前的說法,擊敗OG前OpenAI Five已經練習了相當于45000年Dota。AI每天的訓練量相當于人類打180年游戲。

要點三:計算量和超參數

訓練這么復雜的AI系統,肯定要耗費大量的資源。

OpenAI預估了用于優化的GPU消耗量,最后的結論,OpenAI Five的GPU計算用量在770±50~820±50 PFlops/s·days左右,而今天新提到的、更強的Rerun,在隨后兩個月的訓練中,GPU計算量消耗大概是150 ± 5 PFlops/s·days。

再說一下,OpenAI公布的只是用于優化的計算量,只是訓練中所有開銷的一小部分,大約占30%。

此前,OpenAI也曾透露過OpenAI Five的日常訓練,需要256塊P100 GPU和12.8萬個CPU核心。

至于整個神經網絡的超參數,在論文中,OpenAI表示在訓練Rerun的時候,已經根據經驗進一步簡化了超參數。最后,他們只更改了四個關鍵的超參數:

• Learning Rate
• Entropy penalty coefficient
• Team Spirit
• GAE time horizon

當然,OpenAI也表示這些超參數還有進一步的優化空間。

要點四:并不全是自學

最后,還有一點需要強調。

OpenAI在論文中明確指出,AI系統在學習Dota2的過程中,并非完全依靠強化學習自學,啟示也使用了一些人類的知識。這跟后來的AlphaGo Zero有所區別。

有一些游戲機制是腳本編寫好的程序。比方,英雄購買裝備和學習技能的順序,信使的控制等等。OpenAI在論文中表示,使用這些腳本有一些歷史原因,也有成本和時間方面的考慮。不過論文也指出,這些最終也可以通過自學完成。

論文全文

在這篇名為Dota 2 with Large Scale Deep Reinforcement Learning的論文中,OpenAI公布了更多的詳細信息,如果你感興趣,下面是傳送門:

https://cdn.openai.com/dota-2.pdf

對戰回顧

最后,我們回顧一下OpenAI Five連下兩局擊敗OG的比賽全程吧。

[[285614]]

第一局

AI(天輝):火槍、飛機、冰女、死亡先知、斯溫

人類(夜魘):小牛、巫醫、毒龍、隱刺、影魔

選完陣容,OpenAI Five認為自己有67.6%的勝率。

剛剛開局,OpenAI Five拿下一血,而人類軍團也很快殺掉了AI方的冰女。之后,雙方前期在人頭數上一直不相上下。AI一直在經濟上保持總體領先,但最富有的英雄,卻一直是人類的大哥影魔。

這也能看出雙方策略上的明顯區別:OG是3核心+2輔助的傳統人類打法,而AI的5個英雄經濟分配相對平均,比較“大鍋飯”。

經過幾番激烈的推進和團戰,游戲進行到19分鐘左右,AI對自身勝率的預測已經超過了90%。自信心爆棚的AI一鼓作氣攻上了人類的高地。

OG緊接著選擇了分路推進,幾位解說推測,這是為了盡可能分散AI,防止它們抱團推進,然而并沒有奏效太長時間。

然而,堅持到38分鐘,人類方的小牛剛剛買活,AI的最后一波總攻已經推掉了人類的基地。

OpenAI Five贏下第一局。現場,也是一片掌聲。

[[285619]]

這場比賽中,AI展現了清奇的思路:出門裝就選擇兩個大藥,后續的裝備也更傾向于買補給品,而不是提高自身屬性。

另外,我們前邊提到的“大鍋飯”政策,以及在比賽前期就頻繁買活,都和人類職業選手的習慣大不相同。

第二局

AI(天輝):冰女、飛機、斯溫、巫醫、毒龍

人類(夜魘):火槍、小牛、死亡先知、小魚人、萊恩

選完英雄,AI對自身勝率的預測是60.8%,略低于上一局的陣容。

比賽前兩分鐘,雙方都在一片祥和中各自帶線,然而沒想到,人類中單Topson很快就送出了一血。

之后,人類代表們以驚人的速度潰敗。

5分鐘時,AI的信心就已經大幅上升,預測自己有80%的勝率;7分鐘,AI推掉了上路一塔;10分鐘,AI就已經領先人類4000金幣,多推了兩座塔,還為自己預估了95%的勝率。

11分鐘,AI已經攻上了OG的高地。

僅僅21分鐘,OG的基地被推掉,OpenAI Five輕松拿下第二局。直到比賽結束,OG拿下人頭還是個位數,被AI打成了46:6。

雖然這一局贏得異常輕松,不過對局過程中還是能看出AI在細節上有一些不足。比如說面對在復雜樹林中繞來繞去的人類,AI就無能為力。今天的比賽中,Ceb就靠繞樹林救了自己一命。

 

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-08-04 15:20:44

開源技術 軟件

2017-08-18 12:04:34

2019-04-30 13:17:36

OpenAI曲風音樂

2020-09-22 07:48:19

AI

2021-02-25 15:43:43

AI 數據人工智能

2013-09-17 14:19:45

游戲開發

2019-12-05 14:07:53

人工智能AI自動駕駛

2022-11-14 18:46:11

2016-11-17 12:20:46

Windows 7微軟補丁

2025-05-14 09:31:08

2012-07-31 09:19:02

程序員

2025-05-19 08:54:00

2016-01-08 10:32:48

虛擬現實頭盔

2019-10-30 15:35:47

Android谷歌手機

2010-02-26 10:22:11

IPv4

2017-08-14 11:15:32

2019-10-31 14:37:55

技術人工智能開發

2013-07-17 09:13:19

2013-06-25 14:11:19

html5Java 7
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日本在线综合 | 天天色天天射天天干 | 国产一区二区欧美 | 三级国产三级在线 | 国产欧美精品区一区二区三区 | 亚洲字幕在线观看 | 成年人在线电影 | 国产亚洲成av人片在线观看桃 | 亚洲一区二区三区视频在线 | 亚洲福利视频一区二区 | 日韩毛片 | 伊人免费在线观看 | 超碰婷婷| 久日精品 | 蜜桃在线播放 | 久久精品视频9 | 一级特黄色毛片 | caoporn国产精品免费公开 | 成人在线视频网站 | www.狠狠干 | 久久成人在线视频 | 超碰av免费| 天堂精品 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 91九色麻豆 | 亚州成人| 天天夜碰日日摸日日澡 | 99国产精品99久久久久久粉嫩 | 午夜免费电影 | 女同久久另类99精品国产 | 亚洲欧美国产毛片在线 | 日本成人区 | 欧美日韩精品一区 | 亚洲成人av| 日韩中文一区二区 | 欧美一区二区免费视频 | 超碰导航 | 欧美日韩在线免费观看 | 久久久精品影院 | 久久久久国产成人精品亚洲午夜 | 亚洲免费影院 |