我和AI打了六局王者榮耀,心態崩了
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
今天,我和AI絕悟打了6局王者榮耀,心態有點崩。
沒贏過?不,比分3:3打平,還拿過MVP。
那怎么就崩潰了?聽我慢慢道來。
PVP對戰手游王者榮耀在五一節期間上線了一種新玩法——挑戰 · 絕悟,也就是5人組隊和5個AI對戰。

早就聽聞「絕悟」在測試版的的勝率高達99.8%,而身賦「王者段位」操作水平的我,覺得是時候在王者峽谷中大展不凡身手了。
進入挑戰入口后,可以看到這是一個通關玩法,一共5關,想必難度會隨著關卡而提高。

OK,迫不及待,是時候展現真正的技術了。
被“嚇到”抽搐的后裔
先來說下第一局的陣容。
我方:孫尚香(我)、上官婉兒、嬴政、孫策和裴擒虎。
敵方:后裔、李白、關羽、小喬和牛魔。
開局前,我還在想「絕悟」會不會像人類一樣有策略,果不其然,剛上線,對面李白就帶著牛魔準備反我家的“藍爸爸”(見左上角小地圖)。

此時的我還沉浸在對絕悟的贊嘆中:有幾分人類玩家的樣子。
然而,就在這時,讓我更意外的事情發生了——我被后裔“陰”了,原來他一直蹲在草叢里注視著我……大半管血就被消耗沒了。
當我想反手回擊,中路小喬又過來支援了……還好我身輕如燕,沒造成送一血的悲劇。

或許是看到了我曼妙的步伐,對面的后裔……抽搐了!

此后,堅信發育就是王道的我,就開始安心清兵線,隊友們也非常給力,開局不到3分鐘,已經拿下7個人頭。

不過,不得不說,在團戰期間,「絕悟」支援的速度還是非常可以的。
但AI可能也是不經夸的,在一次團戰中,后裔看到了我的入場,又抽搐了!

最后,在隊友非常默契的配合下,13分鐘順利拿下勝利。

旗開得勝,開心!
趁熱打鐵,趕快第二局,雙方陣容如下。
我方:虞姬(我)、嬴政、橘右京、夏侯惇和孫悟空。
敵方:伽羅、孫悟空、達摩、蔡文姬和干將莫邪。

這局憑借著我家猴子碾壓「絕悟」操作的猴子,以及夏侯惇優秀的上單表現,即便面對伽羅、干將莫邪這種長手怪,也順利拿下勝利。
被我“吹上天”的婉兒
第三局從陣容上來看,難度就已經開始加大了。
我方:小喬(我)、鐘無艷、劉備、狄仁杰和伽羅。
敵方:上官婉兒、虞姬、鬼谷子、孫策和曜。
這局開場,「絕悟」采取的策略,是最近比較流行的一種戰術——輔助跟著中單快速清理第一波兵線。

可以看到,鬼谷子在發現我家鐘無艷反野后,也非常機智的選擇回去幫忙。
在「絕悟」的迅速支援下,我方伽羅成功送上了第一個人頭,這個場景跟第一局如出一轍……畢竟,這局的射手不是我,操作不出那華麗的身法……
然而,此時的提示語亮了——一血標本獲得——1。
What?!我們人類在絕悟眼里,竟然是標本……

這局并沒有像之前那般順利,在接近6分鐘時,雙方戰績可以說55開,13:11。
其實,對線婉兒我是比較怕的,畢竟在一個“賊6”的婉兒面前,我只能是個活靶子。然而,「絕悟」操作的婉兒,簡直讓我驚呆了。
舉個例子,我家狄仁杰處于殘血狀態,婉兒突然從野區中沖出來,看她行進的路徑,應該是那套“一氣呵成帶走人”的招式沒錯了。
正當我以為她的“133233上天”要帶走我們倆人時,她的上天……竟然是被我的吹起來的……然后就灰頭土臉的跑!掉!了!

此后,被我吹起來,可能已經成了婉兒上天的習慣。
強悍如我——“都給我坐下”!

而就在7分鐘左右,系統突然彈出了一個提示——絕悟AI集體升級換代中……滴滴滴。
不好,AI的能力可能要加強了,我的內心產生了一絲恐懼。

就在這時,游戲結束了……沒錯,我們一波推掉了水晶。
抱歉,你們的“升級換代”,這次就沒法體驗了。

嗯,我有點膨脹了。
連敗3局,內心崩潰
然而,接下來的路,便讓我一步步地走向崩潰的邊緣。
還是老規矩,先來介紹下第四局的陣容。
敵方:老夫子、貂蟬、張飛、李元芳和趙云。
是不是很好奇,我為什么沒有介紹我方陣容?
來看下崩潰第一彈!

嬴政、王昭君、小喬、馬可波羅和虞姬。
這波法師和射手的“脆皮聯盟”,簡直快弄瞎了我的眼。
毫無懸念,13:30,14分鐘,已經分不清這個“人機模式”下,誰是人,誰是機。
以及還被「絕悟」實力嘲諷了一波:好安靜啊。
此外還有一個畫外音:下次試試拔掉AI的電源……

收拾好心情再出發,還是挑戰這關。
這一局我們的陣容還是不錯的:孫悟空、明世隱、成吉思汗、嫦娥和安琪拉。
然而,萬萬沒想到,崩潰第二彈竟然來得如此之快。
開局剛上線,明世隱掛機,還說道:“掛機吧,贏不了。”

嫦娥也附議:“你們選的人,根本贏不了。”

不服輸的我說道:“不怕AI,就怕你們這樣的隊友。”
再次毫無懸念,被“人機”。
OK,再次整理心情,挑戰這關的「絕悟」。
這一次,我們的陣容如下:
李元芳、張良、關羽、韓信和蔡文姬(我)。
在王者榮耀對局中,輸的理由千千萬,這一次,我們是浪輸的。

明知道「絕悟」支援非常迅速的情況下,各種“沖鋒陷陣”,那種“我不入地獄誰入地獄”的勇氣簡直讓人感動。
臣妾的奶量再大,也抵不過隊友們的浪啊!于是乎,又輸了。
這,就是我和AI打了6局王者榮耀的故事。
「絕悟」AI:30小時達到王者水平,70小時比肩職業玩家
「絕悟」的 1v1 版本首次露面,是在2018年的 KPL 秋季總決賽上,而后在去年8月份,在5v5比賽中擊敗了人類職業戰隊,實力不容小覷。
而有關「絕悟」的技術細節,在去年年底時,騰訊在一篇入圍AAAI 2020的論文中也有所披露。

首先需要指明的是,騰訊的這篇新論文關注的是 1v1 游戲AI,并不是 5v5 游戲AI。
研究人員在論文中解釋稱,后者更注重所有智能體的團隊合作策略,而不是單個智能體的動作決策。

考慮到這一點,1v1游戲更適合用來研究游戲中的復雜動作決策問題,也能夠更加全面系統的研究游戲 AI 智能體的構建。
AI的整體架構一共分為4個模塊:強化學習學習器(RL Learner)、人工智能服務器(AI Server)、分發模塊(Dispatch Module)和記憶池(Memory Pool)。

這是一種高可擴展低耦合的系統架構,可以用來構建數據并行化。主要考慮的是復雜智能體的動作決策問題可能引入高方差的隨機梯度,所以有必要采用較大的批大小以加快訓練速度。
其中,AI服務器實現的是 AI 模型與環境的交互方式。分發模塊是用于樣本收集、壓縮和傳輸的工作站。記憶池是數據存儲模塊,能為 RL 學習器提供訓練實例。

這些模塊是分離的,可靈活配置,從而讓研究者可將重心放在算法設計和環境邏輯上。這樣的系統設計也可用于其它的多智能體競爭問題。
在強化學習學習器中,他們還實現了一個 actor-critic 神經網絡,用于建模1v1 游戲中的動作依賴關系。

為了應對游戲中的多個場景決策,研究人員們還提出了一系列算法策略,來實現更高效率的訓練:
- 為了幫助AI在戰斗中選擇目標,引入目標注意力機制;
- 為了學習英雄的技能釋放組合,以便AI在序列決策中,快速輸出大量傷害,使用了LSTM;
- 用于構建多標簽近端策略優化(PPO)目標,采用動作依賴關系的解耦;
- 為了引導強化學習過程中的探索,開發了基于游戲知識的剪枝方法;
- 為了確保使用大和有偏差的數據批進行訓練時的收斂性,改進 PPO 算法提出dual-clip PPO,其示意圖如下所示:

研究人員在論文中指出,基于這樣的方法訓練一個英雄,使用48個P40 GPU卡和18000個CPU 內核,訓練一天相當于人類打500年,訓練30個小時就能達到王者段位水平,70個小時比肩職業玩家,其表現要顯著優于多種baseline方法。

而且如前所述,在與人類選手交戰的測試中,獲得了非常亮眼的成績。
如果你想了解關于這一AI更多的細節,我們將論文鏈接放到了文末~
以及,我要繼續去挑戰了「絕悟」AI了!
傳送門:
https://arxiv.org/abs/1912.09729