人類竟能再度擊敗頂級圍棋AI?一招逆風翻盤,這個業余四段棋手完勝
2016年,是人工智能的崛起之年。
自從AlphaGo完勝圍棋世界冠軍李世石之后,代表圍棋頂尖水平的玩家再也不是人類。
然而,今天金融時報的一篇文章讓圍棋重回人們的視野:人類找到了戰勝AI的方法!
蟄伏7年,人類棋手要卷土重來了嗎?
圍棋逆風翻盤,人類戰勝AI?
FT報道稱,來自美國的業余四段棋手Kellin Pelrine,一舉擊敗了頂級的下棋AI——KataGo。
在15場線下比賽中,Perline在沒有計算機的幫助下,贏得了14場比賽。
而這個讓人類棋手奪回圍棋桂冠的計劃,出自加州研究公司FAR AI的研究人員之手。該團隊通過分析AI棋手的弱點加以針對,從而獲得最后的勝利。
FAR AI的首席執行官Adam Gleave說:「對我們來說,利用這個系統非常容易。」
Gleave表示,團隊研發的AI在與KataGo進行了100多萬次的對局之后,發現了一個人類玩家可以利用的「bug」。
Pelrine說,他們發現的獲勝策略「對人類來說并不難」,中級玩家可以使用它來擊敗機器。他還使用這種方法戰勝了另一個頂級圍棋系統Leela Zero。
Kellin Pelrine
FT寫道,雖然有計算機的幫助,但這場決定性的勝利還是為人類棋手打開了一扇大門。
七年之前,人工智能在這項最復雜的游戲中遙遙領先于人類。
?由DeepMind設計的AlphaGo系統,在2016年以4比1擊敗了圍棋世界冠軍李世石。李世石也在慘敗三年后宣布退役,稱AlphaGo是「無法擊敗的」。
而對于人工智能的這種強勢,Pelrine不以為然。在他看來,棋局中大量的組合和變化,意味著計算機不可能評估棋手所有可能的未來招式。
簡單來說,Pelrine使用的策略是「聲東擊西」。
一方面,Pelrine在棋盤的各個角落落子,迷惑AI;另一方面,Pelrine認準AI棋手的一片領域,逐漸將其四周包圍。
Pelrine說,即使包圍即將完成,AI棋手也沒有注意到這一片區域的危險。他接著說:「但是作為人類,這些漏洞是很容易被發現的。」
加州大學伯克利分校計算機科學教授Stuart Russell說,一些最先進的圍棋游戲機被發現存在弱點,這表明支撐當今最先進AI的深度學習系統存在根本缺陷。
他表示,這些系統只能「理解」他們經歷過的特定情況,并且無法和人類一樣,對策略進行簡單的概括。
能戰勝AI的,只有AI!
不過嚴格意義上來說,研究人員是通過AI打敗了AI,或者說,用AI幫助人類在圍棋中擊敗AI。
作為參考來源的論文,首次發表于2022年11月并在今年1月進行了更新,作者則分別來自于MIT、UC伯克利等機構。
文中,研究人員訓練出了一個具有抗性策略的AI,進而擊敗了最先進的圍棋人工智能系統KataGo。
項目地址:https://goattack.far.ai/adversarial-policy-katago#contents
論文地址:https://arxiv.org/abs/2211.00241
結果顯示,當KataGo不使用搜索樹時,攻擊者在1000盤棋中取得了100%的勝率,而當KataGo使用足夠多的搜索時,勝率超過97%。
對此,研究人員強調,對抗性策略AI可以擊敗KataGo,但它卻會被人類業余愛好者戰勝,與此同時人類業余愛好者是打不贏KataGo的。
也就是說,這個AI能夠取勝,并不是因為圍棋下得更好,而是它能誘使KataGo去犯下嚴重的錯誤。
攻擊策略
在此之前,像是KataGo和AlphaZero等等這些下棋AI,都通過自我博弈進行訓練的。
但在這項被作者稱為「受害者游戲」(victim-play)的研究中,攻擊者(adversary)需要通過與一個固定的受害者(victim)進行博弈,來訓練自己的制勝策略(不是模仿對手的下法)。
對此,研究人員引入了兩個不同的對抗性MCTS(A-MCTS)策略來解決這個問題。
- 樣本A-MCTS-S:研究人員設置的搜索過程為:當受害者下棋時,從受害者的策略網絡中采樣;當輪到攻擊者時,從攻擊者的策略網絡中采樣。
- 遞歸A-MCTS-R:由于A-MCTS-S低估了受害者的實力,因此研究人員提出了一種新的策略A-MCTS-R。然而,這種變化增加了攻擊者訓練和推理的計算復雜性。
具體來說,在A-MCTS-R中,研究人員會在受害者節點上使用一個新的(遞歸)MCTS搜索來進行模擬,從而取代A-MCTS-S中的受害者采樣步驟。
雖然這不再是一個完美的受害者模型,但它往往比A-MCTS-S更準確,因為后者會錯誤地假設受害者不進行搜索。
評估結果如下,具體細節可參閱原文。