DeepMind運用AI技術為國際象棋制定新規則
這一次,他們與前國際象棋世界冠軍弗拉基米爾·克拉姆尼克(Vladimir Kramnik)合作,希望引導AI技術重新學習這種古老棋類游戲的最新變體。
為了改善已經極為平衡的象棋規則體系,研究團隊開始對這種已經擁有千年歷史的棋盤游戲做出調整,并借助AI從中找到最合理、最具趣味性的變化組合。
科學家們使用AlphaZero(一種自適應學習系統,能夠從零開始自學新規則并達到超越人類的游戲水平),對團隊在克拉姆尼克幫助下預先定義的九種國際象棋規則變體進行測試。
對于每一種變體,AlphaZero都會自我對弈數萬盤,分析特定棋盤條件下的所有可能棋步,并整理出新的戰略與游戲方式。以此為基礎,克拉姆尼克與研究人員們進一步評估如果采用這些變體,人類選手之間的對抗將呈現出怎樣的狀態,最終判斷不同的規則集能否切實改善對弈。
過去幾個世紀以來,國際象棋得到了長足發展,新的變體形式不斷涌現。這些變體或是為了改善這項古老運動的認知門檻、或是為了在比賽中引入新的復雜性。對規則的調整無疑會對游戲策略、可玩性乃至盤面動態產生巨大沖擊,而且從歷史角度來看,以往只有觀察過足夠多人類棋手的真實對弈過程及結果,才能深刻理解規則變化帶來的實際影響。
DeepMind的研究人員們表示,“以這些規則變化為基礎訓練AlphaZero模型,使我們得以在數小時時間內快速模擬出以往需要數十年才能實現的人類對弈過程,并回答一個個「假設」問題:在相應戰略戰術發展成熟之后,各種國際象棋變體究竟擁有怎樣的發展潛能?”
AlphaZero測試的規則發動包括:選手可以吃掉自己的棋子,或者允許將兵卒向后移動兩步等。研究團隊還提出了“禁王車易位”規則,這相當于極大降低了對弈雙方戰成平局的可能性。
AI系統以每秒一步的速度在各種變體上分別完成了10000局對弈,而后再以每分鐘一步的速度再完成1000局對弈。為了盡可能客觀地研究規則變化對于游戲質量的影響,科學家們還研究了多項其他因素。其中之一就是觀察平局這一最令棋手們感到沮喪的狀況的發生幾率。
總體而言,大多數變體確實增加了國際象棋的可能性,“僵局=勝利”這一新規則也讓對弈中的考量因素進一步增加。研究人員們還發現,時間控制也會給游戲帶來決定性的影響:每秒一步的對弈,下成平局的可能性將遠遠低于每分鐘一步。
每秒一步的對弈,下成平局的可能性將遠遠低于每分鐘一步
結果還顯示,在大部分對弈當中,AlphaZero都能夠借助新規則積極采用前所未有的戰術,而不再拘泥于經典棋路。研究人員們指出,“這表明新的規則確實產生了影響,也令游戲本身變得更具生命力。”
在對AlphaZero在新規則下的行為進行統計分析之后,DeepMind團隊還參考了克拉姆尼克的意見,包括由其解答規則變體下棋子出現的位置、移動方式以及其他關于戰術思路的主觀問題。而這位前國際象棋世界冠軍的參與與評論,也有望讓這些全新規則在傳統國際象棋社區中得到關注。
這位俄羅斯國際象棋大師長久以來一直在倡導取消“王車易位”規則的變體,并表示取消這項規則為了鼓勵進攻,消除棋盤雙方消極抵抗的動機。另一方面,克拉姆尼克還發現“僵局=勝利”變體對于國際象棋的總體影響較小。
國際象棋網站Chess.com首席國際象棋棋手Danny Rensch也通過視頻點評了DeepMind的發現。但與克拉姆尼克不同,Rensch認為“僵局=勝利”這項規則最有可能顯著改變國際象棋的標準游戲方式。
Rensch解釋道,“除非真正消除造成僵局的因素,否則國際象棋永遠不可能徹底擺脫這個難題。我堅信僵局應該等于勝利,這不僅有助于初學者們探索關于這門運動的更多可能,同時也將給棋盤上的搏殺方式產生決定性的影響。”
最終,AlphaZero給出的觀點只能作為參考,我們無法預測哪些國際象棋規則變體能夠真正為人們所接受。找到答案的唯一方法,就是觀察人類選手如何采用、更改或放棄不同的變體。但無論如何,如果這次嘗試能夠讓更多朋友重新打開塵封已久的棋盤,就是DeepMind研究團隊最大的勝利。