中國AI麻將打出新高度!戰勝真人職業選手,鵝廠「絕藝」刷新戰績
不愧是中國AI,打麻將“輕松”登頂。
騰訊最新消息,旗下棋牌類AI“絕藝”LuckyJ在日本麻將平臺“天鳳”上,刷新AI在麻將領域最好成績。
僅需1321盤對局,絕藝LuckyJ就達到了AI最高段位,比第二名Suphx減少了4052盤對局。
而且它的能力穩定在十段,要知道人類頂級選手的平均穩定段位也只有7.4。
圖片
在日本麻將天鳳平臺上,絕藝LuckyJ也成為僅有的27個達到十段的玩家之一(包括AI),而該平臺的平均活躍人數在23.8萬。
不止是日本麻將,在國標麻將中,絕藝LuckyJ也曾擊敗過六位職業選手,成為首個戰勝國標麻將職業選手的麻將AI。
圖片
其中一位國標麻將選手作出了這樣的評價。
我們通常所謂的妙手、靈光一現,甚至是基于經驗和感覺做出的置之死地而后生的選擇,對于AI來說可能都是常規操作了。
在絕藝LuckyJ拿下日本麻將十段后,還有不少網友前來祝賀。
圖片
圖片
畢竟在AI打麻將背后,提升的其實是AI在問題決策上的能力,這也有利于讓AI去解決更多現實生活中復雜的問題。
所以絕藝LuckyJ是怎么做到的?
打麻將AI需要學會更平衡的策略
先來看AI打麻將難在哪。
對于AI來說,玩游戲是一種極佳的檢驗其能力的方式,常見形式比如下象棋、下圍棋、打王者榮耀等。
在這其中,圍棋和象棋等屬于完美信息博弈。即游戲雙方在每次落子前都能看到全局信息,也就是相互能看到彼此的情況。
這對AI來說難度并不高,因為它可以通過強大算力暴力求解,找到一個最優解。
但是打麻將的情況就復雜了。
玩家之間不僅無法看到多個其他玩家的牌,還有大量信息隱藏在沒有揭開的牌里,這就是典型的非完美信息博弈。
也就是說AI和人類玩家在最開始時都只能看到自己手里的13張牌,另外有一百多張牌未知。而且在每次打牌時要做一系列復雜的決策,比如是否吃牌、碰牌、胡牌等,做出的決策還要兼顧進攻和防守。
與此同時,其他玩家的吃碰杠操作都會改變接下來的摸牌順序,決策更加復雜。
在這樣一個橫坐標表示可觀察信息量、縱坐標表示隱藏信息量的圖標中,可以看到麻將包含的隱藏信息遠遠高于其他棋牌游戲。
圖片
所以該怎么辦?
騰訊AI Lab提出了一種基于強化學習和遺憾值最小化的自我博弈技術。
這使得AI能從零開始自我學習和提升能力,并最終收斂到一個最強的混合策略,在實際對戰過程中可以具備更加平衡的策略能力。
同時考慮到傳統的非完美信息搜索算法在麻將面前很難發揮太大作用,研究人員還基于樂觀價值估計的思想,提出了一種高效的非完美搜索方法,使得AI能在海量隱藏信息的游戲狀態中,實時調整當前策略,更好應對多變的戰局。
據研究員介紹,相比人類,AI在麻將游戲中,擁有更加平衡的策略,對局勢的計算非常精確,其中包括打每張牌的期望收益、未來可能胡哪些番型等等。在這樣的“策略”訓練下,AI之后也能更快速進入到其他行業中去。
在具體實戰測試中,絕藝LuckyJ是在“天鳳”中對決。
這是一個老牌日本麻將游戲平臺,創建于2006年。
從bootstrap分布來看,絕藝LuckyJ顯著強于另外兩個日本麻將AI(Suphx、NAGA):LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05。
圖片
另外在國標麻將將近2000場對局中,絕藝LuckyJ的平均贏番達到1.76番。
(這里番表示國標麻將的結算單位,數值越大說明贏得越多)
圖片
圖片
游戲AI已經跨行應用了
不過,這么費勁提升AI的打麻將能力,當然不是只想讓它打麻將。
騰訊 AI Lab 研究員介紹,在游戲環境中推進決策AI的能力,最終是希望AI能從虛擬走向現實,解決真實世界的復雜問題。
在現實世界中充滿了需要在非完美信息狀態下做決策的場景,比如金融交易、自動駕駛、交通物流、拍賣系統等。
而且騰訊AI Lab也已經有了實際案例。
其旗下另一個決策AI絕悟,就學會了識別病理全片掃描圖像中的病灶位置,效率是傳統方法的400%。
圖片
這個AI找尋最優看片路徑的方法,是基于強化學習。
它避免了用傳統的窮舉方式去分析局部圖像切塊,而是先決策找到有觀察價值的區域,并通過跨多個分辨率級別獲得代表性特征,以加速完成全片判讀。
通過模仿人類的思維方式,不僅提高了看片效率,還做到了節約成本。
綜上,會玩《我的世界》的絕悟已經能懸壺濟世了,也讓人期待會打麻將的絕藝之后能跨行干啥呢?
你覺得絕藝LuckyJ有哪些可應用的方向?