顫抖吧人類!阿爾法狗之后又有了冷撲大師
恐怕大家都是從阿爾法狗擊敗李世乭這條熱文,才開始關注AI的吧,然而現在不光有了阿爾法狗,還出了一個冷撲大師,專攻德撲的一款AI機器人。
首先先來了解下德州撲克與棋類的區別。圍棋是一種“完美信息游戲”,場面上所有的情況都黑白分明地擺在棋面上,雙方掌握對等的信息。然而,德撲中隱藏了很多信息,是一種“非完美信息游戲”。玩家不知道對手手中是什么牌,不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌。因此,雖然一盤德撲的決策點數量是10的160次方,要少于圍棋,但光靠搜索是打不了德撲的。德撲由此跳出了在搜索量上的較量,對AI提出了另一個方向上的考驗:應對隱藏的信息。
阿爾法狗的幾個基本原理,分別為:走棋網絡(Policy Network),給定當前局面,預測和采樣下一步的走棋;快速走子(Fast rollout),在適當犧牲走棋質量的條件下提高速度;價值網絡(Value Network),給定當前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯成一個完整的系統。
冷撲大師的算法則主要基于:納什均衡、虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)、殘局解算器(end-game solver)和自我強化學習等模塊。
然而對于用戶來說,阿爾法狗和冷撲大師除了能讓我們看看新聞以外,哪個又更有用呢?
在現實生活中,我們遇到的事情會更像玩德撲:商業談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內部消息。桑德霍姆認為,德撲AI打開了靠人工智能解決隨機事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現實生活中談判、博弈和投資的好幫手。