編譯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
世界上第一位AI程序員Devin誕生,讓大家紛紛轉發感嘆“飯碗保不住”。
一轉眼,具有里程碑意義的AI玩家也來了!谷歌(Google)旗下DeepMind發布新智能體SIMA。
SIMA不同于自己的AI前輩們(例如一生都在下圍棋的AlphaGo),AI從被訓練玩一個單獨的游戲解脫出來,第一次成為了可玩所有游戲的、能接受指導的游戲AI代理。
可以想見未來的AI,完全可以編個游戲給自己玩,再指導自己在游戲中進行操作和升級。
圖片
回到現實,SIMA目前的游戲水平還比較“菜”。
但是SIMA能理解自然語言,并在多個視頻游戲環境中執行任務的意義卻是深刻的——AI如果能在虛擬環境中能展現自己泛化和執行復雜任務的潛力,那么這種能力就有望復刻到現實世界,并最終指向AGI與“世界模型”。
圖片
1.玩游戲,從觀看視頻學起
為了教會SIMA玩游戲,DeepMind與八家游戲工作室合作,只為給孩子帶來最好的游戲環境。
圖片
SIMA在九款不同的視頻游戲上進行訓練和測試,Hello Games的《無人深空》、Tuxedo Labs的《拆解》他都玩過。不同的游戲給都SIMA打開了新奇的互動世界,每款游戲又匹配了需要學習的不同技能,從簡單的導航、菜單使用,到采礦資源、駕駛宇宙飛船或制作頭盔。
DeepMind還構建了四個研究環境,甚至包括與Unity合作建立的Construction Lab,SIMA學習怎么用積木搭造雕塑,訓練他的對象操作能力和對物理世界的直觀理解——聽起來很像一個小孩。
通過在不同的游戲世界里進行訓練,SIMA了解了語言如何與游戲中的行為相聯系。第一個訓練方式是觀看玩家指導另一個玩家進行游戲的視頻,以學習語言和游戲操作的關系。DeepMind還讓玩家自由玩耍,然后給SIMA回放他們的行為并標注可能指導他們游戲行動的語言指令。
SIMA包括預訓練的視覺模型和一個主模型,該模型包括記憶并輸出鍵盤和鼠標動作。
圖片
2.SIMA:一個多才多藝的AI代理
SIMA是一個能夠感知和理解各種環境,然后采取行動實現指導目標的AI代理。它包括一個用于精確圖像-語言映射的模型和一個視頻模型,該模型預測屏幕上接下來會發生什么。DeepMind在SIMA組合中特定的3D設置上對這些模型進行了微調。
SIMA不需要訪問游戲的源代碼,也不需要特定的API。它只需要兩個輸入:屏幕上的圖像和用戶提供的簡單自然語言指令。
SIMA使用鍵盤和鼠標輸出來控制游戲的中心角色執行這些指令,就像人類玩游戲的方式一樣,這意味著SIMA擁有與任何虛擬環境互動的潛力。
當前版本的SIMA在600項基本技能上進行了評估,涵蓋了移動(例如“向左轉”)、對象交互(“爬上梯子”)和菜單使用(“打開地圖”)。SIMA可以在大約10秒內完成簡單的游戲任務。
DeepMind希望SIMA能不斷進化。未來的AI玩家需要處理用到“高級戰略規劃”和包含多個子任務的任務,例如“尋找資源并建立營地”。
這對于AI來說是一個重要的目標,因為盡管大型語言模型已經催生了能夠捕捉關于世界的知識并生成計劃的強大系統(例如ChatGPT),但它們目前缺乏代表我們采取行動的能力。
3.強大的泛化能力,SIMA未來可期
從SIMA的表現來看,他證實了一個在多款游戲上訓練的代理比只學會了玩一款游戲的AI代理要好。
在評估中,SIMA在訓練組合中的九款3D游戲上接受訓練的表現要顯著優于僅在每款單獨游戲上訓練的專門代理。更重要的是,在所有游戲中接受訓練的SIMA,當他玩一款從未見過的游戲,他的表現幾乎與只被訓練玩改款游戲的AI代理一樣好。
這種在全新環境中展現的能力,突出了SIMA泛化超越其訓練的能力。但這只是一個初步結果,作為“寶寶”的SIMA要在游戲中達到人類水平還有很長的路要走。
DeepMind同時發現,SIMA的表現依賴于語言。在一個控制測試中,AI代理沒有接受任何語言訓練或指令,它的行為是正確的,但是漫無目的。例如,AI代理可能會收集資源,這是一種正常的游戲行為,但卻沒有走向它被指示應該去做的事情。
圖片
DeepMind評估了SIMA遵循指令完成近1500個獨特游戲任務的能力,部分使用了人類裁判。作為基線比較,DeepMind使用環境專門化的SIMA代理的表現(在單一環境中訓練和評估以遵循指令),并將這一表現與三種類型的通用SIMA代理的表現進行了比較,每種代理都在多個環境中接受訓練(上圖)。
SIMA的結果展示了開發新一代通用的、語言驅動的AI代理的潛力。這還是早期階段的研究,SIMA可以在后續的訓練中持續學習,并成長和整合更有能力的模型。
DeepMind將SIMA的成長方向定位于更加泛化和多功能。當SIMA擁有對更高級語言指令的理解和行動能力,就能實現更復雜的目標。
也許有一天SIMA可以與人類玩家一戰。那么,你愿意選擇他作為你的游戲“搭子”嗎?