DeepMind首發游戲AI智能體SIMA!只用自然語言就能玩轉「山羊模擬器」
谷歌DeepMind在AI和游戲方面有著悠久的歷史。
從過去與Atari游戲的密切合作開始,然后發展到AlphaStar系統可以在《星際爭霸II》中達到人類大師級水平,到如今,DeepMind從單個游戲轉向了通用的、可指導的游戲AI代理。
SIMA,是一個可擴展的、能聽從指導的多世界AI代理,這是一個用于3D虛擬環境的通用AI代理。
技術報告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
想象一下,它完全不需要游戲源代碼,也不需要什么特殊的API接口。它只需要兩個簡單的輸入:屏幕上的圖像和用戶口頭提供的簡單自然語言指令。然后,SIMA就會像魔術師一樣,通過鍵盤和鼠標控制游戲角色執行這些指令。
這種簡單直接的界面,就像是我們人類自己所用的方式,這是一個AI代理首次展示出它能夠理解廣泛的游戲世界的能力,同時可以按照自然語言的指令在其中執行任務,就像人類一樣。
圖片
SIMA從視頻游戲中學習
SIMA由預先訓練好的視覺模型和一個主模型組成,主模型包括一個存儲器,可輸出鍵盤和鼠標操作。
圖片
它在九款不同的視頻游戲上對SIMA進行了訓練和測試,例如Hello Games的《無人深空》和Tuxedo Labs的《拆解》。
圖片
每款游戲都為SIMA打開了一個新的交互世界,從簡單的導航和菜單使用,到挖掘資源、駕駛飛船或制作頭盔等一系列技能。
DeepMind團隊還使用了四個研究環境,其中包括Unity構建的名為“建造實驗室”的新環境。在這個環境中,SIMA需要用建筑塊建造雕塑,從而測試其對物體操縱和對物理世界的直觀理解能力。
通過從不同游戲世界中學習,SIMA捕捉了語言與游戲行為之間的關系。
例如,它會觀察人類玩家的操作,并記錄下導致這些游戲行為的指令。這樣的訓練使得SIMA能夠逐漸理解游戲世界中的語言和行為之間的聯系。
SIMA的誕生意味著什么
SIMA的誕生并不是為了取得高游戲得分。
對于AI系統來說,即使是學會玩一個視頻游戲也是一項技術壯舉,但學會在各種游戲設置中遵循指令,可能會為適應任何環境提供更多幫助。
SIMA已經評估了600種基本技能,涵蓋了導航、物體交互和菜單使用。它已經可以執行在10秒中內完成的簡單任務。
DeepMind希望未來代理能夠處理那些需要高級戰略規劃和多個子任務才能完成的任務,例如“尋找資源并建造營地”。
這對于AI來說是一個重要的目標,因為雖然大型語言模型已經催生了可以捕捉關于世界知識并生成計劃的強大系統,但它們目前還缺乏代表人類采取行動的能力。
Jim Fan也對SIMA表達了期許的態度,他補充道,他對于SIMA喜歡的地方包括:
- 這是第一個通過鼠標或鍵盤進行操作的代理,不需要用語言進行調整
- 適應多種環境,涵蓋游戲和3D模擬器
- 擁有強大的數據管道,招募人類玩家以記錄行為,以及用語言進行注釋
但他也同時指出了一些不足之處,包括環境數量有限;行動時長非常短,只有約10秒;數據管道不夠有擴展性等。
圖片
跨游戲的泛化和未來
在DeepMind的評估中,SIMA在一組九款3D游戲中表現明顯優于僅在每個單獨游戲上進行訓練的所有專門代理。
更重要的是,SIMA在未見過的游戲上的表現與專門為其進行訓練的其他代理相比,平均表現幾乎相同。
這種在全新環境中運作的能力突顯了SIMA在訓練之外的泛化能力。
這是一個令人鼓舞的初步成果,但需要進一步的研究才能讓SIMA在已知和未知的游戲中達到與人類相媲美的水平。
圖片
結果還表明,SIMA的表現依賴于語言。
在一項控制實驗中,當代理沒有接受任何語言培訓或指令時,它的行為雖然符合邏輯,但缺乏目標性。例如,代理可能會執行一些常見的操作,如收集資源,而不是按照預先指定的路徑行動。
SIMA的結果展現的是新的泛化的、由語言驅動的AI代理的潛力。
AI代理的完成態,是達到更加通用、能夠幫助虛擬世界和現實世界的人們,理解并安全地執行各種任務。
SIMA只是剛剛開始,我們可以期待在更多的訓練環境中繼續建立SIMA,并整合更有能力的模型,讓它變得更具泛化性和多功能性,而不僅僅局限于游戲。
參考資料:
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/