北大等發布最新AI智能體Jarvis-1,制霸「我的世界」
智能體研究又取得了新成績!
最近,來自北大、北郵、UCLA和BIGAI的研究團隊聯合發表了一篇論文,介紹了一個叫做Jarvis-1的智能體。
論文地址:https://arxiv.org/pdf/2311.05997.pdf
從論文標題來看,Jarvis-1的Buff可謂拉滿了。
它是個多模態+記憶增強+多任務處理的開放世界語言模型,玩兒「我的世界」游戲堪稱一絕。
圖為Jarvis-1解鎖我的世界科技樹
在論文摘要中,研究人員表示,在開放世界,通過多模態來觀測并實現類人的規劃能力以及控制能力,是功能更強的通用智能體的一個重要里程碑。
要知道,用現有的方法確實可以處理開放世界中的某些長線任務。然而,開放世界中的任務數量可能是無限的,這種情況下傳統方法就會很吃力,而且還缺乏隨著游戲時間的推移,逐步提高任務完成度的能力。
Jarvis-1則不一樣。它能感知多模態輸入(包括自我觀察以及人類指令),生成復雜的計劃并執行嵌入式控制。所有這些過程都可以在開放的「我的世界」游戲中實現。
下面咱們就來看一看,Jarvis-1和別的智能體究竟有什么不一樣。
實現過程
具體來說,研究人員會在預先訓練好的多模態語言模型基礎上開發Jarvis-1,將觀察和文本指令映射到計劃中。
這些計劃最終會分派給目標條件控制器。研究人員為Jarvis-1 配備了多模態的存儲器,這樣它就能利用預先訓練好的知識和實際游戲的經驗進行相應規劃。
在研究人員的實驗中,Jarvis-1在「我的世界」基準的200多個不同任務(初級到中級)中表現出了近乎完美的性能。
舉例來說,Jarvis-1在合成鉆石鎬的長線任務中,完成率達到了驚人的12.5%。
這個數據表明,和之前的記錄相比,Jarvis-1在鉆石鎬任務中的完成率大幅提高了5倍,遠遠超過之前SOTA級別的VPT處理這個任務的完成率。
此外,論文中還展示了Jarvis-1通過多模態記憶,能做到在終身學習范式下進行自我完善,從而激發出更廣泛的智能并提高自主性。
在文章開頭的那個解鎖技能樹圖片里,Jarvis-1可以穩定獲得「我的世界」主科技樹上的大量高級物品,如鉆石、紅石和黃金等等。
要知道,想要獲得這些物品需要收集10多種不同的中間物品才可以。
下圖更加直觀地展示了開放世界的環境中有哪些挑戰,以及Jarvis-1是如何應對這些挑戰。
最左側,與不采用情境感知規劃的GPT相比,采用該方法的Jarvis-1大幅提高了在獲取鉆石任務中的成功率,這個任務十分具有挑戰性。藍色的是人類的完成率,受實驗條件所限,只統計了10分鐘。
中間的圖示是隨著任務復雜度的增加(石頭→鐵礦→鉆石),Jarvis-1通過交互式規劃表現出了顯著的優勢。和GPT的表現相比好出太多。
右側為Jarvis-1從多模態記憶中檢索到的其它任務(y軸所示)的上下文經驗,在選定任務(x軸所示)上的成功率提高了多少(用顏色的深淺來表示)。
可以看出,通過終身的學習和記憶,Jarvis-1可以利用先前在相關任務上的經驗來改進對當前任務的規劃。
說了這么多性能上的優勢,Jarvis-1有如此好的表現以及超越GPT的性能,歸功于以下三點:
- 從LLM到MLM
首先,我們知道,感知多模態感官輸入的能力,對于在動態和開放世界中模型進行規劃至關重要。
Jarvis-1通過將多模態基礎模型與LLM相結合,實現了這一點。與盲目生成計劃的LLM相比,MLM能夠自然地理解當前情況并制定相應的計劃。
此外,還可以通過多模態感知獲得豐富的環境反饋,從而幫助規劃者進行自我檢查和自我解釋,發現并修復計劃中可能存在的錯誤,實現更強的交互式規劃。
- 多模態記憶
過去的一些研究表明,記憶機制在通用智能體的運作中發揮著至關重要的作用。
研究人員通過為Jarvis-1配備多模態記憶,可以有效地讓它利用預先訓練的知識和實際經驗進行規劃,從而顯著提高規劃的正確性和一致性。
與典型的RL或具有探索能力的智能體相比,Jarvis-1中的多模態記憶使其能夠以非文本的方式利用這些經驗,因此無需額外的模型更新步驟。
- 自我指導和自我完善
通用智能體的一個標志,就是能夠主動獲取的新經驗并不斷進行自我完善。在多模態記憶與探索經驗的配合下,研究人員觀察到了Jarvis-1的持續進步,尤其是在完成更復雜的任務時更是如此。
Jarvis-1的自主學習能力標志著這項研究向通用智能體邁出了關鍵一步,這種智能體可以在極少的外部干預下不斷學習、適應和改進。
主要挑戰
當然,在實現開放世界游戲的過程中,肯定也會遇到很多困難。研究人員表示,困難主要有三個。
第一,開放世界就意味著,想要完成任務并不是只有一條通路。比方說,任務是做一張床,智能體既可以從羊身上收集羊毛來做,也可以收集蜘蛛網,甚至還可以直接和游戲里的村民NPC交換。
那么究竟在當下的情況下選擇哪種途徑,就需要智能體具有審時度勢的能力。換言之,要對當下的情況有一個比較不錯的把握,即情景感知(situation-aware planning)。
在實驗過程中,智能體有些時候會出現判斷有誤,導致任務完成效率不高甚至失敗的情況出現。
第二,在執行一些高復雜度的任務時,一個任務往往由大量小任務組合而成(20+個)。而每個小任務的達成也不是那么容易的事,條件往往比較苛刻。
比如上圖中,做一個附魔臺,就需要用鉆石搞挖三個黑曜石。而怎么做鉆石鎬又是個麻煩事。
第三,就是終身學習(lifelong learning)的問題。
畢竟,開放世界中的任務數不勝數,讓智能體預先全部習得顯然不現實。這就需要智能體不斷在規劃的過程中進行學習,即終身學習。而Jarvis-1在這方面的表現已經在上一部分有所提及。
整體框架
Jarvis-1的整體框架如下圖所示。
下圖左側包括一個記憶增強的多模態語言模型(MLM)和一個低級的行動控制器(controller),前者可以生成計劃。
同時,Jarvis-1還能利用多模態存儲器存儲和獲取經驗,作為進一步規劃的參考。
可以看到,下圖中間部分就是Jarvis-1如何利用MLM生成計劃的流程圖,十分簡潔易懂。
在收到任務后,MLM開始提供一些建議,發到planner,最終生成計劃。而多模態記憶庫可以被隨時調用,新生成的計劃也會被作為學習的內容儲存進去。
最右側即為Jarvis-1自我學習的流程圖。
舉個例子來看,現在輸入一個獲取鉆石礦的任務。
MLM這就開始計劃了——右側最上部的綠框即為初始計劃,自檢后發現有物品的缺失,于是調整了計劃,更正了要獲取的物品的數量。
接著多模態模型進行反饋,執行的過程中發現任務失敗,隨機自檢當下的狀態,比如鎬子壞了。再一看庫存,還有能生成鎬子的原料,開干。當然,這一步還有個自我解釋的環節(self-explain)。
最終,生成新計劃,任務終于完成。
下圖展示了Jarvis-1是如何生成查詢結果的。
首先會考察當下的觀察結果和任務,Jarvis-1會首先進行逆向思維,找出所需的中間子目標。
當然,推理的深度是有限的。記憶中的子目標將與當前的觀察結果結合起來,再形成最終的查詢結果。
再將與文本查詢相匹配的條目根據其狀態與觀察查詢的感知距離進行排序,而后只有每個子目標中最靠前的條目才會被檢索到。
在實驗環節,研究人員選用的任務都出自最近推出的「我的世界」基準。
實驗開始前,相關設置如下:
環境設置~為確保游戲逼真,智能體需要利用與人類類似的觀察和行動空間。研究人員沒有像以往的方法那樣為模型與環境交互手動設計自定義界面,而是選擇使用了「我的世界」提供的原生人類界面。
這既適用于智能體進行觀察,也適用于行動。該模型以每秒20幀的速度運行,而且與人類圖形用戶界面交互時需要使用鼠標和鍵盤界面。
- 任務設置
在「我的世界」中,玩家可以獲得數千種物品,每種物品都有特定的獲取要求或配方。在生存模式中,玩家必須從環境中獲取各類物品,或者用材料制作/熔煉物品。
研究人員從 「我的世界」基準中選擇了200多個任務進行評估。為便于統計,研究人員根據「我的世界」中的推薦類別將其分為 11 組,如下圖所示。
由于這些任務的復雜程度不同,團隊對每個任務采用了不同的最大游戲持續時間。
- 評估指標
在默認情況下,智能始終玩生存模式,初始庫存為空。
如果在指定時間內獲得目標對象,則視為任務成功。由于「我的世界」的開放性特點,智能體啟動時所處的世界和初始位置可能會有很大不同。
因此,研究人員使用不同的種子(類似于一個地圖生成碼)對每個任務進行了至少 30次的測試,并反饋平均成功率,以確保進行更加全面的評估。
下圖左側展示了Jarvis-1的游戲成功率。還和VPT模型進行了比較。
右側則展示了Jarvis-1在執行任務中,一些中間物品的獲取成功率。可以看到,隨著時間的推進,成功率還是非常高的。