導航、采礦、建造，北大這個新智能體把《我的世界》玩透了

作者：機器之心 2024-10-30 15:30:00

CraftJarvis 團隊提出利用 VLMs （視覺語言模型）強大的視覺語言推理能力來指導任務的完成，并創新地提出了一種基于視覺 - 時間上下文提示（Visual-Temporal Context Prompting）的任務表示方法。

該研究成果由來自北京大學的蔡少斐、王子豪、連可為、牟湛存、來自北京通用人工智能研究院的馬曉健研究員、來自加州大學洛杉磯分校的劉安吉共同完成。通訊作者為北京大學助理教授梁一韜。所有作者均隸屬 CraftJarvis 研究團隊。

在游戲和機器人研究領域，讓智能體在開放世界環境中實現有效的交互，一直是令人興奮卻困難重重的挑戰。想象一下，智能體在《我的世界（Minecraft）》這樣的環境中，不僅要識別和理解復雜的視覺信息，還需要利用鼠標和鍵盤精細地控制游戲畫面，快速做出反應，完成像導航、采礦、建造、與生物互動等任務。面對如此龐大且復雜的交互空間，如何能讓智能體能理解并執行人類的意圖呢？

針對這個問題，CraftJarvis 團隊提出利用 VLMs （視覺語言模型）強大的視覺語言推理能力來指導任務的完成，并創新地提出了一種基于視覺 - 時間上下文提示（Visual-Temporal Context Prompting）的任務表示方法。該方法允許人類或 VLMs 在當前和歷史游戲畫面中將希望進行交互的物體分割出來，來傳達具體的交互意圖。為了將交互意圖映射為具體的鼠標鍵盤操作，該團隊進一步訓練了一個以物體分割為條件的底層策略 ROCKET-1。這種融合了視覺 - 時間上下文提示的智能體架構為開放世界的交互奠定了基礎，預示了未來游戲 AI 和機器人互動的新可能性。

論文鏈接: https://arxiv.org/pdf/2410.17856
項目主頁: https://craftjarvis.github.io/ROCKET-1

研究創新點

視覺 - 時間上下文提示方法

架構對比圖；(e) 為基于視覺 - 時間上下文提示的新型架構

視覺 - 時間上下文提示是一種全新的任務表達方式。通過整合智能體過去和當前的觀察信息，該方法利用物體分割信息，為智能體提供空間和交互類型的線索，從而讓低級策略能夠準確識別和理解環境中的關鍵對象。這一創新使得智能體能夠在執行任務時始終保持對目標對象的關注。

基于物體分割的條件策略 ROCKET-1

基于因果 Transformer 實現的 ROCKET-1 架構

ROCKET-1 是一種基于視覺 - 時間上下文的低級策略，能夠在視覺觀察和分割掩碼的支持下預測行動。通過使用 Transformer 模塊，ROCKET-1 可以在部分可觀測（Partially Observable）環境中推理過去和當前觀測的依賴關系，實現精準的動作預測。與傳統方法不同，ROCKET-1 能夠處理細微的空間和時序變化，并始終關注要進行交互的物體，顯著提升了與環境交互的成功率。

反向軌跡重標注策略

反向軌跡重標記流程示意

訓練 ROCKET-1 需要收集大量帶有物體分割的軌跡數據。傳統的數據標注方法成本高、效率低，CraftJarvis 團隊提出了一種逆向軌跡重標注方法，利用 SAM-2 的物體分割能力在倒放的視頻中連續地對發生交互的物體生成分割注釋。這種方法能夠根據現有的交互事件重建數據集，使得 ROCKET-1 在離線條件下即可完成高效訓練，減少了對人工標注的依賴，并為大規模數據處理提供了切實可行的解決方案。

充分釋放預訓練基礎模型的能力

CraftJarvis 團隊將具身決策所依賴的能力分解為視覺語言推理、視覺空間定位、物體追蹤和實時動作預測，并巧妙地組合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解決。

為了應對復雜任務規劃的挑戰，該團隊引入了 GPT-4o，目前最先進的視覺語言模型之一。可以進行強大的視覺語言推理，將復雜的任務分解為一系列具體的物體交互指令。此外，該團隊采用了 Molmo 模型來將 GPT-4o 的交互意圖翻譯為觀察圖像中的坐標點，用以精確定位交互物體。

為了應對對象跟蹤的挑戰，該團隊引入了 SAM-2，一個先進的視頻分割模型。SAM-2 不僅能夠通過點提示對物體進行分割，還可以在時間上連續追蹤目標，即便物體在視野中消失或重新出現時也能有效保持跟蹤。這為 ROCKET-1 提供了穩定的對象信息流，確保了在高頻變化的環境中智能體的交互精度。

實驗成果

為了驗證 ROCKET-1 的交互能力，CraftJarvis 團隊在《我的世界》中設計了一系列任務，包括采礦、放置物品、導航和與生物互動等。

《我的世界》交互任務評測集

ROCKET-1 評測結果

實驗結果顯示，ROCKET-1 在這些任務上，尤其在一些具有高空間敏感性的任務中，獲得的成功率遠高于現有方法（在多數任務上實現了高達 90% 的成功率提升），ROCKET-1 表現出了出色的泛化能力。即便在訓練集中從未出現的任務（如將木門放到鉆石塊上），ROCKET-1 依然能夠借助 SAM-2 的物體追蹤能力完成指定目標，體現了其在未知場景中的適應性。

此外，該團隊也設計了一些需要較為復雜的推理能力的長期任務，同樣展示了這套方法的杰出性能。