從Minecraft到虛幻5,AI首次實現3D游戲零樣本遷移,跨游戲直接上手
該研究成果由北京大學和加州大學洛杉磯分校共同完成。第一作者蔡少斐為北京大學三年級博士生,通訊作者為北京大學助理教授梁一韜。該工作基于 MineStudio 開源項目,一個全流程簡化版 Minecraft AI Agent 開發包,相關代碼均已在 GitHub 上開源。
在 Minecraft 里能打怪、建房、探險的 AI 已經夠厲害了,但你見過能一跳跨進另一個游戲世界、直接上手操作的 AI 嗎?
北京大學最新發布的智能體 ROCKET-2 做到了這一點。它僅在 Minecraft 上預訓練,卻能直接泛化到多個從未見過的 3D 游戲環境中,比如 “毀滅戰士(VizDoom)”、“DeepMind Lab” 甚至是 “虛幻 5 引擎”,真正實現了零樣本跨游戲遷移。
- 論文鏈接:https://arxiv.org/pdf/2503.02505
- 項目主頁:https://craftjarvis.github.io/ROCKET-2
- 代碼倉庫:https://github.com/CraftJarvis/ROCKET-2
- MineStudio:https://github.com/CraftJarvis/MineStudio
ROCKET-2 效果是這樣的:
ROCKET-2 在 Minecraft 中遵循人類指令完成任務的示例
(畫面為智能體視角,右上小圖為目標第三視角,其中分割掩碼表示交互目標)
Minecraft AI 首次對末影龍造成了傷害
Minecraft AI 首次涌現出 “搭橋” 能力
ROCKET-2 零樣本適配虛幻 5 引擎
ROCKET-2 零樣本適配毀滅戰士
ROCKET-2 零樣本適配 DeepMind Lab
方法介紹
研究團隊首先從 “指令空間” 這一核心問題入手。
所謂指令空間,是指人類與智能體溝通的接口。一個設計良好的指令空間,不僅能幫助人類更高效地表達意圖,也能顯著提升智能體的理解效率與訓練效果。
提到指令空間,許多人第一時間會想到自然語言。語言的確是人類構建復雜社會關系、實現高效協作的關鍵工具。然而,該研究團隊指出,自然語言作為指令媒介在智能體交互中存在三大顯著劣勢:
1. 表達空間關系低效:
例如,當我們希望智能體拆除房屋中某塊特定位置的磚塊時,需要使用大量方位詞和空間描述來構造完整句子,這種方式不僅冗長,還容易引發歧義。
2. 難以泛化到新視覺概念:
一旦游戲中出現新的物體或怪物(如版本更新或新關卡設計),語言模型往往無法利用已有詞匯完成對齊,這嚴重限制了指令的可泛化性,是阻礙 AI 泛化到新游戲環境的關鍵因素之一。
3. 訓練數據標注成本高昂:
要訓練一個能理解語言的智能體,通常需要對大量視頻進行精細標注。這個過程極其耗時且難以擴展,成為限制語言指令規模化應用的重要瓶頸。
基于上述問題,該團隊進一步探索了無需語言的指令形式,并提出了 “跨視角目標對齊” 的新范式,構建出一種更具泛化性、可擴展性的指令空間。
跨視角目標對齊示例圖
針對傳統指令空間存在的諸多局限,該團隊創新性地提出了一個名為 “跨視角目標對齊” 的新概念。
這一方法強調,人類用戶和智能體以不同視角對同一環境進行觀測:其中,人類用戶可以在自身視角中通過分割掩碼標注目標物體;而智能體則同時接收人類視角及其對應的目標掩碼,以及自身視角下的環境觀測。通過跨視角的信息對齊,智能體能夠建立起目標在不同視角之間的空間映射關系,進而推斷出人類的交互意圖,并輸出相應的動作序列完成交互任務。
這種設計的最大優勢在于:指令空間被重構為一種語言無關、領域無關的表達方式,使得指令理解能力不再依賴自然語言或手工設計的命令系統,而是由智能體對 3D 空間的理解能力與跨視角對齊能力共同決定,為泛化至更多 3D 場景提供了新的可能性。
此外,這一機制也極大降低了人機交互的門檻:人類用戶只需通過簡單的 “指指點點” 操作,即可表達復雜的交互意圖,無需費力描述或理解繁瑣的空間關系,進一步推動了更自然、高效的人機協作方式的發展。
盡管本文提出的指令空間概念功能強大、泛化能力突出,但一個關鍵問題隨之而來:它真的容易訓練嗎?
研究團隊指出跨視角目標對齊在實際訓練中面臨諸多挑戰,比如不同視角之間的幾何形變、物體遮擋、以及來自環境中其他物體的干擾等。這些因素導致智能體難以穩定地理解人類所指示的目標,僅僅依賴常規的行為克隆損失(Behavior Cloning Loss)進行模仿學習是遠遠不夠的。為此,團隊從跨視角交互中提出了一個關鍵假設:
人類和智能體視角中觀測到的目標物體應具有一致性(交互一致性)。
基于這一假設,他們設計了兩個輔助任務與對應的損失函數,以提升訓練穩定性和泛化能力:
1. 跨視角一致性損失(Cross-View Consistency Loss):
要求智能體從自身視角出發,準確預測目標物體在圖像中的中心位置與邊界框,從而學習對目標的空間感知能力。
2. 目標可見性損失(Target Visibility Loss):
要求智能體判斷目標物體在其當前視角下是否可見,幫助其在遮擋場景中保持魯棒的目標感知能力。
通過引入這兩項輔助任務,ROCKET-2 在訓練中有效克服了跨視角的不確定性,使得指令空間的強大能力得以真正落地。
ROCKET-2 模型架構
如圖所示,ROCKET-2 的整體架構由 Spatial 模塊與 Temporal 模塊共同構成。其中,Spatial 模塊采用非因果(non-causal)Transformer 編碼器,用于提取單幀圖像中的空間特征;而 Temporal 模塊則使用因果(causal)Transformer,用于建模隨時間演化的動態信息。該研究強調,Temporal 模塊在時序建模中的作用至關重要。它能夠幫助模型在目標被暫時遮擋的情況下,依然維持對目標物體的追蹤與理解,從而保證智能體的行為具備連續性和穩健性。
性能 - 效率曲線
實驗及結果
在對空間細節要求極高的 Minecraft Interaction 任務上,研究團隊將 ROCKET-2 與當前主流的 Minecraft 智能體,包括 ROCKET-1、STEVE-1 和 GROOT-1 進行了系統對比。
實驗結果顯示,ROCKET-2 在大多數任務中均達到了接近 100% 的最新 SOTA(State of the Art)水平,在性能上實現了顯著突破。更令人矚目的是,其推理速度相比 ROCKET-1 提升了 3 至 6 倍。這一優勢主要得益于指令空間設計的優化:ROCKET-1 依賴外部的物體追蹤模型,在每一幀都需實時生成分割掩碼,計算開銷較大;而 ROCKET-2 只需在交互初始時生成一次目標掩碼,大幅降低了計算成本。
此外,與基于語言指令的智能體 STEVE-1 相比,ROCKET-2 實現了高達 80% 的絕對性能提升,充分驗證了其跨任務、跨場景的泛化能力和更高效的指令理解方式。
人機交互案例分析
研究團隊還分析了一些典型的人機交互案例,發現即使在智能體初始視角中無法直接觀測到人類所指示的目標物體時,它仍能憑借對環境中 “地標性建筑” 或顯著參照物的識別,合理推斷出目標物體可能的位置,并自主導航前往完成交互任務。
ROCKET-2 的推出標志著交互式智能體向前邁出了關鍵一步。它不僅在 Minecraft 中展現出強大的生存、戰斗與建造能力,更首次實現了 3D 游戲間的零樣本遷移,突破了長期以來 AI 難以跨場景泛化的瓶頸。通過創新的跨視角目標對齊機制與高效的架構設計,ROCKET-2 重新審視了人機交互范式,也為構建面向未來的多模態通用智能體奠定了基礎。
從 Minecraft 到虛幻 5,從像素世界到物理模擬,ROCKET-2 展示了 AI 主動理解、泛化與交互的全新可能性。或許在不遠的將來,跨平臺、跨任務、跨世界的 “萬能 AI” 將真正走入現實。