首個精通3D任務的具身通才智能體:感知、推理、規劃、行動統統拿下
想要邁向通用人工智能,必須要構建一個能夠理解人類生活的真實世界,并掌握豐富技能的具身通用智能體。
今年以來,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等為代表的多模態大語言模型(Multi-modal Large Language Model)在自然語言處理、視覺理解、機器人等任務上取得了顯著的成功,但這類模型都是基于二維圖片文本數據訓練得到,在理解三維世界和與三維世界交互方面能力欠缺。
為解決這一問題,北京通用人工智能研究院聯合北京大學、卡耐基梅隆大學和清華大學的研究人員提出了首個三維世界中的具身多任務多模態的通才智能體 LEO。
- 論文鏈接:https://arxiv.org/abs/2311.12871
- 項目主頁:https://embodied-generalist.github.io/
- 代碼鏈接:https://github.com/embodied-generalist/embodied-generalist
通才智能體 LEO 以大語言模型為基礎,可以完成感知(perception)、定位(grounding)、推理(reasoning)、規劃(planning)和動作執行(acting)等任務。
LEO 的三維視覺語言理解、具身推理和動作執行能力在現實世界中有廣泛的應用場景與巨大的應用價值。作為未來的家庭助理,LEO 可以與人交互,回答與場景相關的問題,例如根據用戶喜好調整家居布局、幫助用戶找到特定物品、為用戶的各種問題提供建議。LEO 的導航能力可用于購物中心、辦公樓中的智能引導,其操控能力可用于家居自動化任務,如打掃、整理或簡單廚房任務,以及倉庫和物流中心的物品整理和搬運。
研究概述
圖 1. LEO 能力示意圖
通才智能體 LEO 以 LLM 為基礎,在不同任務之間采用共享的架構和權重,經由如下兩個階段訓練得到:
1)三維視覺 - 語言對齊
2)視覺 - 語言 - 動作指令微調。
為完成上述兩階段的訓練,作者收集并生成了包括物體級別(object-level)和場景級別(scene-level)的大規模數據集,并在問答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身導航(embodied navigation)、機器人操作(robotic manipulation)多個任務上展示了 LEO 杰出的能力。
該工作的主要貢獻可以總結如下:
1)構建了第一個能夠在三維世界中進行感知、定位、推理、規劃和動作執行的具身智能體 LEO。
2)提出了高效的學習策略,將以物體為中心(object-centric)的三維表征與 LLM 連接起來,同時加入具身動作任務,在三維世界中打通視覺 - 語言 - 動作(vision-language-action)。
3)提出了生成高質量三維視覺語言數據的方法,構建了視覺 - 語言 - 動作(vision-language-action)指令微調的大規模數據集。
模型介紹
圖 2. LEO 的通用任務序列和自回歸式訓練目標
LEO 模型的整體設計思想圍繞兩個核心點:
1)在統一的框架內處理第一視角的二維圖片、三維場景信息和自然語言指令,并同時支持文本與動作的輸出;
2)能夠充分利用預訓練語言模型的先驗信息來促進下游任務?;谏鲜鰞蓚€原則,作者設計了如圖 2 所示的模型框架,將所有的多模態(2D、3D、text)輸入都對齊到 LLM 的文本空間。
其中,作者利用 PointNet++ 提取出場景點云中物體級別的特征,隨后用空間編碼器(Spatial Transformer)對空間位置關系進行建模,從而得到三維場景級別(scene-level)的特征。輸入中的二維圖像則經過預訓練模型 OpenCLIP ConvNext 處理得到第一視角的視覺特征。二維和三維的視覺特征最后分別經過 projector 映射到文本空間中。
具體過程如圖 3 所示。
圖 3. 圖片和三維場景特征提取示意圖
LLM 方面,作者采用 Vicuna-7B 作為預訓練語言模型來處理 token 序列,訓練中,利用 LoRA 方法來微調 LLM,訓練目標如圖 2 中所示。
數據集
數據集概況
根據兩階段的訓練策略,作者分別收集了相應的數據,其整體概況如圖 4 所示。數據集涵蓋了大規模的三維物體數據,如 Objaverse,以及三維場景數據集,如 ScanNet、3RScan、Matterport3D 等,還包括了機器人操作相關的數據集 CLIPort,表 1 則給出了兩階段訓練中所有數據的來源和數量統計。
圖 4. LEO 數據集示意圖
表 1. 數據集統計
LLM 輔助數據生成
為了解決當前三維場景視覺語言指令微調數據不足、現有的生成方法得到的數據質量不高的問題,作者提出了基于三維在場景圖(scene graph)的數據生成方法,以及精煉過程(refinement procedures)來生成高質量的數據。具體過程如圖 5 所示。
圖 5. 基于 LLM 的三維視覺 - 語言指令微調數據生成
為了提高 LLM 生成數據的可靠性,作者提出了物體為中心的思維鏈(Object-centric Chain-Of-Thought)方法,提高生成回答和場景的關聯,減少了輸出中的幻覺(hallucination),并進一步通過精煉過程(Refinement Procedures)糾正生成數據中的錯誤。經過這一流程,最終得到了高質量的指令微調數據,更多關于數據集生成方法的細節和統計結果參見論文的附錄部分。
模型能力
三維視覺語言理解和具身推理
視頻 1. LEO 在 ScanQA, Scan2Cap, SQA 等任務上的表現
作者在三維場景問答數據集 ScanQA、三維物體描述數據集 Scan2Cap、三維場景具身推理數據集 SQA3D 上測試了模型的能力,這幾類任務都以三維場景、自然語言指令為輸入,其中 SQA3D 任務上還包括了提問時所處的位置和朝向,基于這些輸入模型需要給出相應的回答,如上面的視頻所示。
作者比較了之前各個數據集上的 SOTA 方法,如 3D-VisTA [4],3D-LLM [5],結果表 2 所示,實驗結果表明 LEO 在三維視覺語言理解的任務上的多個指標明顯優于之前的方法。
表 2 - 表 4. LEO 在三維視覺語言理解任務上的性能表現
三維世界中的具身動作執行
視頻 2. LEO 在 manipulation 和 object navigation 任務上的表現
作者測試了 LEO 在機器人操作數據集 CLIPort 上的表現,該任務要求模型根據三維、二維感知結果和自然語言指令輸出機械臂操作指令,如視頻 2 所示。作者比較了 CLIPort 的基線方法 [6],結果如表 3 所示,證明了提出方法的優越性。另外,作者還測試了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)這兩個數據集上的表現,這一任務以三維場景、第一視角圖片和自然語言指令作為輸入,模型需要給出下一步的動作,如視頻 3 所示。
論文與近期的相關工作 [7][8] 進行了比較,如表 4 所示??梢钥闯鏊岱椒ㄔ趯W習最短路徑數據下的表現可圈可點,在 SPL 指標上超越了先前的基準方法,而由于 LEO 的模型沒有采用 recurrence 的結構,因此在學習 70k human demonstrations 的設定下表現出的能力有限。
圖 6. LEO 的能力可視化
三維場景中的對話和規劃
圖 6 給出了 LEO 在多種任務中的可視化結果,可以看出,由于經過了指令微調訓練的過程,LEO 可以進行多輪的場景對話,如按照用戶需求在場景中尋找物體、按照不同的要求描述房間中的物體、給出建議等。還可以根據場景信息進行任務規劃,如將房間整理為一個學習空間、打掃房間、重新裝飾房間等,更多的例子可以在項目主頁中進一步了解。
實驗分析
圖 7. 消融實驗結果
為了研究所提出的訓練策略有效性,作者進行了不同數據集和訓練階段的多組對比實驗。其中圖 7-(a) 展示的是采用不同的訓練數據得到的模型在多個任務上的表現,圖 7-(b) 展示的是采用不同規模的 token 訓練得到的模型對 test loss 的影響。
從實驗可以得出如下結論:1)指令微調訓練遵循 scaling law [9] 的規律。2)所提出的兩階段訓練策略是重要的,對齊階段的缺失會造成性能的明顯下降。3)簡單將模型參數規模從 7B 擴大至 13B 會造成性能的降低。
結論
本文提出的智能體 LEO 將當前的 LLM 模型能力拓展到了三維世界以及動作執行任務上,這一工作為構建通用具身智能體邁出了重要的一步。
基于這一工作,作者認為未來可以在如下方面進一步進行探索:
1)通過大規模的場景 - 文本數據對提升三維視覺 - 語言定位能力;
2)填補視覺 - 語言能力和動作執行能力之間的差距;
3)探索具身通用智能體的對齊和安全問題。
團隊介紹
論文核心團隊來自北京通用人工智能研究院通用視覺實驗室,團隊負責人黃思遠博士長期從事關于三維場景理解、具身智能體、視覺機器人等方向的相關工作。該團隊擁有包括全職研究員、工程師、以及實習生在內的三十余人團隊,團隊的長期目標是打造未來的通用具身智能體 / 視覺機器人。