基礎模型+機器人：現在已經走到哪一步了

作者：機器之心 2024-01-01 22:14:04

近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）領導的一個聯合團隊發布了一篇綜述報告，介紹了基礎模型在機器人領域的應用和發展情況。

機器人是一種擁有無盡可能性的技術，尤其是當搭配了智能技術時。近段時間創造了許多變革性應用的大模型有望成為機器人的智慧大腦，幫助機器人感知和理解這個世界并制定決策和進行規劃。近日，CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐（Fei Xia）領導的一個聯合團隊發布了一篇綜述報告，介紹了基礎模型在機器人領域的應用和發展情況。

開發能自主適應不同環境的機器人是人類一直以來的一個夢想，但這卻是一條漫長且充滿挑戰的道路。

之前，利用傳統深度學習方法的機器人感知系統通常需要大量有標注數據來訓練監督學習模型，而如果通過眾包方式來標注大型數據集，成本又非常高。

此外，由于經典監督學習方法的泛化能力有限，為了將這些模型部署到具體的場景或任務，這些訓練得到的模型通常還需要精心設計的領域適應技術，而這又通常需要進一步的數據收集和標注步驟。類似地，經典的機器人規劃和控制方法通常需要仔細地建模世界、智能體自身的動態和 / 或其它智能體的動態。這些模型通常針對各個具體環境或任務構建，而當情況有變時，就需要重新構建模型。這說明經典模型的遷移性能也有限。

事實上，對于很多用例，構建有效模型的成本要么太高，要么完全無法辦到。盡管基于深度（強化）學習的運動規劃和控制方法有助于緩解這些問題，但它們仍舊會受到分布移位（distribution shift）和泛化能力降低的影響。

雖然在開發通用型機器人系統上正面臨諸多挑戰，但自然語言處理（NLP）和計算機視覺（CV）領域近來卻進展迅猛，其中包括用于 NLP 的大型語言模型（LLM）、用于高保真圖像生成的擴散模型、用于零樣本 / 少樣本生成等 CV 任務的能力強大的視覺模型和視覺語言模型。

所謂的「基礎模型（foundation model）」其實就是大型預訓練模型（LPTM）。它們具備強大的視覺和語言能力。近來這些模型也已經在機器人領域得到應用，并有望賦予機器人系統開放世界感知、任務規劃甚至運動控制能力。除了將現有的視覺和 / 或語言基礎模型用于機器人領域，也有研究團隊正針對機器人任務開發基礎模型，比如用于操控的動作模型或用于導航的運動規劃模型。這些機器人基礎模型展現出了強大的泛化能力，能適應不同的任務甚至具身方案。

也有研究者直接將視覺 / 語言基礎模型用于機器人任務，這展現出了將不同機器人模塊融合成單一統一模型的可能性。

盡管視覺和語言基礎模型在機器人領域前景可期，全新的機器人基礎模型也正在開發中，但機器人領域仍有許多挑戰難以解決。

從實際部署角度看，模型往往是不可復現的，無法泛化到不同的機器人形態（多具身泛化）或難以準確理解環境中的哪些行為是可行的（或可接受的）。此外大多數研究使用的都是基于 Transformer 的架構，關注的重點是對物體和場景的語義感知、任務層面的規劃、控制。而機器人系統的其它部分則少有人研究，比如針對世界動態的基礎模型或可以執行符號推理的基礎模型。這些都需要跨領域泛化能力。

最后，我們也需要更多大型真實世界數據以及支持多樣化機器人任務的高保真度模擬器。

這篇綜述論文總結了機器人領域使用的基礎模型，目標是理解基礎模型能以怎樣的方式幫助解決或緩解機器人領域的核心挑戰。

論文地址：https://arxiv.org/pdf/2312.08782.pdf

在這篇綜述中，研究者使用的「用于機器人的基礎模型（foundation models for robotics）」這一術語涵蓋兩個方面：(1) 用于機器人的現有的（主要）視覺和語言模型，主要是通過零樣本和上下文學習；(2) 使用機器人生成的數據專門開發和利用機器人基礎模型，以解決機器人任務。他們總結了用于機器人的基礎模型的相關論文中的方法，并對這些論文的實驗結果進行了元分析（meta-analysis）。

圖 1 展示了這篇綜述報告的主要組成部分。

圖 2 給出了這篇綜述的整體結構。

預備知識

為了幫助讀者更好地理解這篇綜述的內容，該團隊首先給出了一節預備知識內容。

他們首先將介紹機器人學的基礎知識以及當前最佳技術。這里主要聚焦于基礎模型時代之前機器人領域使用的方法。這里簡單說明一下，詳情參閱原論文。

機器人的主要組件可分為感知、決策和規劃、動作生成三大部分。
該團隊將機器人感知分為被動感知、主動感知和狀態估計。
在機器人決策和規劃部分，研究者分經典規劃方法和基于學習的規劃方法進行了介紹。
機器的動作生成也有經典控制方法和基于學習的控制方法。
接下來該團隊又會介紹基礎模型并主要集中在 NLP 和 CV 領域，涉及的模型包括：LLM、VLM、視覺基礎模型、文本條件式圖像生成模型。

機器人領域面臨的挑戰

這一節總結了典型機器人系統的不同模塊所面臨的五大核心挑戰。圖 3 給出了這五大挑戰的分類情況。

1.泛化

機器人系統往往難以準確地感知和理解其環境。它們也沒有能力將在一個任務上的訓練成果泛化到另一個任務，這會進一步限制它們在真實世界中的實用性。此外，由于機器人硬件不同，將模型遷移用于不同形態的機器人也很困難。通過將基礎模型用于機器人，可以部分地解決泛化問題。

而在不同機器人形態上泛化這樣更進一步的問題還有待解答。

2.數據稀缺

為了開發出可靠的機器人模型，大規模的高質量數據至關重要。人們已經在努力嘗試從現實世界收集大規模數據集，包括自動價值、機器人操作軌跡等。并且從人類演示收集機器人數據的成本很高。而由于任務和環境的多樣性，在現實世界收集足夠且廣泛的數據的過程還會更加復雜。此外，在現實世界收集數據還會有安全方面的疑慮。

為了解決這些挑戰，許多研究工作都嘗試了在模擬環境中生成合成數據。這些模擬能提供真實感很強的虛擬世界，讓機器人可以在接近真實的場景中學習和使用自己的技能。但是，使用模擬環境也有局限性，尤其是在物體的多樣性方面，這使得所學到的技能難以直接用于真實世界情況。

另外，在現實世界中，大規模收集數據非常困難，而要收集到訓練基礎模型所使用的互聯網規模級的圖像 / 文本數據，那就更困難了。

一種頗具潛力的方法是協作式數據收集，即將不同實驗室環境和機器人類型的數據收集到一起，如圖 4a 所示。但是，該團隊深度研究了 Open-X Embodiment Dataset，發現在數據類型可用性方面還存在一些局限性。

3.模型和原語要求

經典的規劃和控制方法通常需要精心設計的環境和機器人模型。之前的基于學習的方法（如模仿學習和強化學習）是以端到端的方式訓練策略，也就是直接根據感官輸入獲取控制輸出，這樣能避免構建和使用模型。這些方法能部分解決依賴明確模型的問題，但它們往往難以泛化用于不同的環境和任務。

這就引出了兩個問題：(1) 怎么學習能很好泛化的與模型無關的策略？(2) 怎么學習好的世界模型，以便應用經典的基于模型的方法？

4.任務規范

為了得到通用型智能體，一大關鍵挑戰是理解任務規范并將其根植于機器人對世界的當前理解中。通常而言，這些任務規范由用戶提供，但用戶只能有限地理解機器人的認知和物理能力的局限性。這會帶來很多問題，不僅包括能為這些任務規范提供什么樣的最佳實踐，而且還有起草這些規范是否足夠自然和簡單。基于機器人對自身能力的理解，理解和解決任務規范中的模糊性也充滿挑戰。

5.不確定性和安全性

為了在現實世界中部署機器人，一大關鍵挑戰是處理環境和任務規范中固有的不確定性。根據來源的不同，不確定性可以分為認知不確定性（由缺乏知識導致不確定）和偶然不確定性（環境中固有的噪聲）。

不確定性量化（UQ）的成本可能會高得讓研究和應用難以為繼，也可能讓下游任務無法被最優地解決。有鑒于基礎模型大規模過度參數化的性質，為了在不犧牲模型泛化性能的同時實現可擴展性，提供能保留訓練方案同時又盡可能不改變底層架構的 UQ 方法至關重要。設計能提供對自身行為的可靠置信度估計，并反過來智能地請求清晰說明反饋的機器人仍然是一個尚未解決的挑戰。

近來雖有一些進展，但要確保機器人有能力學習經驗，從而在全新環境中微調自己的策略并確保安全，這一點依然充滿挑戰。

當前研究方法概況

這一節總結了用于機器人的基礎模型的當前研究方法。該團隊將機器人領域使用的基礎模型分成了兩大類：用于機器人的基礎模型和機器人基礎模型（RFM）。

用于機器人的基礎模型主要是指以零樣本的方式將視覺和語言基礎模型用于機器人，也就是說無需額外的微調或訓練。機器人基礎模型則可能使用視覺 - 語言預訓練初始化來進行熱啟動和 / 或直接在機器人數據集上訓練模型。

圖 5 給出了分類詳情

1.用于機器人的基礎模型

這一小節關注的是視覺和語言基礎模型在機器人領域的零樣本應用。這主要包括將 VLM 以零樣本方式部署到機器人感知應用中，將 LLM 的上下文學習能力用于任務層面和運動層面的規劃以及動作生成。圖 6 展示了一些代表性的研究工作。

2.機器人基礎模型（RFM）

隨著包含來自真實機器人的狀態 - 動作對的機器人數據集的增長，機器人基礎模型（RFM）類別同樣變得越來越有可能成功。這些模型的特點是使用了機器人數據來訓練模型解決機器人任務。

這一小節將總結和討論不同類型的 RFM。首先是能在單一機器人模塊中執行一類任務的 RFM，這也被稱為單目標機器人基礎模型。比如能生成控制機器人的低層級動作的 RFM 或可以生成更高層運動規劃的模型。

之后會介紹能在多個機器人模塊中執行任務的 RFM，也就是能執行感知、控制甚至非機器人任務的通用模型。

3.基礎模型能怎樣幫助解決機器人挑戰？

前面列出了機器人領域面臨的五大挑戰。這一小節將介紹基礎模型可以怎樣幫助解決這些挑戰。

所有與視覺信息相關的基礎模型（如 VFM、VLM 和 VGM）都可用于機器人的感知模塊。而 LLM 的功能更多樣，可用于規劃和控制。機器人基礎模型（RFM）通常用于規劃和動作生成模塊。表 1 總結了解決不同機器人挑戰的基礎模型。

從表中可以看到，所有基礎模型都擅長泛化各種機器人模塊的任務。LLM 尤其擅長任務規范。另一方面，RFM 擅長應對動態模型的挑戰，因為大多數 RFM 都是無模型方法。對于機器人感知來說，泛化能力和模型的挑戰是相互耦合的，因為如果感知模型已經具有很好的泛化能力，就不需要獲取更多數據來執行領域適應或額外微調。

另外，在安全挑戰方面還缺乏研究，這會是一個重要的未來研究方向。

當前的實驗和評估概況

這一節總結了當前研究成果的數據集、基準和實驗。

1.數據集和基準

僅依靠從語言和視覺數據集學到的知識是存在局限的。正如一些研究成果表明的那樣，摩擦力和重量等一些概念無法僅通過這些模態輕松學習到。

因此，為了讓機器人智能體能更好地理解世界，研究社區不僅在適應來自語言和視覺領域的基礎模型，也在推進開發用于訓練和微調這些模型的大型多樣化多模態機器人數據集。

目前這些工作分為兩大方向：從現實世界收集數據以及從模擬世界收集數據再將其遷移到現實世界。每個方向都各有優劣。其中從現實世界收集的數據集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模擬器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。