具身智能的視覺-語言-動作模型：綜述

作者：黃浴 2024-06-04 09:25:51

基于預訓練的視覺基礎模型、大語言模型（LLMs）和視覺-語言模型（VLMs）的成功，視覺-語言-動作模型已經證明其在應對這些挑戰方面的能力。

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

24年5月論文“A Survey on Vision-Language-Action Models for Embodied AI”。

深度學習已在計算機視覺、自然語言處理和強化學習等許多領域取得了顯著的成功。這些領域的代表性人工神經網絡包括卷積神經網絡、Transformers 和深度 Q-網絡。在單模態神經網絡的基礎上，引入了許多多模態模型來解決一系列任務，例如視覺問答、圖像字幕和語音識別。具身智能中指令跟隨機器人策略的興起，推動了一種多模態模型的發展，即視覺-語言-動作模型 (VLA)。這種多模態能力已成為機器人學習的基礎要素。人們提出了各種方法來增強多功能性、靈活性和通用性等特性。一些模型專注于通過預訓練來改進特定組件。其他模型則旨在開發善于預測低級動作的控制策略。某些 VLA 充當高級任務規劃器，能夠將長期任務分解為可執行的子任務。過去幾年，大量 VLA 應運而生，體現了具身智能的快速發展。

視覺-語言-動作模型（VLA）代表一類旨在處理多模態輸入的模型，結合視覺、語言和動作模態的信息。該術語最近由RT-2 [36]提出。VLA模型被開發用于解決具身智能中的指令跟隨任務。與以ChatGPT [62]為代表的聊天AI不同，具身智能需要控制物理實體并與環境交互。機器人是具身智能最突出的領域。在語言為條件的機器人任務中，策略必須具備理解語言指令、視覺感知環境并生成適當動作的能力，這就需要VLA的多模態能力。相比于早期的深度強化學習方法，基于VLA的策略在復雜環境中表現出更優越的多樣性、靈活性和泛化性。這使得VLA不僅適用于像工廠這樣的受控環境，還適用于日常生活任務 [33]。

基于預訓練的視覺基礎模型、大語言模型（LLMs）和視覺-語言模型（VLMs）的成功，視覺-語言-動作模型已經證明其在應對這些挑戰方面的能力。來自最新視覺編碼器的預訓練視覺表征，幫助VLA在感知復雜環境時提供更精確的估計，如目標類別、姿態和幾何形狀。隨著語言模型 [36], [69]能力的增強，基于語言指令的任務規范成為可能。基礎VLMs探索了將視覺模型和語言模型整合的多種方式，包括BLIP-2 [72], Flamingo [70]等。這些不同領域的創新賦予了VLA解決具身智能挑戰的能力。

如圖是VLA 模型的分類。“? 目標-狀態指導”控制策略與 VLA 密切相關，但不能嚴格定義為 VLA，因為它們不促進語言方式的輸入。

如圖以簡要的時間線追溯從單模態模型到多模態模型的演變，為 VLA 模型的引入奠定了基礎。計算機視覺領域的關鍵進步（藍色）包括 ResNet [85]、ViT [86] 和 SAM [87]。自然語言處理領域的開創性工作（橙色）包括 GRU [88]、Transformer [66]、BERT [89]、ChatGPT [62] 等。強化學習（綠色）中，DQN [90]、AlphaGo [91]、PPO [92]、Dactyl [93] 和 DT [94] 做出了顯著貢獻。視覺語言模型已成為多模態模型的重要類別，例如 ViLBERT [95]、CLIP [1] 和 LLaVA [96]。VLA 的三個主要方向是：預訓練、控制策略和任務規劃器。

視覺-語言-動作模型 (VLA) 是處理視覺和語言的多模態輸入并輸出機器人動作以完成具身任務的模型。它們是具身智能領域在機器人策略指令跟隨的基石。這些模型依賴于強大的視覺編碼器、語言編碼器和動作解碼器。它們需要強大的視覺編碼器、語言編碼器和動作解碼器。為了提高各種機器人任務的性能，一些 VLA 優先獲取優質的預訓練視覺表征；另一些 VLA 則專注于改進低級控制策略，擅長接收短期任務指令并生成可通過機器人運動規劃執行的動作；此外，某些 VLA 脫離了低級控制，專注于將長期任務分解為可由低級控制策略執行的子任務。因此，低級控制策略和高級任務規劃器的組合可以被視為一種分層策略。如圖是機器人分層策略的圖示，包括高級任務規劃器和低級控制策略。高級任務規劃器根據用戶指令生成規劃，然后由低級控制策略逐步執行。

預訓練

視覺編碼器的有效性直接影響策略的性能，因為它提供有關目標類別、位置和環境可供性的關鍵信息。因此，許多方法都致力于對視覺編碼器進行預訓練，以提高 PVR 的質量。

下表是預訓練的各種視覺表示。其中V：視覺，L：語言，Net：主干網絡，CL：對比學習，MAE：掩碼自動編碼，TFM：Transformer，Sim/Real：模擬/現實世界。Mani/Navi：操縱/導航，[SC]：自收集數據。為簡單起見，僅顯示目標（objective）函數的主要部分，省略溫度、輔助損失等元素。S(·) 是相似度測量。（Ego-Data）：Ego4D [105]、Epic Kitchens [106]、Something-Something-v2【107】，100DOH【108】。

動態學習包含旨在使模型了解正向或逆向動態的目標。正向動態涉及預測給定動作導致的后續狀態，而逆向動態則涉及確定從先前狀態過渡到已知后續狀態所需的動作。一些研究方法還將這些目標定義為對混洗狀態序列進行重新排序的問題。雖然正向動態模型與世界模型密切相關，不過這里特別關注利用動態學習作為輔助任務來提高主要機器人任務性能的工作。

下表是VLA 的各種動態學習方法。其中f(·) 是動態模型，Fwd：正向，Inv：逆向。

世界模型中，Dreamer [16] 使用三個主要模塊來構建潛在動態模型：表示模型，負責將圖像編碼為潛狀態；轉換模型，捕捉潛在狀態之間的轉換；獎勵模型，預測與給定狀態相關的獎勵。在演員-評論家框架下，Dreamer 利用動作模型和價值模型，通過學習到的動態傳播解析梯度，通過想象來學習行為。在此基礎上，DreamerV2 [116] 引入了離散潛在狀態空間以及改進的目標。DreamerV3 [117] 將其重點擴展到具有固定超參數的更廣泛的領域。

總結一下，預訓練的視覺表征強調了視覺編碼器的重要性，因為視覺觀察在感知環境的當前狀態方面起著至關重要的作用。因此，它為整個模型的性能設定了上限。在 VLA 中，一般視覺模型使用機器人或人類數據進行預訓練，以增強其在目標檢測、可供性圖提取甚至視覺語言對齊等任務中的能力，這些任務對于機器人任務至關重要。相比之下，動態學習側重于理解狀態之間的轉換。這不僅涉及將視覺觀測映射到良好的狀態表征，還涉及理解不同的動作如何導致不同的狀態，反之亦然。現有的動態學習方法通常旨在使用簡單的掩碼建模或重新排序目標來捕捉狀態和動作之間的關系。另一方面，世界模型旨在完全模擬世界的動態，使機器人模型能夠根據當前狀態將狀態推廣到未來的多個步驟，從而更好地預測最佳動作。因此，雖然世界模型更受歡迎，但實現起來也更具挑戰性。

低層控制策略

通過將動作解碼器與感知模塊（如視覺編碼器和語言編碼器）集成，形成一個策略網絡來在模擬或真實環境中執行指令。控制策略網絡的多樣性在于編碼器/解碼器類型的選擇以及集成這些模塊所采用的策略。語言指令控制策略包括以下類型：非 Transformer、基于 Transformer和基于 LLM。一些其他控制策略處理多模態指令和目標狀態指令。

下表是各種低級控制策略。還包括一些非 VLA 機器人模型，因為它們密切相關，用 (?) 標記。BC：行為克隆（動作類型 cont/disc：連續/離散），TFM：Transformer，Xattn：交叉注意，Concat：連接。LMP：潛運動規劃 [119]，DDPM：去噪擴散概率模型 [120]，MPC：模型預測控制，MLE：最大似然估計，p/s：提示/狀態的視覺編碼器。[SC]：自收集數據。ER：日常機器人。

各種 VLA 架構探索了融合視覺和語言輸入的不同方法，包括交叉注意、FiLM 和連接，RT-1 中使用了 FiLM，因此其后續工作也繼承了這一機制。雖然交叉注意在較小的模型規模下可以提供更好的性能，但連接更易于實現，并且可以在較大的模型上實現相當的結果 [41]。

如圖所示，三種最常見的低級控制策略架構的特點，是其視覺-語言融合方法。一些 Transformer 動作解碼器利用交叉注意來條件化指令。在基于 RT-1 的模型中，FiLM 層用于早期融合語言和視覺。連接是 Transformer 動作解碼器中視覺-語言融合的主流方法。

大多數低級控制策略會預測末端執行器姿勢的動作，同時抽象出使用逆運動學控制各個關節運動的運動規劃模塊。雖然這種抽象有助于更好地推廣到不同的實施例，但它也對靈活性施加了限制。行為克隆 (BC) 目標用于模仿學習，針對不同的動作類型有不同的變體。

基于擴散的策略利用了計算機視覺領域中擴散模型的成功[120]。其中，擴散策略[46]是最早利用擴散進行動作生成的策略之一。SUDD[35]為擴散策略添加了語言條件支持。Octo[43]采用模塊化設計，以適應各種類型的提示和觀察。與常見的行為克隆策略相比，擴散策略在處理多模態動作分布和高維動作空間方面表現出優勢。

雖然基于 LLM 的控制策略可以大大增強指令跟隨能力，因為 LLM 可以更好地解析用戶意圖，但人們擔心其訓練成本和部署速度。尤其是推理速度慢會嚴重影響動態環境中的性能，因為在 LLM 推理期間可能會發生環境變化。

高級任務規劃器

許多高級任務規劃器都是在 LLM 之上構建的。雖然以端到端方式將多模態模塊集成到 LLM 中是直觀的，但使用多模態數據進行訓練可能成本高昂。因此，一些任務規劃器更喜歡使用語言或代碼作為交換多模態信息的媒介，因為它們可以由 LLM 原生處理。如圖所示將 LLM 連接到高級任務規劃器中多模態模塊的不同方法：基于語言和基于代碼。

下表是各種高級任務規劃器。VL：視覺語言融合。Sim/Real：模擬/現實世界。Mani/Navi：操縱/導航。

總結一下，雖然像 SayCan [47] 這樣的端到端任務規劃器與低級控制策略具有類似的架構，并且可以針對特定任務進行優化，但由于 LLM 和視覺轉換器組合的模型規模很大，它們的訓練成本可能過高。基于語言的任務規劃器具有與現有語言條件控制策略無縫集成的優勢。然而，它們通常需要微調或對齊方法來將生成的規劃映射到低級控制策略的可執行語言指令。另一方面，基于代碼的任務規劃器利用 LLM 的編程能力來連接感知和動作模塊。這種方法不需要額外的訓練，但其性能可能會受到現有模型能力的限制。

數據集、仿真器和基準

下表是近期 VLA 收集的機器人數據集。VIMA 技能，指的是“元任務”。這里采用較新的 BridgeData V2。PC：點云。

下表是VLA 中常用的模擬器和基準。其中D：深度，Seg：分割，A：音頻，N：法線，Force：智體控制末端執行器施加力來抓取物品，PD：預定義，Vers：版本。

面臨的挑戰和方向：

機器人數據稀缺。獲取足夠的現實世界機器人數據仍然是一個重大障礙。收集此類數據耗時且耗費資源，而僅依靠模擬數據會加劇模擬與現實之間的差距問題。
運動規劃。當前的運動規劃模塊通常缺乏解決各種環境中的復雜性所需的靈活性。這種限制妨礙了機器人與工具有效交互、在復雜環境中導航和執行高精度操作等的能力。
實時響應。許多機器人應用需要實時決策和動作執行才能滿足操作要求。VLA 模型應設計為響應迅速、延遲最小。
多模態集成。VLA 必須處理和集成來自多種模態的信息，包括視覺、語言和動作。雖然在這方面已經取得了重大進展，但實現這些模態的最佳集成仍然是一個持續的挑戰。
泛化到未見的場景。一個真正多功能的機器人系統應該能夠在各種未見的場景中理解和執行自然語言指令。
對指令、環境、對象和實施方案的變化具有魯棒性。
長遠任務執行。成功執行此類任務需要機器人在較長的時間范圍內規劃和執行一系列低級動作。雖然當前的高級任務規劃器已經取得了初步成功，但它們在許多情況下仍然存在不足。
基礎模型。在機器人任務中探索 VLA 的基礎模型仍然是未知領域，這主要是由于機器人技術中遇到的多種具體化、環境和任務。
基準。盡管存在許多用于評估低級控制策略 VLA 的基準，但它們在評估的技能方面往往存在很大差異。此外，這些基準中包含的對象和場景通常受到模擬器可以提供的內容的限制。
安全注意事項。安全是機器人技術的重中之重，因為機器人直接與現實世界互動。確保機器人系統的安全需要將現實世界的常識和復雜的推理融入到其開發和部署過程中。這涉及到整合強大的安全機制、風險評估框架和人機交互協議。
倫理和社會影響。機器人的部署始終引發各種倫理、法律和社會問題。這些包括與隱私、安全、工作流失、決策偏見以及對社會規范和人際關系的影響相關的風險。

責任編輯：張燕妮來源：自動駕駛之心

視覺模型訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

具身智能的視覺-語言-動作模型：綜述

預訓練

低層控制策略

高級任務規劃器

數據集、仿真器和基準