成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型 精華

發布于 2024-12-20 10:05
瀏覽
0收藏

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

文章鏈接:https://arxiv.org/pdf/2412.11974
代碼鏈接:https://github.com/declare-lab/Emma-X
Huggingface鏈接:https://huggingface.co/declare-lab/Emma-X

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

亮點直擊

  • 提出了一個具有70億參數的具身多模態動作模型 EMMA-X,通過在有根據的鏈式思維(CoT)推理數據上微調 OpenVLA 創建而成。
  • 通過合成構建了一個層次化的具身數據集,該數據集來自現有的機器人操作數據集,包含了3D空間運動、2D夾爪位置和有根據的推理。
  • 提出了一種新穎的軌跡分割策略,利用夾爪的開合狀態和機器人手臂的運動軌跡,促進了有根據的任務推理和前瞻性空間推理。
  • 提出的 EMMA-X 在各種實際機器人任務中,特別是在需要空間推理的任務中,相比現有的競爭基準,取得了顯著的性能提升。

總結速覽

解決的問題

傳統的基于強化學習的機器人控制方法通常是任務特定的,無法在不同環境或未見過的物體和指令中進行有效推廣。盡管視覺語言模型(VLMs)在場景理解和任務規劃上表現出色,但它們缺乏生成適用于特定機器人形態的可操作策略的能力。此外,現有的視覺語言行動(VLA)模型在長時間跨度的空間推理和基于實際任務的規劃中存在挑戰,尤其是在處理復雜任務和模糊指令時。

提出的方案

本文提出了EMMA-X(Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning) 模型。該模型通過引入基于層次化具身數據集(BridgeV2)來增強機器人任務推理和空間引導,生成更加精準的多任務通用機器人動作。EMMA-X結合了基于視覺和任務推理的鏈式思維,并且引入了前瞻性空間推理能力,以確保機器人能夠生成高效且適應環境的長期任務規劃。

應用的技術

  1. 層次化具身數據集(BridgeV2):EMMA-X基于此數據集,包含了60,000條機器人操作軌跡,每條軌跡都附有詳細的空間推理和任務推理。
  2. 前瞻性空間推理(Look-ahead Spatial Reasoning):通過預測夾爪未來位置(2D位置)和三維運動計劃,優化機器人行動的長期規劃。
  3. 軌跡分割策略:基于夾爪的開合狀態和機器人手臂的運動軌跡,動態地將狀態序列分割成獨立段,從而減輕了因不充分的視覺理解所導致的任務推理中的幻覺問題。
  4. Gemini生成任務推理:與ECoT方法不同,EMMA-X結合了視覺輸入和任務推理,避免了僅依賴文本描述所產生的推理沖突。

達到的效果

  1. 減少幻覺現象:通過結合視覺圖像和任務推理,EMMA-X顯著減少了任務推理過程中的幻覺問題,提供了更為準確的子任務定義。
  2. 提高機器人任務執行效果:實驗結果表明,EMMA-X在實際的機器人任務中,尤其是需要長時間跨度空間推理的任務中,表現優于現有的競爭基準。
  3. 增強的任務規劃能力:通過長時間跨度的空間推理,EMMA-X能夠生成更精確的高層次運動規劃,幫助機器人在復雜和動態環境中執行任務。

方法

EMMA-X 包括三個關鍵設計:

  • 基于夾爪狀態和機器人手臂運動軌跡對軌跡進行分割。
  • 生成層次化的規劃,包括有根據的任務推理、2D夾爪位置和3D空間運動。
  • 基于我們構建的數據集,基于OpenVLA訓練EMMA-X。

軌跡分割

為什么要分割軌跡? 本文的總體目標是通過有根據的鏈式思維(CoT)推理,增強視覺語言行動(VLA)模型。現有 VLA 模型存在兩個主要的局限性:

  • 雖然現有的 VLA 通過將任務分解為子任務并使用 CoT 解決每個子任務來改善任務分解(Zawalski et al., 2024),但它們的 CoT 推理完全依賴于文本場景描述。這限制了它們在現實場景中的推理能力。
  • 它們缺乏強大的空間推理能力,而空間推理對有效的任務規劃和執行至關重要。

為了解決這些局限性,本文提出了兩個關鍵的解決方案:

  • 結合視覺場景信息:除了文本提示外,將視覺輸入集成到Gemini中,使任務分解可以同時基于視覺和文本上下文生成高層次的規劃。
  • 細粒度的運動規劃:訓練機器人確定去哪里以及如何到達完成子任務所需的潛在未來狀態。

為了實現這些解決方案,每個狀態都必須標記機器人正在執行的子任務。然而,實驗表明,通過Gemini 直接標注每個幀會導致標簽噪聲,可能是因為上下文信息不足。為了克服這個問題,將軌跡分割成連續的狀態序列,其中機器人執行語義上相似的動作。通過這種分割,提供了更豐富的上下文,使Gemini 更有效地為子任務分配標簽。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

分割方法

如下圖 2(a) 和2(b) 所示,通過結合末端執行器的運動軌跡和夾爪狀態對觀察序列進行分割。為了實現這一目標,使用了基于密度的空間聚類算法(HDBSCAN),該算法能夠有效處理由于人類示范中的不完美性引起的小波動所帶來的噪聲。HDBSCAN 的靈活性使得它能夠發現數據中多樣的軌跡模式。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

數據生成

在獲得分段后,為每個示范生成層次化的具身規劃數據,如前圖 2 所示。對于每個示范的分段,生成當前分段完成狀態的 2D 末端執行器位置和 3D 運動。此外,為相應的子任務生成有根據的推理。


為什么進行前瞻空間推理?

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

如果沒有能力基于未來狀態設立地標或檢查點并根據它們規劃路線,配送員只能依賴于反應性決策,這會導致低效或錯誤的路徑選擇。通過整合高層計劃和即時反饋,配送員能夠確保有目的且自適應地朝目標前進。


類比,計算出前瞻夾爪位置和運動計劃,預測如何到達未來的狀態。


前瞻夾爪位置生成參考(Zawalski 等,2024),同樣使用 OWLv2和 SAM來檢測 2D 夾爪位置,如前圖 2(e)所示。不同之處在于,訓練模型僅輸出當前輸入狀態的夾爪位置,而在數據構建過程中,使用當前夾爪位置作為輸入,預測下一個分段第一個狀態的夾爪位置。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

基于推理的鏈式思維

如前圖 2(f) 和 (g) 所示,利用 Gemini 3 來推導出每個分段對應的子任務,以及執行該子任務所需的場景理解和推理。具體來說,我們將分段圖像序列和任務描述作為輸入,指導 Gemini 生成每個分段的子任務和有根據的推理。與(Zawalski 等,2024)僅從文本信息推導子任務及其狀態映射不同,本文的方法首先根據機器人運動軌跡和夾爪狀態對序列進行分割。然后,基于給定的多模態信息,我們生成相應的子任務和每個子任務的推理。需要注意的是,每個子任務可以包含多個分段。對于第i條軌跡,從 Gemini 獲得有根據的推理,定義為:

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

EMMA-X

本節介紹EMMA-X 的架構,這是一種基于 7B 參數的視覺語言行動(VLA)模型,經過在分層具身數據上微調OpenVLA得到。如下圖 3 所示,調整了文本提示,加入了當前夾持器位置,并通過鏈式思維(CoT)訓練來增強空間推理和場景理解能力,以預測下一步機器人的行動策略。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

在實際機器人測試過程中,EMMA-X 接收以下幾種輸入:

  1. 任務描述:描述機器人需要執行的任務的文本。
  2. 當前觀察圖像:來自機器人視角的當前場景圖像。
  3. 2D 夾持器位置:夾持器的當前位置信息,由OWLv2SAM實時檢測。

EMMA-X 接下來會經歷以下幾個步驟:

  1. 子任務和場景描述生成
  • 基于任務描述和實時觀察,模型首先預測要執行的子任務。
  • 它還會生成當前場景的描述,詳細描述圖像中目標物體與機器人臂之間的空間關系。這包括夾持器如何移動以實現當前子任務的操作指令。
  1. 目標位置預測
  • 圖像中的2D 位置(視覺平面中的位置)。
  • 機器人物理環境中的3D 空間移動(所需的實際空間運動)。
  • EMMA-X 預測完成子任務后夾持器需要到達的目標位置,包括:
  1. 下一步機器人動作預測
  • 最終,模型輸出7維機器人動作策略,指導機器人執行后續的操作任務。

實驗

實現細節

為了創建分層推理數據集,使用了我們的數據創建管道對BridgeData-v2 進行處理,該數據集包含約60,000 條軌跡,每條軌跡都配有任務指令。這個數據集為訓練 VLA 模型提供了基礎。


在訓練VLA 模型 時,使用了OpenVLA,這是一個基于Prismatic 視覺語言框架 的 7B 視覺語言行動模型。OpenVLA 在Open X-Embodiment 數據集 上進行了預訓練,數據集包含了一系列多模態任務演示及其關聯指令。


對于自回歸訓練,將 7 維度的動作策略標記化為離散的策略標記,符合 OpenVLA 的既定方法。訓練過程遵循 OpenVLA 的標準協議,我們在我們的增強數據集上對基礎模型進行了3 個周期 的微調,直到收斂。

機器人設置和評估指標

使用6自由度的WidowX機器人臂來評估我們的方法,該機器人臂在Bridge V2論文中被介紹,是評估通用機器人策略的標準基準。該策略以單個第三人稱攝像頭的輸入圖像和自然語言指令為輸入,預測末端執行器的速度動作以控制機器人。


為了嚴格測試策略的泛化能力,開發了一套具有挑戰性的評估任務,涵蓋多個方面:域內場景、域外(OOD)物體、空間關系和域外指令。所有策略在相同的現實世界設置上進行評估,以確保攝像頭角度、照明條件和背景的一致性。每個任務執行10次,遵循OpenVLA建立的方法。如果機器人成功完成任務,得分為1(成功),否則得分為0(失敗)。根據OpenVLA的方法,我們還引入了一個“半成功”(h-succ)指標,考慮任務目標和難度,并且僅當滿足半成功標準時才給出0.5分。

基準對比

為了全面評估EMMA-X的性能,在12個不同的任務上進行了廣泛的實驗,并與幾種競爭方法進行了比較。


OpenVLA:基于大規模VLM Prismatic-7b的VLA模型,且在Open-X-Embodiment數據集上進行了預訓練。OpenVLA w/ FT:為了進行公平比較,在BridgeV2數據集上對OpenVLA模型進行了微調,并遵循本文方法中相同的訓練設置,訓練了相同的輪次。ECoT:基于BridgeV2數據集微調的OpenVLA VLA模型,使用他們生成的鏈式思維(CoT)推理數據進行訓練。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

EMMA-X提升策略的泛化能力

本節將EMMA-X與幾種基準方法進行了比較,評估了其在12個真實世界機器人任務中的表現。如下表1所示,EMMA-X在任務成功率上比強基準OpenVLA提高了24.17%,在半成功率上提高了26.25%。這證明了我們構建的分層具身數據集的有效性。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

此外,與ECoT相比,EMMA-X表現出顯著的提升,可能由以下原因造成:

  • ECoT在訓練數據上存在噪聲,這在面對域外指令或不熟悉的物體時會引發幻覺,導致任務失敗。有趣的是,即使在域內任務中,它也比其他模型表現較差,突顯了其有限的推理能力?;谌蝿胀评淼姆椒ㄍㄟ^結合分段的視覺圖像來解決這一問題,從而確保任務理解更加準確。
  • EMMA-X通過預測當前段落的結束狀態的2D夾持器位置和3D空間運動,再預測下一步機器人動作策略,增強了空間推理能力。


如下圖4所示,對各種類別的機器人任務進行了平均表現比較。值得注意的是,在空間關系任務中,方法取得了最顯著的性能提升,成功率相比OpenVLA提高了35%,相比ECoT提高了29%。這些結果有力地驗證了本文預測的3D空間運動的有效性。此外,本文的方法在域外指令任務中也表現出了顯著的性能提升,突出顯示了基于任務推理的有效性。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

分析

訓練了多個EMMA-X的變體,以評估分段、提前空間推理和基于任務的思維鏈(CoT)推理的作用,它們共同構成了EMMA-X的核心。為了進行評估,從空間關系(SPATIAL RELATION)、域外物體(OOD OBJECT)和域外指令(OOD INSTRUCTION)中選擇了6個提示(提示在C節中以品紅色標出)。對于每個提示,我們在與主要實驗相同的實驗設置下進行了10次實驗。


分段對策略的巨大幫助為了評估本文的分段技術的有效性,進行了一項實驗,其中序列僅根據夾持器(末端效應器)的開合位置進行分段。結果,如下表2所示,在“w/o HDBSCAN”條件下,一般性能下降了10%到50%。特別是空間推理性能下降最為顯著,下降幅度為50%。這些發現表明,公式1中引入的距離度量對分段過程至關重要。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

提前空間推理的影響

為了評估提前空間推理的重要性,進行了兩個實驗:

  • EMMA-X在沒有顯式預測下一個段落夾持器位置的情況下進行訓練,僅依賴預測的運動計劃來達到該段落的未來夾持器位置(在上表2中表示為“w/o gt”)。這假設EMMA-X隱式推斷未來的夾持器位置。
  • 訓練了EMMA-X來預測未來末端效應器的位置,但沒有進行運動計劃的滾動來達到該位置(在表2中表示為“w/o mt”)。結果顯示,這兩種情況下的性能都有顯著下降(“w/o mt”下降了25%-40%,而“w/o gt”下降了30%到45%),空間推理任務的下降尤為顯著(“w/o mt”下降了35%,而“w/o gt”下降了45%)。

此外,結果表明,預測未來末端效應器的位置更為關鍵,因為在沒有3D空間運動到下一個段落的情況下,性能下降較輕。推測這可能是由于OpenVLA固有的空間推理能力,使其更容易在位置之間過渡。


基于任務的思維鏈(CoT)推理的重要性基于任務的思維鏈(CoT)推理是EMMA-X的基礎元素。為了評估其影響,訓練了一個沒有基于任務的推理的EMMA-X變體,同時保留了數據中的提前空間推理。結果顯示,性能下降了43%-55%,突顯了僅靠空間推理不足以完成任務。有趣的是,缺乏基于任務的CoT推理導致空間推理性能下降更為嚴重,相比于那些明確去除空間推理能力的模型。這凸顯了基于任務的CoT在處理復雜推理任務中的關鍵作用,包括空間推理。因此推測,為了增強視覺-語言-動作(VLA)模型的泛化策略,改善其廣泛的推理能力是必要的,涵蓋物體識別、顏色理解、抽象、常識知識等。


微調不會改善OpenVLA本文試圖找出是否可以通過在BridgeV2上微調OpenVLA來與EMMA-X的表現相匹配。結果(見上表2)顯示,OpenVLA經過微調后,性能下降了5%-30%,最差的表現出現在域外指令任務上。推測這一下降是由于過擬合,因為BridgeV2本身已經是OpenVLA預訓練數據集的一部分。


真實世界機器人任務的定性分析為了定性地評估本文的空間和任務推理在引導機器人動作中的有效性,展示了兩個成功的軌跡和一個失敗的軌跡(見下圖5)。從左側的案例中,發現預測的夾持器位置對應于子任務“抓取藍色立方體”的結束狀態。3D運動提供了詳細的路徑,清晰地指向“藍色立方體”。還包括了一個失敗的軌跡,其中“熱狗”錯誤地被識別為“菠蘿”。這一錯誤傳播開來,影響了夾持器未來位置的預測,導致它無法準確抓取“熱狗”。

12個真實世界機器人任務成功率超OpenVLA 24.17% | EMMA-X:7B具身多模態動作模型-AI.x社區

結論

EMMA-X,一個7B參數的具身多模態動作模型,旨在增強空間推理和任務規劃,以生成機器人策略。構建了一個包含基于任務推理的層次化具身數據集,包括2D夾持器位置和3D空間運動。此外,提出的軌跡分段策略通過將推理與視覺圖像結合,減少了任務推理中的幻覺現象。實驗結果證明了EMMA-X的有效性,在需要長時間跨度空間推理的任務中,相比現有基線模型表現出顯著的改進。

局限性

盡管EMMA-X表現出有前景的性能,但與OpenVLA相比,其延遲仍然較高。這種推理時間增加主要來源于推理過程中新生成的額外tokens。具體來說,EMMA-X生成的tokens數量大約是OpenVLA的10倍。為了解決這個問題,一種潛在的策略是預測一個段落內的所有策略,并僅在預測的策略與預期的運動計劃有顯著偏差時重新生成策略。


另一個局限性是EMMA-X的泛化能力。通過將訓練過程擴展到包含更大子集的OXE數據集,可能會增強模型處理更廣泛任務和機器人系統的能力。最后,使用SAM檢測夾持器位置可能會導致不準確的情況。當夾持器部分被物體遮擋或位于圖像框架外時,可能會發生這些錯誤。使用更強大的模型來檢測和分割機器人手部可能會解決這些挑戰并提高可靠性。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/w85862wrxb2cVutbJY3rZQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美亚洲综合久久 | 日韩伦理一区二区 | 丁香久久 | 女人牲交视频一级毛片 | 黄色亚洲| 日日网| 国产精品久久久久av | 亚洲成人国产综合 | 中文字幕1区2区 | 成年视频在线观看福利资源 | 亚洲国产精品一区 | www.黄色网 | 欧美 日韩 亚洲91麻豆精品 | 韩国精品一区二区三区 | 国产精品久久av | 国产中文字幕在线 | 一区二区视频在线 | 亚洲视频二| 超碰520 | 成人不卡| 一区精品视频 | 蜜桃视频在线观看www社区 | 欧美大片一区二区 | 成人免费福利视频 | 中文字幕1区2区3区 亚洲国产成人精品女人久久久 | 天天射天天干 | 久久久精品一区 | 欧美黄色网 | 中文天堂在线一区 | 国产精品色 | 欧美三区视频 | 精品久久国产 | 日本一区高清 | 久久综合成人精品亚洲另类欧美 | 欧美久久精品一级黑人c片 91免费在线视频 | 中文字幕免费在线 | 亚洲国产情侣自拍 | 亚洲天堂网站 | 91精品在线看 | 99精品一区二区 | 国产成人高清 |