成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務 精華

發布于 2024-11-6 10:18
瀏覽
0收藏

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

文章鏈接:https://arxiv.org/pdf/2410.15536

亮點直擊

  • 提出了一種實現真實到模擬仿真生成的新穎系統;
  • 在一系列真實和模擬測試中展示了該方法的高效性。

總結速覽

解決的問題:GRS系統旨在解決機器人、計算機視覺和AR/VR中的“真實到模擬”(real-to-sim)轉換問題。具體來說,通過單次RGBD觀測生成數字孿生模擬環境,并生成適合虛擬agent訓練的多樣化、可解任務。


提出的方案:GRS系統分為三個階段:1)使用SAM2進行場景理解與目標分割,并結合視覺語言模型(VLMs)對目標進行描述;2)將識別出的目標匹配為可用于仿真的資產;3)生成與上下文相關的機器人任務。此外,GRS通過引入一個迭代優化的router,逐步完善仿真和測試代碼,確保仿真環境符合任務規格且機器人策略可解。


應用的技術:GRS依賴于最先進的視覺語言模型和SAM2模型實現場景理解和目標識別,并使用一個迭代優化的router來精確匹配輸入環境中的目標。其核心技術包括:目標分割、VLMs描述匹配、仿真資產匹配以及仿真環境與任務驗證測試集生成。


達到的效果:實驗結果表明,GRS系統能夠精確識別目標對應關系,生成與輸入環境高度匹配的任務環境,并通過router機制有效提升自動仿真任務的生成質量,使得生成的仿真任務在符合任務規格的前提下對機器人策略可解。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

方法

用于生成真實到模擬任務的方法分為兩個階段:1)場景理解;2)仿真生成與評估。首先,處理輸入的RGBD圖像以提取場景信息,包括邊界框和分割掩碼。接下來,我們在提取的元素與可用于仿真的資產之間建立對應關系。


利用這些場景數據,為機器人系統制定要執行的任務。提取的3D資產和場景信息是生成初始仿真和相關測試用例的關鍵輸入。我們引入了一個稱為router的創新迭代優化過程,該過程逐步改進仿真和測試用例,直到策略成功完成指定任務。參考GenSim,將任務(指機器人系統要執行的目標和/或動作的文本描述)與仿真(指系統生成以模擬該任務的代碼)區分開來。在本文的框架中,這種區分將概念指令與其具體實現分開。

A. 場景理解

我們采用兩階段的方法進行場景描述,將圖像分割與圖像描述結合起來,如下圖2的第一個條目所示。該過程確保對場景的詳細理解,有助于生成準確的仿真和任務。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

圖像分割。在初始階段,我們使用SAM2(Segment Anything Model 2)對輸入圖像進行全面分割。該最新模型在識別和描繪場景中的各個元素方面表現出色。該過程通常會導致過分割,即較大目標的各個組件(如機器人的部分或背景元素)被識別為獨立的段。雖然這種細節級別似乎過于繁瑣,但它為我們后續的分析提供了細致的基礎,使我們能夠更細膩地理解場景的組成。


目標對應關系。目標對應關系過程旨在將候選目標與適合的3D資產進行匹配,以用于仿真。本文的方法包括三個步驟:1)資產數據庫創建:通過提示VLM分析每個資產的多個渲染圖像,生成資產庫中每個3D目標的豐富多角度描述。2)候選目標描述:我們使用相同的VLM來描述從分割過程中獲得的候選目標裁剪圖像。這一描述僅基于它們的視覺信息,確保與資產數據庫具有一致的比較基礎。3)描述比較:我們利用VLM對這些描述進行比較,結合先前的文本描述和裁剪的真實圖像,將每個候選目標匹配到一個3D資產或識別為非目標。此步驟確保僅將相關目標納入仿真。


此過程的結果是一個場景資產的完整列表,每個資產都關聯了初始圖像分析期間獲得的特定邊界框信息。此詳細映射構成了在仿真環境中準確重建場景的基礎。

B. 仿真生成與評估

仿真生成的挑戰在于將現實世界的目標轉化為機器人可執行的仿真程序。該代碼必須精確定義仿真的初始配置和預期結束狀態,同時通過測試來確認這些條件。至關重要的是,生成的仿真應優化為可行,使機器人策略能夠在可接受的時間內順利完成任務。


GRS的仿真生成過程以場景圖像和場景描述為輸入,概述見下算法1。受GenSim 的啟發,我們將仿真生成分為兩個階段:1)制定抽象任務定義并選擇合適的資產;2)為任務編寫仿真程序。本文的方法通過結合場景圖像并使用VLM進行輸入處理,增強了這兩個步驟,有別于GenSim的LLM方法。與GenSim不同,我們不使用預定義的資產,而是利用目標對應過程中識別的候選目標。這使我們的任務生成受益于場景的視覺上下文和可用資產的文本描述。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

任務定義生成。在獲得場景描述和選定的視覺資產后,系統首先生成任務定義,如圖2的第二項所示。我們提供場景信息、圖像和資產描述,以生成符合上下文的機器人任務。為適應多種潛在任務,我們允許任務使用觀測到的部分資產。我們專注于生成對機器人系統既實用又具有挑戰性的任務,這些任務通常涉及特定方式操作場景中的目標,例如堆疊特定物品或按類別分組目標。例如,系統可能生成如下任務:“將所有紅色方塊堆疊在藍色圓柱上”或“按大小順序從左到右在桌子上排列目標。”


這種方法允許創建廣泛的任務,從簡單的目標操作到更復雜的空間推理和組織挑戰,所有任務都根據給定場景中的特定目標和布局進行定制。通過利用分割和目標對應過程實現的詳細場景理解,我們確保生成的任務不僅多樣且符合實際場景上下文,同時在模擬環境中也是可行的。


仿真程序生成。接下來,我們使用VLM生成仿真代碼,VLM接收場景圖像、任務定義和資產描述,如圖2的第三項所示。為了確保生成的仿真有效地完成機器人任務,我們還生成了由一系列測試組成的測試程序。測試程序的生成是通過將仿真程序和任務描述作為輸入提供給LLM來完成的。


為使任務描述與生成的仿真一致,我們引入了一種新穎的LLM路由系統,該系統動態迭代仿真程序和測試。算法遵循一個簡潔而有效的步驟:1)運行測試:在仿真程序上執行測試并收集錯誤信息。2)路由:根據任務描述和錯誤信息確定是更新生成的測試程序還是仿真程序。3)修復:使用VLM修復仿真代碼或使用LLM修復測試代碼,參考輸入的場景圖像、錯誤信息和任務定義。4)重復此循環,直到執行過程中不再出現錯誤。該算法在圖2的最后一項中可視化展示。盡管此過程簡單,但其表現出了顯著的效果,使系統能夠在多個組件及其相互關系上進行推理。通過使用任務定義作為指導來優化仿真和關聯的測試,我們的路由系統確保概念任務描述與其在模擬環境中的實際實現一致。


專注于適合策略執行或訓練的機器人仿真。為此,在測試生成過程中促使任務由oracle agent完成。提示包括調用模擬器中oracle agent的API信息以及用于環境觀察和行動的簡化執行循環。oracle agent成功執行的標準十分嚴格,但也非常有價值,要求代碼無錯誤并在模擬器的物理約束內指定可實現的目標。盡管另一種替代方法可以只使用單元測試來檢查場景定義的有效性,但我們選擇使用預言機器人策略進行測試。盡管這種選擇可能會導致更高的生成成本,但它增加了后續任務生成成功的可能性。通過使用LLM編寫測試,我們確保預言行為具有與任務細節和場景一致的測試輔助。

實驗

本文的方法旨在提高資產檢索的準確性和任務仿真的一致性。由于真實到仿真轉換這一特定領域缺乏基準數據,引入了一項新的實驗,靈感源自桌面機器人任務。捕獲了10個不同的場景,每個場景平均包含15個物體。這些物體來自HOPE數據集,包括常見的雜貨物品,其3D模型適合用于物理仿真。同時,還添加了彩色立方體和容器。對于每個場景,使用ZED 2相機錄制了一幅1080p的RGB圖像以及點云數據。每個目標都有其對應的掩碼、2D和3D邊界框以及文本描述。圖3展示了我們數據集中的示例。基于此數據集,對生成適當對應關系的能力進行了詳細評估。實驗表明,使用視覺語言模型(VLM)結合文本描述能獲得最高的準確性。此外,將GRS的仿真生成能力與先前提出的方法進行了比較,生成結果的定性分析顯示其在生成用于機器人執行的仿真時更高效且性能更優。

A. 目標對應

本文設計了一個目標對應實驗來評估模型在捕獲場景中檢索正確資產的能力。對于數據集中的每個3D模型,我們生成了三個視圖,通過隨機調整攝像機位置同時保持焦點在目標上。接著,我們使用VLM基于這些渲染圖像生成詳細的目標描述,描述包含形狀、顏色、品牌或圖案等特征。此外,還為每個裁剪的真實場景圖像生成了VLM生成的文本描述。

這種設置允許我們評估以下場景:

  • 將圖像的文本描述與資產描述匹配(文本);
  • 將圖像與資產描述匹配(圖像);
  • 將圖像和文本描述與資產描述匹配(本文的方法)。


對于每種方法,分別測試了GPT4o和Claude-3.5-Sonnet。


下表I展示了目標檢索結果。使用F1分數作為精度和召回率的平衡指標(更高的分數表示更好的性能),并對每項任務進行10次實驗取平均值。每次實驗生成資產描述和文本描述(如果適用)后再進行目標對應。GPT4o在所有任務中表現出更優異的性能。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

此外,包含了一個基于CLIP嵌入距離的基準方法。將資產圖像嵌入到數據庫中,比較每個資產的三張圖像的嵌入平均值與裁剪圖像的嵌入,找出最小CLIP嵌入距離的匹配資產。如果一個真實場景圖像裁剪的CLIP相似度低于0.5,則視為“不是目標”。


本文的方法優于基準方法,因為單純基于CLIP嵌入距離匹配資產對于遮擋、物體姿態和光照條件的變化并不具有魯棒性。進行了Kruskal-Wallis顯著性檢驗,因為數據不符合正態性假設,無法使用ANOVA檢驗。Kruskal-Wallis檢驗發現任務類型、模型及其交互作用存在統計顯著性差異(p < 0.05),表明我們的結果具有統計顯著性差異。

B. 機器人任務生成

本文設計了仿真生成實驗來評估GRS在生成可用于機器人策略的有效仿真器方面的能力。仿真任務基于CLIPort框架,并在GenSim的提示基礎上進行了輕微修改,以指示VLM使用輸入圖像。通過評估oracle策略完成生成任務的效果來衡量任務生成系統的表現。具體來說,執行GenSim的oracle策略三次,并對這些運行結果取平均值。


將本文的方法與以下三種對照組進行比較:

  • 移除router,僅修復仿真代碼(無router),
  • 移除測試,僅生成一次仿真代碼(無修復),
  • 移除圖像輸入,僅使用LLM生成一次仿真代碼(LLM)。


最后一種對照方法與原始GenSim最為接近。仿真生成僅使用GPT4o,因為其在目標對應方面表現出更優異的性能。對于每個場景,我們進行了30次生成,并在每次運行中最多允許10次修復代碼(無論是仿真代碼還是測試代碼)。所有對照組均采用相同的流程,其中無router限制為10次測試修復,本文的方法限制為仿真和測試總計10次修復。


本文的仿真生成方法使得oracle策略能夠比其他方法獲得更高的獎勵,詳見下表II。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

本文報告了oracle策略在所有10個場景中生成的仿真任務的平均獎勵。由于我們的重點是將這些環境用于機器人訓練,因此排除了運行時錯誤的情況。所有結果都進行了歸一化,其中獎勵為1表示完成任務的所有目標。我們發現,本文的方法生成的仿真對于策略執行是有效的,且移除測試反饋(無修復和LLM)顯著降低了策略執行的成功率。下圖3展示了我們方法生成的仿真任務的定性結果。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

此外,還研究了仿真和測試修復的行為,以理解router的工作方式。router平均每個任務執行0.52次測試修復,表明最初生成的測試需要頻繁修復。此外,與無router相比,router平均減少了1.08次仿真修復(5.81次對6.89次),表明router在進行更改時更高效,每次生成凈減少了0.56次總更改。這支持了router能夠更高效地自動生成仿真的觀點。

C. 代碼生成定性分析

為深入理解GRS的行為,對router的行為以及在修復仿真和測試時所做的更改進行定性分析。


Router:router展示了在測試反饋過于稀疏、難以診斷oracle失敗原因時,優先更改測試的有用行為。當錯誤發生時,router能夠適當地解析錯誤反饋,以識別出需要修復測試的情況,如缺少導入或測試錯誤地使用仿真目標(例如,假設一個目標是列表而實際不是)。這種能力使router能夠更有效地處理測試中遇到的常見錯誤。


仿真修復:仿真任務有時過于復雜,oracle無法成功執行。為了解決這一問題,我們觀察到以下行為:1)通過減少使用的目標數量來簡化仿真(從而簡化任務目標),2)增加oracle在結束嘗試前可執行的最大步數,或3)擴大放置目標的目標區域尺寸。這些修復通常是針對測試過程中oracle只取得部分成功的情況。這表明我們的系統能夠正確解析細微的測試結果,即便沒有明確的錯誤提示,僅報告oracle的獎勵較低。然而,這有時會導致偏離預期結果,例如移除預設的目標空間位置,只保留資產。


測試修復:在測試執行過程中,即使oracle未能完成任務,但沒有產生有意義的錯誤,因而測試修復會加入關于oracle執行的診斷信息。這些包括關鍵性能指標的監控,例如步數、中間目標完成情況和獎勵累積,從而在測試過程中提供反饋信號。除此之外,測試修復還解決了與仿真環境組件的交互錯誤和目標誤解等基本問題。測試修復還注重驗證仿真環境的正確初始化和重置功能,確保目標設置正確并生成有效的觀測數據。值得注意的是,這些改進是在使用通用提示的前提下完成的,旨在指導系統測試oracle的成功,這體現了我們優化的測試協議在不改變核心測試范式的前提下,增強了系統評估的有效性。此外,這一方法有望隨著更好的基礎語言模型的改進而提升,無需對我們的框架做出修改。


常見失敗案例:在實驗中,發現仿真代碼在1200次生成中大約30次包含了可能無法終止的while循環,例如,在試圖在受限區域內找到有效位置放置資產時無限循環。這種行為并不總是導致失敗,因為大多數情況下其行為是正確的。此外,非終止循環的條件可能導致仿真執行無法退出,從而掛起生成過程。可以通過在代碼生成和修復過程中顯式提示避免使用此類循環來解決該問題,并鼓勵避免非終止問題,或在基線生成和測試框架中實現超時機制。


在修復過程中,LLM偶爾會誤判測試失敗的原因,從而編寫新的代碼作為替代方案。在簡單情況下,LLM會編寫幾何操作或其他基礎函數,而不是使用提供的API,例如在四元數和歐拉角之間轉換3D旋轉、從概率分布中采樣、反轉姿勢等。在少數情況下,這甚至導致完全重新實現底層獎勵函數或oracle代理。另一種失敗情況是LLM模擬仿真環境的創建或關鍵仿真行為,從而繞過了預期的行為。我們預計隨著LLM能力的提升,其錯誤診斷和代碼修復能力將逐步改進。

D. 場景級擴展

為展示本文方法的靈活性,將生成管道擴展至場景級任務,使用了約15萬個來自Objaverse的資產。從單個RGB觀測開始,采用背景估計,擬合一個MLP來估計背景表面SDF,接著應用marching cubes算法生成背景網格,流程參考了Dogaru等人的工作。在背景重建完成后,利用GRS的真實到仿真流程,將目標分割與基于視覺-語言模型的目標匹配相結合,構建出3D任務環境(詳見下圖4)。這一工作是生成更復雜場景級任務的初步步驟,未來工作將繼續探索這一方向。

英偉達&斯坦福大學發布GRS:從真實世界觀測中生成機器人仿真任務-AI.x社區

結論

本文提出了GRS,一個從真實世界觀測中生成機器人仿真任務的新系統。本文的方法無縫整合了場景理解、資產填充和任務生成,解決了真實到仿真的挑戰。引入了一個魯棒的場景獲取系統,利用了SAM2和視覺-語言模型,集成了基于LLM的任務生成框架,并提出了采用雙重生成過程和router系統的創新迭代技術。實驗結果顯示,GRS能夠從單個RGB-D觀測中實現準確的真實到仿真轉換,展示了VLMs在彌合真實場景與仿真任務之間差距方面的強大能力。還展示了該方法在更廣泛且多樣的資產庫中的潛在應用。


本研究的影響超越了機器人仿真領域,可能加速機器人操作、虛擬與增強現實、自主系統訓練和計算機視覺方面的研究與開發。盡管當前的實現效果良好,未來的工作可以著重于處理更復雜的場景、提升資產匹配的可擴展性、集成基于物理的推理,以及探索遷移學習技術。隨著我們不斷改進和擴展該方法,預期GRS將在彌合真實世界觀測與仿真環境之間的差距方面發揮重要作用,最終推動機器人系統的能力和適應性進一步提升。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/QB0OAtVVwKSm1B-N67lhAA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品一区二区三区在线 | 日本一区二区三区四区 | 日本午夜免费福利视频 | 午夜影院操 | 久草福利 | 天堂在线www | 秋霞影院一区二区 | 日韩在线免费电影 | 欧美成人猛片aaaaaaa | 国产成人精品免费视频大全最热 | 中文字幕三区 | 亚洲视频在线看 | 国产精品日产欧美久久久久 | 成人免费视频网站在线观看 | 91av视频在线播放 | 91在线一区二区三区 | 在线观看亚洲 | 欧美成人激情 | 亚洲欧美中文日韩在线v日本 | 一级毛片在线播放 | 国产成人在线看 | 久久高清精品 | 亚州av| 狠狠做深爱婷婷综合一区 | 四虎永久免费黄色影片 | 久久久青草婷婷精品综合日韩 | 精品自拍视频在线观看 | 国产在线观看一区二区三区 | 亚洲精品99久久久久久 | 久久久久国产一区二区三区 | 日韩在线精品视频 | 久久国产成人 | 91精品国产麻豆 | 这里精品| 狠狠涩 | 国产成人精品在线 | 一区二区成人 | 夜夜爽99久久国产综合精品女不卡 | avmans最新导航地址 | 欧美一区视频 | 国产亚洲精品精品国产亚洲综合 |