ICRA 2024:基于語義增強和動作分塊實現(xiàn)的樣本高效機械臂操作——RoboAgent 原創(chuàng)
RoboAgent能夠高效地獲取各種復雜技能,并將其推廣到多樣化的未知場景中
RoboAgent是作者多個前期工作的集成,包括GenAug、CACTI、ACT,同時也是未來許多更多研究方向的起點。相比于以往的工作,例如Google的RT-1,以及更新的RT-2,RoboAgent研究了與大型語言模型相關的大型演示數(shù)據(jù)集的機器人學習泛化問題。與此不同的是,RoboCat使用了一個迭代學習和數(shù)據(jù)泛化管道以進行快速適應。最近的研究也表明,使用動作分塊或擴散模型等更高效的策略表示方法對多模態(tài)數(shù)據(jù)進行建模具有優(yōu)勢。最后,最近的工作,如ROSIE、GenAug、CACTI,還使用了基于開放世界對象檢測的方法進行語義增強,其他相關工作(如R3M、H2R、VRB)則研究了將大部分被動學習與一些主動微調相結合的不同方式。
在RoboAgent中,研究人員僅僅依靠7500條軌跡的訓練,得到了一個通用的RoboAgent,它能夠展示12種非平凡操縱技能,除了拾取/推動外,還包括關節(jié)對象操縱和對象重新定位。跨越38個任務,并將其推廣到數(shù)百個多樣化的未知場景,涉及未知對象、未知任務,甚至完全未知的廚房。RoboAgent還可以通過新的經(jīng)驗來發(fā)展其能力。
RoboAgent能夠在38個任務中展示12種技能
邁向通用機器人代理
因果困境:多年來,擁有一個能夠在多樣化環(huán)境中操作任意物體的單一機器人一直是一個遙不可及的目標。這部分是由于缺乏多樣化的機器人數(shù)據(jù)集來訓練這樣的代理,同時也缺乏能夠生成這種數(shù)據(jù)集的通用代理。
擺脫惡性循環(huán):為了擺脫這一惡性循環(huán),研究人員重點是開發(fā)一種能夠在實際數(shù)據(jù)預算下獲得多個技能的通用代理,并將其推廣到多樣化的未知情況下的有效范式。
RoboAgent是兩年努力的結晶,它基于以下模塊化和可重用的要素:
- RoboPen - 一種使用通用硬件構建的分布式機器人基礎設施,能夠進行長期不間斷的運行。
- RoboHive - 一個統(tǒng)一的框架,用于模擬和實際操作中的機器人學習。
- RoboSet - 一個高質量的數(shù)據(jù)集,代表了多個技能在不同場景中的日常對象。
- MT-ACT - 一種有效的語言條件化多任務離線模仿學習框架,通過在現(xiàn)有機器人經(jīng)驗上創(chuàng)建語義增強的多樣化集合,擴展了離線數(shù)據(jù)集,并采用了一種新穎的策略架構,其中包括高效的動作表示,以在數(shù)據(jù)預算下恢復高性能策略。
RoboSet:多技能多任務多模態(tài)數(shù)據(jù)集
構建一個能夠推廣到許多不同情景的機器人代理需要一個涵蓋范圍廣泛的數(shù)據(jù)集。鑒于擴大規(guī)模的努力通常會幫助,例如RT-1呈現(xiàn)了大約130,000個機器人軌跡的結果,目標是在數(shù)據(jù)預算下理解學習系統(tǒng)的效率和泛化原理。低數(shù)據(jù)區(qū)域通常會導致過擬合。因此,主要目標是開發(fā)一種強大的范式,能夠在低數(shù)據(jù)預算環(huán)境下學習可推廣的通用策略,同時避免過擬合。
技能與數(shù)據(jù)集在機器人學習中的表現(xiàn)
用于訓練RoboAgent的數(shù)據(jù)集RoboSet(MT-ACT)僅包括7500條軌跡(RT1的18倍少)。該數(shù)據(jù)集提前收集,并被凍結。它包括使用人類遠程操作在通用機器人硬件上收集的高質量(大多數(shù)成功)軌跡,即Franka-Emika機器人與Robotiq夾爪,涵蓋多個任務和場景。RoboSet(MT-ACT)在幾個不同的上下文中稀疏地覆蓋了12種獨特的技能。它通過將日常廚房活動(例如泡茶,烘烤)分解為不同的子任務來收集,每個子任務代表一個獨特的技能。數(shù)據(jù)集包括常見的拾取放置技能,但也包括接觸豐富的技能,例如擦拭,蓋上,以及涉及關節(jié)對象的技能。
機器人系統(tǒng)和數(shù)據(jù)收集中使用的對象的快照
除了用于訓練RoboAgent的RoboSet(MT-ACT)之外,研究人員發(fā)布了RoboSet,這是在幾個相關項目中收集的一個規(guī)模更大的數(shù)據(jù)集,總共包含100,050個軌跡,包括非廚房場景。
MT-ACT:多任務動作分塊Transformer
RoboAgent基于兩個關鍵洞見來學習在低數(shù)據(jù)環(huán)境中具有泛化能力的策略。它利用基礎模型的世界先驗來避免模式崩潰,并采用一種新穎高效的策略表示方法,能夠處理高度多模態(tài)數(shù)據(jù)。
- 語義增強:RoboAgent通過創(chuàng)建RoboSet(MT-ACT)的語義增強來注入基礎模型的世界先驗。由此產(chǎn)生的數(shù)據(jù)集通過SAM(Semantic Augmentation Module)將機器人的經(jīng)驗與世界先驗相乘,無需額外的人類/機器人成本。使用SAM來分割目標對象,并將它們在形狀、顏色、紋理等方面進行語義增強,轉變?yōu)椴煌膶ο蟆?/li>
- 高效策略表示:由此產(chǎn)生的數(shù)據(jù)集具有豐富的多模態(tài)性,包含各種技能、任務和情景。研究人員將動作分塊技術應用于多任務環(huán)境中,開發(fā)了MT-ACT——一種新穎的高效策略表示方法,能夠處理高度多模態(tài)的數(shù)據(jù)集,同時避免在低數(shù)據(jù)預算環(huán)境中的過擬合問題。
RoboAgent比現(xiàn)有方法更加樣本高效
下圖比較了MT-ACT策略表示與幾種模仿學習架構。對于這個結果,MT-ACT僅使用包括對象姿態(tài)變化和部分光照變化的環(huán)境變化。與以往的工作類似,稱為L1泛化。從結果中可以清楚地看出,使用動作分塊來建模子軌跡明顯優(yōu)于所有基線方法,從而加強了所提出的策略表示方法在樣本高效學習中的有效性。
RoboAgent在多個泛化級別上表現(xiàn)良好
上圖顯示了測試方法的不同泛化級別。研究人員可視化了泛化級別,L1代表對象姿態(tài)變化,L2代表具有不同桌面背景和干擾物的多樣化,L3代表新穎的技能-對象組合。接下來展示了每種方法在這些泛化級別上的表現(xiàn)。在嚴格的評估研究中,可以觀察到MT-ACT在更難的泛化級別(L3)上明顯優(yōu)于所有其他方法。
RoboAgent具有很高的可擴展性
接下來,研究人員評估了RoboAgent在語義增強水平增加時的表現(xiàn)。對一個活動(5種技能)進行了評估。下圖顯示,隨著數(shù)據(jù)的增加(即每幀的增強增加),性能在所有泛化級別上都有顯著提高。重要的是,對于更難的任務(L3泛化),性能增長更大。
論文:https://arxiv.org/pdf/2309.01918
代碼:https://github.com/robopen/roboagent/
譯自(有刪改):https://robopen.github.io/
本文轉載自公眾號AIGC最前線
原文鏈接:??https://mp.weixin.qq.com/s/OqdgoTD8SHs8U83ECtBFJg??
