英偉達團隊機器訓練新方法!僅5次演示讓機器生成1000個新demo,李飛飛高徒與徒孫聯手出品
人類只需要演示五次,就能讓機器人學會一項復雜技能。
英偉達實驗室,提出了機器人訓練數據缺乏問題的新解決方案——DexMimicGen。
五次演示之后,DexMimicGen就可以直接模仿出1000個新的demo。
而且可用性強,用這些新demo訓練出的機器人,在仿真環境中的任務成功率可以高達97%,比用真人數據效果還要好。
參與此項目的英偉達科學家范麟熙(Jim Fan)認為,這種用機器訓練機器的方式,解決了機器人領域最大的痛點(指數據收集)。
同時,Jim Fan還預言:
機器人數據的未來是生成式的,整個機器人學習流程的未來也將是生成式的。
值得一提的是,DexMimicGen三名共同一作都是李飛飛的“徒孫”,具體說是德克薩斯大學奧斯汀分校(UT奧斯?。?/span>助理教授朱玉可(Yuke Zhu)的學生。
而且三人均為華人,目前都在英偉達研究院實習。
5次演示,生成1000條數據
如前所述,DexMimicGen可以僅根據人類的5次演示,生成1000個新DEMO。
在整個實驗中,作者設置了9個場景,涵蓋了3種機器人形態,共進行了60次演示,獲得了21000多個生成DEMO。
在仿真環境當中,用DexMimicGen生成數據訓練出的策略執行整理抽屜這一任務,成功率可達76%,而單純使用人工數據只有0.7%。
對于積木組裝任務,成功率也從3.3%提升到了80.7%。
成功率最高的任務是罐子分類,更是高達97.3%,只用人工數據的成功率同樣只有0.7%。
整體來看,在仿真環境中,生成數據讓機器人在作者設計的九類任務上的成功率均明顯增加。
相比于baseline方法,用DexMimicGen生成的數據也更為有效。
遷移到真實環境之后,作者測試了易拉罐分揀的任務,結果僅用了40個生成DEMO,成功率就達到了90%,而不使用生成數據時的成功率為零。
除此之外,DexMimicGen還展現了跨任務的泛化能力,使訓練出的策略在各種不同任務上表現良好。
針對初始狀態分布變化,DexMimicGen也體現出了較強的魯棒性,在更廣泛的初始狀態分布D1和D2上測試時,仍然能夠擁有一定的成功率。
將仿真方法遷移到現實
DexMimicGen是由MimicGen改造而成,MimicGen也出自英偉達和UT奧斯汀的聯合團隊。
朱玉可和范麟熙都參與過MimicGen的工作,該成果發表于CoRL 2023。
MimicGen的核心思想,是將人類示范數據分割成以目標物體為中心的片段,然后通過變換物體相對位置和姿態,在新環境中復現人類示范軌跡,從而實現自動化數據生成。
DexMimicGen則在MimicGen系統的基礎上,針對雙臂機器人靈巧操作任務做了改進和擴展,具體包括幾個方面:
- 引入并行、協調、順序三種子任務類型,以適應雙臂靈巧操作任務的需求;
- 對應三種子任務類型,設計了異步執行、同步執行和順序約束等機制,以實現雙臂的獨立動作、精密協同和特定順序操作;
- 實現了“現實-模擬-現實”的框架,通過構建數字孿生,將DexMimicGen拓展到了實際機器人系統的應用。
工作流程上,DexMimicGen會首先對人類示范進行采集和分割。
研究人員通過佩戴XR頭顯,遠程控制機器人完成目標任務,在這一過程中就會產生一小批示范數據,作者針對每個任務采集了5~10個人類示范樣本。
這些人類示范樣本會按照并行、協調、順序三種子任務定義被切分成片段——
- 并行子任務允許兩臂獨立執行;
- 協調子任務要求兩臂在關鍵時刻同步動作;
- 順序子任務則規定了某些子任務必須在另一些子任務完成后才能執行。
總之,在示范數據被切分后,機器人的每個手臂會得到自己對應的片段集合。
在數據生成開始時,DexMimicGen隨機化模擬環境中物體的位置、姿態等數據,并隨機選擇一個人類示范作為參考。
對于當前子任務,DexMimicGen會計算示范片段與當前環境中關鍵物體位置和姿態的變換。
之后用該變換對參考片段中的機器人動作軌跡進行處理,以使執行這一變換后的軌跡能夠與新環境中物體位置匹配。
生成變換后,DexMimicGen會維護每個手臂的動作隊列,手指關節的運動則直接重放示范數據中的動作。
在整個過程中,系統不斷檢查任務是否成功完成,如果一次執行成功完成了任務,則將執行過程記錄下來作為有效的演示數據,失敗則將數據丟棄。
之后就是將生成過程不斷迭代,直到獲得足夠量的演示數據。
收集好數據后,作者用DexMimicGen生成的演示數據訓練模仿學習策略,策略的輸入為RGB相機圖像,輸出為機器人動作。
最后是模擬到現實的遷移,同樣地,作者使用DexMimicGen在數字孿生環境中生成的大規模演示數據,訓練模仿學習策略。
之后作者對在數字孿生環境中評估訓練得到的策略進行調優,以提高其泛化性能和魯棒性,并遷移到實際機器人系統中。
作者簡介
DexMimicGen的共同一作有三人,都是UT奧斯汀的華人學生。
并且三人均出自李飛飛的學生、浙大校友朱玉可(Yuke Zhu)助理教授門下,他們分別是:
- 博士生Zhenyu Jiang,本科就讀于清華,2020年進入UT奧斯汀,預計將于明年畢業;
- 碩士生Yuqi Xie(謝雨齊),本科是上海交大和美國密歇根大學聯培,預計畢業時間也是明年;
- 博士生Kevin Lin,本科和碩士分別就讀于UC伯克利和斯坦福,今年加入朱玉可課題組讀博。
朱玉可的另一重身份是英偉達的研究科學家,團隊的另外兩名負責人也都在英偉達。
他們分別是Ajay Mandlekar和范麟熙(Jim Fan),也都是李飛飛的學生,Mandlekar是整個DexMimicGen項目組中唯一的非華人。
另外,Zhenjia Xu和Weikang Wan兩名華人學者對此項目亦有貢獻,整個團隊的分工如下:
△中文為機翻,僅供參考
項目主頁:https://dexmimicgen.github.io/
論文地址:https://arxiv.org/abs/2410.24185