智勝模仿學習:SkillMimicGen引領機器人技能學習新潮流 原創
機器人操作領域一直致力于讓機器人學會執行復雜任務,從模仿學習人類示范中汲取經驗是一個重要方法。但收集大量人類示范數據成本高昂且耗時,尤其對于長周期任務而言,這一問題更為突出。為解決這一困境,NVIDIA的研究團隊提出了SkillMimicGen(SkillGen)系統。該系統能夠從少量人類示范中生成大量高質量的演示數據集,為機器人學習提供充足的數據支持。今天我們就一起來學習一下這篇論文吧!
1. 任務分解與技能抽象
SkillGen的核心思想是將任務分解為動作和技能片段。通過學習局部操縱技能,并利用運動規劃將這些技能按順序組合,從而完成任務。技能被定義為包含待操縱對象、啟動條件、策略和終止條件的元組,這種抽象方式有助于在不同階段對任務進行建模和管理。
圖1:SkillGen概述。SkillGen以最少的人力投入訓練出熟練的智能體。(左)首先,人類遠程操作員首先收集大約3個任務演示,并標注技能片段的開始和結束位置,即每次對象交互發生的位置。(中)然后,SkillGen自動將這些局部技能演示適配到新場景中,并通過運動規劃將它們連接起來,以增加成功演示的數量。(右)這些演示用于訓練混合技能策略(HSP),即智能體在閉環反應技能和由運動規劃執行的粗略轉移運動之間交替進行。
2. 演示生成過程
在數據生成階段,SkillGen通過自動化的試錯過程,從少量源演示中采樣參考技能片段,并根據新場景的初始狀態進行調整和執行。運動規劃在技能片段之間起著關鍵作用,確保機器人在自由空間中安全、高效地移動,減少策略學習的負擔。通過將技能片段與運動規劃相結合,SkillGen能夠生成多樣化且高質量的演示數據,大大提高了數據生成的成功率。
3. 混合技能策略框架
為了更好地利用生成的數據集,SkillGen引入了混合技能策略(HSP)框架。該框架學習技能的啟動、控制和終止組件,使技能能夠在測試時通過運動規劃進行有序組合。HSP包括多種變體,如HSP-Reg、HSP-Class和HSP-TAMP,它們在學習啟動條件等方面采用了不同的方法,以適應不同的任務需求。
圖2:HSP部署。在測試時,SkillGen按順序執行多個已學習的技能,使用運動規劃將上一個技能的終止狀態與下一個技能的起始狀態相連接。每個技能由起始條件、閉環控制器和終止條件組成。
實驗驗證:SkillGen的卓越表現
1. 與現有方法對比
在實驗中,SkillGen在多個方面展現出顯著優勢。與MimicGen相比,SkillGen的數據生成成功率大幅提高,平均成功率從40.7%提升至75.4%。在面對場景變化和雜亂環境時,SkillGen表現出更強的適應性,能夠成功生成數據,而MimicGen則難以應對。
2. 策略學習能力提升
SkillGen在策略學習方面也表現出色。在相同任務上,使用SkillGen數據訓練的代理性能明顯優于使用源演示或MimicGen數據訓練的代理。平均而言,SkillGen訓練的代理成功率比MimicGen高出24%,能夠在復雜任務中實現更高的成功率。
3. 真實世界應用與零樣本遷移
研究團隊還將SkillGen應用于真實世界的操作任務,包括在模擬環境中生成數據并訓練代理,然后將其零樣本遷移到真實機器人上執行任務。實驗結果表明,SkillGen能夠在真實世界中有效地生成數據并學習到熟練的策略,為機器人在實際場景中的應用提供了有力支持。
圖3:(左)智能體在SkillGen數據集上的性能表現。在源演示(使用HSP - TAMP)、MimicGen [11]數據(使用BC - RNN [1])以及SkillGen數據(使用所有HSP變體)上訓練的智能體成功率。與源數據相比,SkillGen數據極大地提高了智能體在(D_0)上的性能,并且SkillGen智能體明顯優于MimicGen智能體,尤其是在更具挑戰性的任務變體上。(右上)訓練數據比較。盡管SkillGen僅使用10個人類演示來生成數據,但HSP - TAMP智能體在200個SkillGen演示和200個人類演示上的性能相當。生成更多的SkillGen演示可顯著提高性能(另見附錄E)。(右下)真實世界操作結果。在真實世界中使用SkillGen數據生成的HSP - Class智能體非常熟練,并且明顯優于使用MimicGen數據訓練的智能體。它們還可以實現從模擬到現實的零樣本遷移。
未來展望與局限
盡管SkillGen取得了顯著成果,但研究團隊也指出了其當前的局限性。例如,在數據生成過程中需要預先知道技能序列,并且假設在每個技能片段開始時能夠獲取對象的位姿。未來的研究將致力于解決這些問題,進一步提高SkillGen的性能和靈活性。
SkillMimicGen為機器人技能學習提供了一種創新且高效的方法,通過自動化演示生成和混合技能策略框架,顯著提升了數據生成和策略學習的性能。隨著技術的不斷進步,相信SkillGen將在機器人領域發揮更大的作用,推動機器人操作能力的進一步發展。
本文轉載自公眾號AIGC最前線 作者:實習小畢
