斯坦福學者提出sim2real解決方案TRANSIC: 通過在線糾正學習進行模擬到真實政策轉移 原創
在模擬中學習并將學到的策略轉移到現實世界有潛力實現通用型機器人。這種方法的關鍵挑戰是解決模擬到現實(sim-to-real)之間的差距。先前的方法通常需要先驗的領域特定知識。研究人員認為獲得這種知識的一種簡單方法是讓人類觀察并協助機器人在現實世界中執行策略。然后機器人可以從人類那里學習以消除各種模擬到真實的差距。研究人員提出了TRANSIC,這是一種基于人機協作框架的數據驅動方法,以實現成功的模擬到真實轉移。TRANSIC允許人類通過干預和在線糾正來增強模擬策略,以全面地克服各種未建模的模擬到真實差距。殘余策略可以從人類糾正中學習,并與模擬策略集成以進行自主執行。研究人員展示了該方法可以在復雜且充滿接觸的操縱任務(如家具裝配)中實現成功的模擬到真實轉移。通過在模擬中學習的策略和從人類學習的策略的協同集成,TRANSIC作為一種全面的方法有效地解決了各種通常共存的模擬到真實差距。它顯示出隨著人力投入的擴展而具有吸引力的屬性。
方法概述
在高層次上,在模擬中訓練基本策略后,研究人員將其部署到真實機器人上,并由人類操作員監控。當必要時,人類通過遠程操作中斷自主執行,并進行在線糾正。收集此類干預和在線糾正數據以訓練殘余策略,然后部署基本策略和殘余策略以完成接觸豐富的操縱任務。
殘余策略從人類糾正中學習以彌合模擬到真實差距
這里的關鍵洞察是,人機協作框架有望作為整體解決模擬到真實差距,其中人類直接在政策執行期間通過提供在線糾正信號來協助物理機器人。關閉模擬到真實差距所需的知識可以從人類信號中學習。
在人類操作員監控執行的情況下部署模擬策略。當必要時,人類通過遠程操作進行干預和糾正。收集此類干預和糾正數據以學習殘余策略。最后,在測試時間將殘余策略和模擬策略集成以實現成功轉移。
大規模模擬訓練以獲取基本策略
利用最先進的模擬技術,研究人員在模擬中以每秒數十萬幀的速度訓練基本策略,極大地減輕了數據收集的人力負擔。研究人員首先在大規模并行化環境中使用無模型強化學習(RL)訓練教師策略。然后將RL教師策略蒸餾為學生視覺動作策略。
對于每種操縱技能,研究人員首先訓練RL策略,然后將其蒸餾為視覺動作策略。應用領域隨機化,以使訓練的模擬策略足夠健壯。研究人員做出了幾項重要的設計選擇,以促進模擬到真實的轉移,例如采用點云輸入和采用關節位置動作。
使用點云觀察和關節位置動作的視覺動作策略
研究人員使用點云作為主要視覺方式。訓練視覺動作策略時典型的RGB觀察存在幾個缺點,這些缺點阻礙了成功的轉移。經過良好校準的點云觀察可以規避這些問題。 研究人員首先使用OSC訓練教師策略以便于學習,然后將成功的軌跡蒸餾為具有關節位置控制的學生策略。我們將這種方法稱為動作空間蒸餾,并發現它對于克服模擬到真實控制器差距至關重要。
使用點云作為主要視覺方式。模擬策略是在降低的合成點云觀察上訓練的。它們能夠轉移到由標準深度相機捕獲的真實世界點云觀察。
實驗
研究問題:
- Q1:相比傳統的模擬到真實方法,TRANSIC是否能夠實現更好的轉移性能?
- Q2:相較于現有的交互式模仿學習(IL)方法,TRANSIC是否能更好地將人類糾正集成到模擬中學到的策略中?
- Q3:與僅從真實機器人軌跡學習的算法相比,TRANSIC是否需要更少的真實世界數據來實現良好的性能?
- Q4:TRANSIC能夠有效地解決不同類型的模擬到真實差距嗎?
- Q5:TRANSIC如何隨著人力投入而擴展?
- Q6:TRANSIC是否表現出引人注目的特性,如對未見過的對象的泛化、有效的門控、策略穩健性、學到的視覺特征的一致性、解決長期操縱任務的能力以及其他新發現的行為?
考慮需要高精度的復雜接觸豐富的家具操縱任務。具體來說,將正方形桌子的組裝分為四個獨立的任務:穩定、抓取、插入和螺絲。
TRANSIC在所有四項任務上表現優于所有基線方法。
研究人員展示了在模擬到真實轉移中,從模擬中學習的良好基本策略可以與有限的真實世界數據相結合以取得成功(Q3)。然而,有效利用人類糾正數據來解決模擬到真實差距是具有挑戰性的(Q1),特別是當我們想要防止基本策略的災難性遺忘時(Q2)。
解決不同模擬到真實差距的有效性(Q4)
雖然TRANSIC是一種全面解決多個模擬到真實差距的方法,但本文著重介紹了它解決每個單獨差距的能力。為此,研究人員創建了五組不同的模擬-現實對。對于每一組,有意地在模擬和真實世界之間制造了較大的差距。這些差距應用于真實世界設置中,包括感知誤差、欠驅動控制器、實體不匹配、動力學差異和對象資產不匹配。
對不同模擬到真實差距的穩健性。數字是平均成功率(%)。極坐標圖代表針對特定差距收集數據后的性能。虛線表示零次嘗試的性能。陰影圓顯示了五組之間的平均性能。
TRANSIC在五組不同的模擬-真實對中實現了77%的平均成功率,這表明了它關閉這些單獨差距的顯著能力。相比之下,最佳基線方法IWR僅實現了18%的平均成功率。研究人員將這種解決不同模擬到真實差距的效果歸因于殘余策略設計。
與人類努力的可擴展性(Q5)
與人類努力的可擴展性是人機協作機器人學習方法的期望屬性。研究人員展示了TRANSIC比最佳基線IWR具有更好的人類數據可擴展性。如果將校正數據集的大小從完整數據集大小的25%增加到75%,TRANSIC的平均成功率相對提高了42%。相比之下,IWR僅實現了23%的相對改善。此外,隨著更多人類數據的可用,IWR的性能在早期階段就會達到平穩狀態,甚至開始下降。研究人員假設IWR存在災難性遺忘問題,并且在正確模擬人類和經過訓練的機器人的行為模式方面存在困難。另一方面,TRANSIC通過僅從人類糾正中學習門控殘余策略來避免這些問題。
人類糾正數據的可擴展性。數字是在不同數量的人類糾正數據下平均成功率,涵蓋了四個任務。
引人注目的特性和新發現的行為(Q6)
研究人員進一步研究了TRANSIC并討論了幾個新發現的能力。展示了:1)TRANSIC已經學習了可重用的類別級對象泛化技能;2)一旦學會了門控機制,TRANSIC可以在完全自主的環境中可靠運行;3)TRANSIC對部分點云觀察和次優糾正數據具有穩健性;4)TRANSIC學習了模擬和真實之間一致的視覺特征。
結論
在這項工作中,研究人員提出了TRANSIC,這是一種全面的人機協作方法,用于處理接觸豐富操縱任務的模擬到真實策略轉移。文中展示了在模擬到真實轉移中,從模擬中學習的良好基本策略可以與有限的真實世界數據相結合以取得成功。然而,有效地利用人類糾正數據來解決模擬到真實差距是具有挑戰性的,特別是當想要防止基本策略的災難性遺忘時。TRANSIC通過從人類糾正數據中學習門控殘余策略成功解決了這些挑戰。展示了當同時出現不同類型的模擬到真實差距時,TRANSIC作為一種全面方法有效;它也是解決性質截然不同的個別差距的方法。它具有諸如隨著人類努力的增加而擴展等吸引人的屬性。
本文轉載自公眾號AIGC最前線
