DrEureka:語言模型引導的sim2real! 原創
將在仿真中學到的策略轉移到現實世界是一種獲取大規模機器人技能的有前景的策略。然而,從仿真到現實的方法通常依賴于任務獎勵函數和仿真物理參數的手工設計和調整,使得該過程緩慢且需要大量人力。研究人員使用大型語言模型(LLMs)來自動化和加速從仿真到現實的設計。LLM引導的從仿真到現實方法僅需要目標任務的物理仿真,并自動構建適當的獎勵函數和域隨機化分布以支持現實世界的轉移。研究人員首先證明了可以發現與現有人工設計的競爭性從仿真到現實配置,用于四足動物的運動和靈巧操作任務。然后,展示該方法能夠解決新穎的機器人任務,例如四足動物平衡和在瑜伽球上行走,而無需迭代手工設計。
DrEureka組件
DrEureka接收任務和安全指令,以及環境源代碼,并運行Eureka生成一個正則化的獎勵函數和策略。然后,它在不同的仿真條件下測試策略,構建一個考慮獎勵的物理先驗,該先驗提供給LLM以生成一組域隨機化(DR)參數。最后,使用合成的獎勵和DR參數,它訓練策略以進行現實世界的部署。
實驗亮點
研究人員呈現了實驗的關鍵定性結果,突出了DrEureka策略在真實世界瑜伽球行走任務中的穩健性,以及所有基準任務的最佳DrEureka輸出。詳細的定量實驗和比較可在論文中找到。所有視頻以1倍速播放。
DrEureka行走球畫廊
DrEureka策略在真實世界中展現出令人印象深刻的穩健性,在各種真實世界的不受控制的地形條件變化和干擾下,熟練地平衡和行走在瑜伽球上。研究人員還嘗試了踢球或放氣球,DrEureka策略對這些干擾具有魯棒性,并且可以從中恢復!?
DrEureka獎勵,DR參數和策略
研究人員對3個任務進行了DrEureka評估,包括四足球行走,四足動物運動和靈巧的立方體旋轉。在此演示中,可視化了每個任務的未修改的最佳DrEureka獎勵和DR參數,并可視化了在訓練仿真環境以及真實世界環境中部署的策略。
定性比較
研究人員對基準四足動物運動任務進行了系統研究。
地形穩健性。在四足動物運動任務中,研究人員還系統評估了DrEureka策略在幾種真實世界地形上的表現,并發現它們保持穩健并且優于使用人工設計的獎勵和DR配置訓練的策略。
默認以及額外的真實世界環境,用于測試四足動物運動中的DrEureka穩健性。
DrEureka在不同地形上表現一致,并保持對人工設計的優勢。
DrEureka安全指令。DrEureka的LLM獎勵設計子程序通過納入安全指令改進了Eureka。研究人員發現這對于生成足以在現實世界部署的獎勵函數至關重要。
DrEureka獎勵感知物理先驗。通過廣泛的消融研究,研究人員發現使用初始Eureka策略生成獎勵感知的物理先驗對于DrEureka的成功至關重要,
譯自(有刪改):https://eureka-research.github.io/dr-eureka/
本文轉載自公眾號AIGC最前線
