瑜伽球上遛「狗」!入選英偉達十大項目之一的Eureka有了新突破
機器狗在瑜伽球上穩穩當當的行走,平衡力那是相當的好:
各種場景都能拿捏,不管是平坦的人行道、還是充滿挑戰的草坪都能 hold 住:
甚至是研究人員踢了一腳瑜伽球,機器狗也不會歪倒:
給氣球放氣機器狗也能保持平衡:
上述展示都是 1 倍速,沒有經過加速處理。
- 論文地址:https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf
- 項目主頁:https://github.com/eureka-research/DrEureka
- 論文標題:DrEureka: Language Model Guided Sim-To-Real Transfer
這項研究由賓夕法尼亞大學、 NVIDIA 、得克薩斯大學奧斯汀分校的研究者聯合打造,并且完全開源。他們提出了 DrEureka(域隨機化 Eureka),這是一種利用 LLM 實現獎勵設計和域隨機化參數配置的新型算法,可同時實現模擬到現實的遷移。該研究展示了 DrEureka 算法能夠解決新穎的機器人任務,例如四足機器人平衡和在瑜伽球上行走,而無需迭代手動設計。
DrEureka 是基于 Eureka 完成的,后者還被評為 2023 年英偉達十大項目之一。了解 Eureka 更多內容可參考《有了 GPT-4 之后,機器人把轉筆、盤核桃都學會了》。
在論文摘要部分,研究者表示將在模擬中學習到的策略遷移到現實世界是一種大規模獲取機器人技能的有前途的策略。然而,模擬到現實的方法通常依賴于任務獎勵函數以及模擬物理參數的手動設計和調整,這使得該過程緩慢且耗費人力。本文研究了使用大型語言模型 (LLM) 來自動化和加速模擬到現實的設計。
論文作者之一、英偉達高級科學家 Jim Fan 也參與了這項研究。此前英偉達成立 AI 實驗室,領隊人就是 Jim Fan,專攻具身智能。Jim Fan 表示:
「我們訓練了一只機器狗能在瑜伽球上保持平衡并行走,這完全是在模擬中進行的,然后零樣本遷移到現實世界,無需微調,直接運行。
對機器狗來說,走瑜伽球任務尤其困難,因為我們無法準確模擬彈力球表面。然而,DrEureka 可以輕松搜索大量模擬真實配置,并讓機器狗能夠在各種地形上操控球,甚至橫著走!
一般來講,從模擬到現實的遷移是通過域隨機化實現的,這是一個繁瑣的過程,需要機器人專家盯著每個參數并手動調整。像 GPT-4 這樣的前沿 LLM 擁有大量內置的物理直覺,包括摩擦、阻尼、剛度、重力等,借助 GPT-4,DrEureka 可以熟練地調整這些參數并很好地解釋其推理?!?/span>
論文介紹
DrEureka 流程如下所示,其接受任務和安全指令以及環境源代碼,并運行 Eureka 以生成正則化的獎勵函數和策略。然后,它在不同的模擬條件下測試該策略以構建獎勵感知物理先驗,并將其提供給 LLM 以生成一組域隨機化 (DR) 參數。最后,使用合成的獎勵和 DR 參數訓練策略以進行實際部署。
Eureka 獎勵設計。獎勵設計組件基于 Eureka,因為它簡單且具有表現力,但本文引入了一些改進,以增強其在模擬到真實環境中的適用性。偽代碼如下:
獎勵感知物理先驗(RAPP,reward aware physics prior)。安全獎勵函數可以規范策略行為以固定環境選擇,但本身不足以實現模擬到現實的遷移。因此本文引入了一種簡單的 RAPP 機制來限制 LLM 的基本范圍。
LLM 用于域隨機化。給定每個 DR 參數的 RAPP 范圍,DrEureka 的最后一步指示 LLM 在 RAPP 范圍的限制內生成域隨機化配置。具體過程參見圖 3:
該研究使用 Unitree Go1 來實驗,Go1 是一個小型四足機器人,四條腿有 12 個自由度。在四足運動任務中,本文還系統地評估了 DrEureka 策略在幾個現實世界地形上的性能,發現它們仍然具有魯棒性,并且優于使用人類設計的獎勵和 DR 配置訓練的策略。
了解更多內容,請參考原論文。