戴著VR頭盔教機器人抓握,機器人當場就學會了
近年來,機器人領域涌現出許多有趣的進展,比如機器狗會跳舞,?會踢足球?,?雙足機器人搬東西?。通常這些機器人都依賴于根據感官輸入生成控制策略。盡管這種方法避免了開發狀態估計模塊、建模對象屬性和調整控制器增益方面的挑戰,但需要大量的領域專業知識。即使取得了諸多進展,但學習瓶頸讓機器人難以執行任意任務,無法實現通用的目標。
要了解機器人學習的關鍵,一個核心的問題是:我們如何收集機器人的訓練數據?一種方法是通過自監督的數據收集策略收集有關機器人的數據。雖然這種方法比較穩健,但即使對于相對簡單的操作任務,通常也需要數千小時與真實世界交互的大量數據。另一種是在模擬數據上進行訓練,然后遷移到真實機器人(Sim2Real)。這允許機器人以快幾個數量級的速度學習復雜的機器人行為。然而,設置模擬機器人環境和指定模擬器參數通常需要廣泛的領域專業知識。
實際上還有第三種方法,收集訓練數據還可以要求人類教師提供演示,然后訓練機器人快速模仿人類的演示。這種模仿方法最近在各種具有挑戰性的操作問題中顯示出巨大的潛力。然而,這些工作中的大多數都存在一個根本性的限制——為機器人收集高質量的演示數據是很困難的。
基于上述問題,來自紐約大學和 Meta AI 的研究者提出了 HOLO-DEX,這是一個收集演示數據和訓練靈巧機器人的新框架。它使用 VR 頭顯(例如 Quest 2)將人類教師置于身臨其境的虛擬世界中。在這個虛擬世界中,教師可以從機器人的眼睛中查看機器人「看到」的場景,并通過內置的姿勢檢測器控制 Allegro 機械手。
看起來就像是人「手把手」教機器人做動作:
HOLODEX 允許人類通過低延遲的觀察反饋系統為機器人無縫提供高質量的演示數據,它有以下三個優點:
- 與自監督的數據收集方法相比,HOLODEX 基于強大的模仿學習技術,可以在沒有獎勵機制的情況下快速訓練;
- 與 Sim2Real 方法相比,學得的策略可以直接在真實機器人上執行,因為它們是在真實數據上訓練的;
- 與其他模仿方法相比,HOLODEX 顯著減少了對領域專業知識的要求,只需要人們操作 VR 設備。
論文鏈接:https://arxiv.org/pdf/2210.06463.pdf
項目鏈接:https://holo-dex.github.io/
代碼鏈接:https://github.com/SridharPandian/Holo-Dex
為了評估 HOLO-DEX 的性能,該研究在六個需要靈巧操作的任務上進行了實驗,包括手持物體、單手擰開瓶蓋等。該研究發現人類教師使用 HOLO-DEX 可以比單圖像遙操作(teleoperation)的先前工作快 1.8 倍。在 4/6 任務上,HOLO-DEX 學習策略的成功率超過了 90%。此外,該研究還發現通過 HOLO-DEX 學得的靈巧策略可以泛化到新的、未見過的目標對象上。
總的來說,該研究的貢獻包括:
- 提供了一種借助 VR 頭顯讓人類教師在混合現實中實現高質量遙操作的方法;
- 實驗表明,HOLO-DEX 收集的演示可用于訓練有效且通用的靈巧操作行為;
- 該研究還對所提方法中的各種決策進行了分析和消融實驗,以驗證每一個關鍵設計的效用。
此外,與 HOLO-DEX 相關的混合現實 API、研究收集的演示和訓練代碼均已開源:https://holo-dex.github.io/
HOLO-DEX 架構概覽
如下圖 1 所示,HOLO-DEX 分兩個階段運行。在第一階段,人類教師使用虛擬現實 (VR) 頭顯向機器人提供演示。這個階段包括創建一個用于教學的虛擬世界、估計(estimate)教師的手部姿勢、將教師的手部姿勢重定位到機械手上,最后控制機器人的手部。在第一階段收集了一些演示之后,HOLO-DEX 的第二階段學習視覺策略來解決演示的任務。
該研究使用 Meta Quest 2 VR 頭顯將人類教師置于虛擬世界中,分辨率是 1832 × 1920,刷新率是 72 Hz。這款頭顯的基礎版售價為 399 美元,相對較輕,只有 503 克,這讓教師的演示操作更輕松舒適。更重要的是,Quest 2 的 API 接口允許創建自定義的混合現實世界,將機器人系統與 VR 中的診斷面板一起可視化。
使用 VR 頭顯估計手部姿勢
相比于之前關于靈巧遙操作的工作相比,使用 VR 頭顯在人類教師的手部姿勢估計方面具有三個好處。首先,由于 Quest 2 使用 4 個單色攝像頭,其手勢估計器比單攝像頭估計器強大很多。其次,由于攝像機是內部校準的,因此它們不需要以前的多攝像機遙操作框架中所需的專門校準程序。第三,由于手部姿勢估計器是集成到設備中的,因此它能夠以 72Hz 的頻率傳輸實時姿勢。此前有研究指出,靈巧遙操作的一個重大挑戰是以高精度和高頻率獲取手部姿勢,HOLO-DEX 通過使用商業級 VR 頭顯顯著簡化了這個問題。
手部姿勢重定向
下一步,從 VR 中提取的教師手部姿勢需要重定位到機器手上。這首先要計算教師手部各個關節的角度,然后一種直接的重定向方法是「命令」機器人的關節變動到相應的角度。這種方法適用于該研究中除拇指以外的所有手指,但 Allegro 機械手的形態與人類不是完全匹配的,拇指不能完全套用這種方法。
為了解決這個問題,該研究將教師拇指指尖的空間坐標映射到機器人的拇指指尖,然后通過逆運動學求解器計算拇指的關節角度。需要注意的是,由于 Allegro 機械手沒有小拇指,該研究也就忽略了教師的小拇指角度。
整個姿勢重定向過程不需要任何校準或教師特定的調整來收集演示。但該研究發現可以通過查找從教師拇指到機器人拇指的特定映射來改進拇指重定向。整個過程的計算成本很低,并且可以以 60 Hz 的頻率傳輸所需的機器手姿勢。
機器手控制
Allegro Hand 通過 ROS 通信框架進行異步控制。給定重定向程序計算的機器手關節位置,該研究使用 PD 控制器以 300Hz 輸出所需扭矩。為了減少穩態誤差,該研究使用重力補償模塊來計算偏移扭矩。在延遲測試中,該研究發現當 VR 耳機與機器人手在同一本地網絡上時,可以實現低于 100 毫秒的延遲。低延遲和低錯誤率對于 HOLO-DEX 至關重要,因為這允許人類教師對機器手進行直觀的遙操作。
當人類教師控制機器手時,他們可以實時看到機器人的變化(60Hz)。這允許教師糾正機器手的執行錯誤。在教學過程中,該研究以 5Hz 的頻率記錄來自三個 RGBD 攝像機的觀察數據和機器人的動作信息。由于記錄多個攝像機所需的大量數據占用空間和相關帶寬,該研究不得不降低記錄頻率。
使用 HOLO-DEX 數據進行模仿學習
收集數據后就進入了第二階段,HOLO-DEX 要在數據上訓練視覺策略。該研究采用最近鄰模仿 (INN) 算法進行學習。在之前的工作中,INN 被證明可以在 Allegro 手上產生基于狀態的靈巧策略。HOLO-DEX 更進一步,并證明這些視覺策略可以推廣到各種靈巧操作任務中的新對象。
為了選擇獲得低維嵌入的學習算法,該研究嘗試了幾種最先進的自監督學習算法,發現 BYOL 提供了最好的最近鄰結果,因此選擇 BYOL 作為基本的自監督學習方法。
實驗結果
下表 1 展示了 HOLO-DEX 收集成功演示的速度比 DIME 快 1.8 倍。對于需要精確 3D 運動的 3/6 任務,該研究發現單圖像遙操作甚至不足以收集單個演示。
該研究檢查了各種模仿學習策略在靈巧任務上的性能,不同策略下每個任務的成功率如下表 2 所示。
由于該研究提出的策略是基于視覺的,并且不需要明確估計對象的狀態,因此它們能與訓練中未見過的對象兼容。該研究評估了其手動操作策略,這些策略經過訓練可在多種視覺外觀和幾何形狀的對象上執行平面旋轉、對象翻轉和 Can Spinning 任務,如下圖 5 所示。
此外,該研究還在不同任務的不同大小的數據集上測試了 HOLO-DEX 的性能,可視化結果如下圖所示。