李飛飛全新「保姆」人形機器人,倒垃圾刷馬桶家務全包!遙操只需Switch手柄
對人類來說輕而易舉的事,對機器人來說很難。
機器人能做家庭管家,照顧好一家人嗎?要做「家庭管家」,機器人真正需要什么技能?
最近,來自斯坦福的李飛飛團隊,提出了一種一個面向多樣化家庭任務的全身操作綜合框架——「行為機器人套件」(???????????????? ?????????? ??????????,??????)。
從倒垃圾、整理衣物再到刷馬桶——??????讓機器人能夠應對實際的日常任務。
論文鏈接:https://arxiv.org/abs/2503.05652
要實現全身操控,精心設計的機器人硬件至關重要,包括雙臂、移動底座和靈活軀干。
然而,這種復雜的設計也給策略學習帶來了難題,尤其是在擴大數據收集規模和精準建模協調的全身動作以適應復雜的真實環境方面。
為此,團隊制作了這款基于配備4自由度(DoF)軀干的雙臂輪式機器人,并通過兩大核心創新同時解決硬件和學習難題:
- JoyLo:一個經濟高效的全身遙操作界面(用于數據收集)
- WB-VIMA:一個專門用于學習全身視覺運動策略的創新算法
李飛飛稱,機器人學習領域的「圣杯」之一,是執行可泛化的日常家庭移動操作任務。
借助新型雙手移動機器人,我們最新研發的BEHAVIOR機器人套件(BRS)向這一極其困難、尚未解決的難題發起了挑戰!
難題:末端執行器的可達性
大多數人認為,機器人必須具備移動性并配備雙臂,才能有效完成日常家務。
然而,經常忽視另一項關鍵能力:末端執行器的可達性。
- 家中的物品擺放高度和位置各不相同,機器人需要根據情況調整其可達范圍(見下方分布圖)。
- 具備雙臂、輪式底盤以及靈活軀干的機器人,非常有可能解決這一問題,但也帶來了更高的復雜性。
- 這種復雜性給視覺-運動策略學習帶來了重大挑戰,尤其是在擴大數據收集規模和精準建模協調的全身動作以適應真實場景時。
高度和距離對機器人的影響
數據收集
為了解決數據收集的難題,團隊推出了JoyLo——一種利用常見硬件(Nintendo Switch手柄)實現全身控制的經濟高效接口!
通過將Switch手柄安裝在3D打印的引導臂上,JoyLo讓用戶能夠直觀且精準地操控機器人的全身動作。
例如,它可以幫助用戶協調復雜的全身運動(比如彈吉他),提供豐富的觸覺反饋,并生成高質量的示范數據,這些對于視覺-運動策略學習至關重要。而且,它的成本低廉,使用門檻也很低。
模型學習
學習難題則由負責WB-VIMA解決,這是一種專門用于精準建模全身協調動作的新算法。
研究人員發現,在人形機器人上,移動底座或軀干的輕微誤差會被放大,最終影響機器人末端執行器的精準度。
WB-VIMA是一種模仿學習算法,專門用于建模機器人的全身動作,并充分利用其固有的運動學層級結構。
核心思路是機器人各關節之間存在強關聯性——上游部位(如軀干)的微小動作,可能會導致下游部位(如末端執行器)發生較大位移。
因此,為了確保所有關節的精準協調,WB-VIMA采用層級條件預測方式,即:下游部位的動作預測基于上游部位的動作,從而實現更同步的全身運動。
WB-VIMA采用自回歸方式在整個機器人結構中依次解碼動作:
- 首先預測移動底座的動作
- 再根據底座的預測動作來調整軀干的動作
- 最后在底座和軀干動作的基礎上,預測手臂的動作
此外,WB-VIMA通過自注意力機制,動態整合多模態感知信息,從而提升系統的魯棒性和適應性。
實驗
受BEHAVIOR-1K中定義的日?;顒訂l,研究團隊選擇了具有代表性的家庭任務來展示BRS的能力,包括以下五項家務:
- 把垃圾帶到外面
- 把物品放到架子上
- 擺放衣物
- 清潔馬桶
- 在狂歡派對后打掃房間
這些任務需要3個關鍵的全身控制能力:雙手協調、穩定精確的導航以及機械臂末端執行器的廣泛可達性。
所有任務都在真實世界的未經改造的環境中進行,使用人類日常接觸的物品。
這些任務都是長期任務,人類操作員使用JoyLo完成這些任務需要60至210秒不等。
由于這些活動的多階段性質,每個任務都被劃分為多個子任務「ST」(SubTask)。
BRS讓機器人成功完成了這些多樣化的家務任務,并且新算法WB-VIMA在所有測試中穩定超越基準方法(詳見下方結果)。
接下來的有策略執行的視頻,快來看看吧!
BRS支持各種家庭活動
任務1:倒垃圾
對機器人而言,完成倒垃圾的最關鍵的能力穩定和精確的導航。
機器人首先找到客廳的垃圾袋,然后完成下列子任務(括號數字表示執行順序):拾起(ST-1),搬運至關閉的門前(ST-2),打開門(ST-3),移動至室外,并將垃圾袋放到垃圾箱(ST-4)。
任務2:將物品擺放至貨架
在儲物室中,機器人從地面抬起一個箱子(ST-1),找到四層貨架,并將箱子放到合適的位置(ST-2)。
機械臂末端執行器的廣泛可達性是完成該任務最關鍵的能力。
任務3:整理衣物
在臥室中,機器人找到衣柜,打開衣柜(ST-1),取下衣架上的外套(ST-2),將外套平整地展開在沙發上(ST-3),隨后返回關閉衣柜(ST-4)。
雙手協調能力是完成該任務最關鍵的能力。
任務4:刷馬桶
在衛生間中,機器人拿起放置在已關閉馬桶上的一塊海綿(ST-1),掀開馬桶蓋(ST-2),清潔馬桶圈(ST-3),合上馬桶蓋(ST-4),并開始擦馬桶蓋(ST-5),隨后機器人前往沖水按鈕處按下沖水鍵(ST-6)。
這里,機械臂末端執行器的廣泛可達性是完成該任務最關鍵的能力。
任務5:狂歡派對后的房屋清理
從客廳出發,機器人導航至廚房的洗碗機前(ST-1)并打開洗碗機(ST-2)。
隨后前往娛樂桌處(ST-3)收集遺留的碗具(ST-4)。
最后,機器人返回洗碗機前(ST-5),將所有碗具放入并關閉洗碗機(ST-6)。
這里,穩定和精確的導航能力是完成該任務最關鍵的能力。
JoyLo的使用反饋
JoyLo不僅高效、用戶友好,而且能為策略學習提供高質量數據。
研究人員對10名參與者進行了深入的用戶研究,以評估JoyLo的有效性及其所收集數據對策略學習的適用性。
研究人員將JoyLo與兩個主流的基于逆向運動學(Inverse kinematics,IK)的界面進行對比:VR控制器和Apple Vision Pro。
為防止對機器人或環境造成潛在損害,研究在OmniGibson模擬器中進行,并選用「狂歡派對后的房屋清理」作為測試任務。
研究人員通過測量成功率(↑,越高越好)和完成時間(↓,越低越好)來評估效率,同時通過重放成功率(↑)和奇異性比率(↓)來評估數據對策略學習的質量。
其中,「成功率」指遙操作試驗的成功比例,而「重放成功率」則衡量已收集的機器人軌跡在開環執行時的成功程度。
這種評估對于隨機環境中的長期任務來說尤具挑戰性。較高的重放成功率表明數據質量可靠,使得模仿學習策略可以直接對收集的軌跡進行建模,而無需考慮具身化或運動學不匹配問題。研究人員同時報告了整體任務(「ET」)和各子任務(「ST」)的結果。
如上圖所示,JoyLo在所有界面中取得了最高的成功率和最短的完成時間。
使用JoyLo完成整體任務的平均成功率是VR控制器的5倍,而使用Apple Vision Pro的參與者則無一人能完成整體任務。
使用JoyLo的中位完成時間比使用VR控制器縮短了23%。
在需要精確操作的鉸接物體操作方面,JoyLo表現尤為突出。
此外,JoyLo始終提供最優質的數據,這一點體現在僅有使用JoyLo收集的數據能在開環中成功重放并完成復雜任務。這是因為JoyLo產生的奇異性比率最低,比VR控制器低78%,比Apple Vision Pro低85%。
所有參與者均認為JoyLo是最用戶友好的界面。
有趣的是,雖然70%的參與者最初認為基于IK的界面會更直觀,但在研究結束后,他們一致選擇了JoyLo。
這種轉變凸顯了臺面操作任務與移動全身操作在數據收集方面的關鍵差異——參與者普遍反映使用基于IK的方法難以有效控制移動底座和軀干部分。
WB-VIMA家務水平完全超越基線
在基準比較中,研究人員選取了DP3和基于RGB圖像的擴散策略模型(「RGBDP」)作為對照。
研究人員同時將人類遙操作成功率作為參考標準,并追蹤安全違規情況(包括機器人碰撞或因過度受力導致的電機功率損失)。
每種策略模型均對每項活動進行15次評估。在評估過程中,若某個子任務(「ST」)失敗,研究人員會將機器人和環境重置至后續子任務的初始狀態并繼續評估。
此外,研究人員還報告了整體任務(「ET」)的成功率,用以表征策略模型完成端到端活動的能力。
如上圖所示,WB-VIMA在所有任務中的表現始終優于基準方法DP3和RGB-DP。
就端到端任務成功率而言,WB-VIMA比DP3高出13倍,比RGB-DP高出21倍。
基準方法僅能完成部分子任務和相對簡單的「將物品擺放至貨架」任務,但在更復雜的任務中均告失敗。
在平均子任務表現方面,WB-VIMA的性能比DP3高出1.6倍,比RGB-DP高出3.4倍。
基準方法失敗的根本原因在于它們無法預測準確且協調的全身動作。
DP3和RGB-DP都直接預測扁平化的21自由度(DoF)動作,而忽視了動作空間中的層級依賴關系。這種方法存在問題,因為即使是訓練充分的策略模型,也會出現建模誤差。
如果這些誤差出現在移動底座或軀干動作的預測中,由于所有組件都是同時預測且相互獨立的,這些誤差就無法通過手臂動作來修正。
全身控制涉及多個鉸接部件,這意味著不準確的全身動作會導致任務空間中的末端執行器偏移被放大,使機器人進入分布外(out-of-distribution)狀態,最終導致操作失敗。
WB-VIMA各組件對任務性能的影響分析
研究人員對WB-VIMA的兩個變體進行了消融實驗(ablations tudies):
- 第一個變體移除了自回歸全身動作去噪(autoregressive whole-body action denoising)模塊,
- 第二個變體移除了多模態觀察注意力(multi-modal observation attention)機制。
如上圖所示,移除任一組件都會導致系統整體性能顯著下降。
特別是在「將物品放置到架子上」任務和「整理衣物」中的首個子任務「打開衣柜」中,協調的全身動作對任務成功起著決定性作用。
具體而言,移除自回歸全身動作去噪模塊會導致性能嚴重下降,降幅最高達到53%。同樣,移除多模態觀察注意力機制也會導致所有任務的性能下降。
總體而言,WB-VIMA 在復雜的真實家庭任務中的出色表現,主要得益于兩個方面的協同作用:一是連貫且協調的全身動作預測能力,二是從多模態觀察中有效提取任務相關特征的能力。
整體系統能力的深度分析
盡管BRS在各類家庭任務中表現出色,但還有哪些深入見解可以指導未來的技術進步?
研究人員重點強調兩個關鍵發現。
首先,4自由度(DoF)軀干和移動底座顯著提升了機器人的運動靈活性,這是固定機械臂難以具備的特性。
如下圖所示,這種優勢在需要協調全身運動的鉸接物體交互任務中尤為突出,例如在「倒垃圾」任務中的「開門」環節,以及「狂歡派對后的房屋清理」任務中的「打開洗碗機」環節。
為了開啟未經改裝的門,機器人習得了一種策略:在推進移動底座的同時前傾軀干,這樣在抓住門把手后能產生足夠的慣性來解鎖鉸鏈并推開門。
同樣,在打開洗碗機時,機器人通過向后移動底座,協調利用全身來平穩地拉開洗碗機門。
此外,研究人員觀察到機器人掌握了從失敗中恢復的能力。
如下方視頻所示,當機器人在打開衣柜門時發現一扇門未能完全打開,它會主動后退一段距離,重新嘗試開門動作,最終成功完成任務。
類似地,當機器人因手臂夠不著而無法關閉馬桶蓋時,它會通過向前傾斜軀干來縮短與馬桶的距離。隨后,機器人重新嘗試,成功抓取馬桶蓋并平穩地將其關閉。
失敗案例分析
研究人員展示了經過訓練的WB-VIMA策略模型的若干失敗案例,具體包括:
- 機器人雖已成功抓住把手,但未能完全打開洗碗機;
- 未能成功按下沖水按鈕;
- 未能從地面上成功拾取垃圾袋;
- 未能成功搬起地面上的箱子;
- 未能成功關閉衣柜門。
結論
研究人員提出了BRS全身機器人綜合性框架,致力于學習全身操作技能以應對多樣化真實家庭任務。
研究人員識別了執行家庭活動所必需的全身控制三個核心能力:雙手協調能力、穩定精確的導航能力以及廣泛的末端執行器可達性。
要通過基于學習的方法使機器人成功掌握這些能力,需要同時克服數據收集和算法建模兩大領域的挑戰。
整體而言,BRS系統在多項真實家庭任務中展現出卓越性能,能夠在自然、非結構化環境中與未經改裝的物體進行有效交互。
研究人員相信,BRS是實現機器人以更高自主性和可靠性執行日常家務的重要一步。