CVPR 2025 | 機器人雙臂操控新突破!KStar Diffuser如何解決自碰撞與運動約束世紀難題?
、
文章鏈接:https://arxiv.org/pdf/2503.10743
亮點直擊
- 與現有方法僅在笛卡爾空間中優化末端執行器姿態不同,提出了一種新穎的時空機器人圖,顯式地建模機器人物理配置,以指導生成動作的去噪過程。
- 引入了一種運動學正則化器,通過引入關節空間監督來增強NBP(Next-Best Pose)學習目標。該正則化器利用前向運動學提供符合運動學約束的參考姿態,有效引導擴散過程以符合運動學約束。
- 大量實驗表明,本文提出的KStar Diffuser在仿真和實際場景中均表現優異,成功率超過基線方法10%以上。
總結速覽
解決的問題
- 物理結構約束:現有方法在預測末端執行器姿態時,往往忽略了機器人的物理結構,導致自碰撞或干涉。
- 運動學約束:現有方法在預測末端執行器姿態時,未充分考慮運動學限制,導致預測的姿態可能超出機器人關節的實際限制。
提出的方案
提出了Kinematics enhanced Spatial-TemporAl gRaph Diffuser (KStar Diffuser) 框架,具體包括:
- 動態時空圖:根據物理雙機械臂關節運動構建動態時空圖,作為機器人結構條件用于去噪動作預測。
- 可微分運動學模塊:引入可微分運動學,為優化KStar Diffuser提供參考,使策略預測更可靠且符合運動學約束的末端執行器姿態。
應用的技術
- 圖卷積網絡 (GCN):用于編碼動態時空圖,提供顯式的物理約束。
- 可微分運動學:通過可微分前向運動學將預測的關節位置映射到參考末端執行器姿態,確保生成的動作符合運動學約束。
達到的效果
- 物理結構信息利用:有效利用物理結構信息,生成符合機器人結構的動作。
- 運動學感知動作生成:在仿真和實際應用中生成符合運動學約束的動作,提高了動作的可靠性和可行性。
方法
任務定義
KStar Diffuser
概述
主流方法 [17, 23, 65] 訓練策略以預測動作,但很少考慮決定其運動的機械機器人結構。因此,我們提出了一種時空圖來建模靜態物理結構和動態歷史運動信息。此外,為了減少末端執行器姿態的運動學不可行預測,引入了一個可微分運動學模塊,為策略網絡提供運動學感知的參考。本文提出的運動學增強時空圖擴散器(KStar Diffuser)的概述如下圖所示。
骨干網絡
學習目標為:
時空機器人圖
物理架構影響整個機器人的運動,決定其是否能完成任務。同時,歷史空間信息對未來運動也很重要。因此,我們提出了一種時空圖方法,用于建模每一步的機器人架構和連續時間步的機器人運動,以表示靜態空間信息和動態運動特征。
運動學正則化器
為了有效控制末端執行器,生成的姿態軌跡必須通過逆運動學(IK)求解器進行處理,該求解器計算關節配置以實現指定的姿態。然而,由于預測軌跡的生成未考慮機器人運動學約束,它常常超出 IK 求解器的可行范圍,導致執行過程中失敗率較高。為了解決這一限制,在末端執行器姿態學習目標中引入了運動學正則化器。該正則化器將預測姿態與機器人運動學約束對齊,確保生成的軌跡保持在 IK 求解器的可解空間內,從而提高軌跡執行的可靠性。
將可微正向運動學(DFK)引入擴散過程,使得姿態損失的梯度能夠通過運動學函數反向傳播,確保每個去噪步驟都符合關節約束,從而優化末端執行器的控制精度和魯棒性。
訓練與推理
訓練
使用條件動作生成模式來訓練 KStar Diffuser,其被建模為條件去噪擴散。損失函數定義為均方誤差(MSE),如下所示:
實驗
數據集與評估設置
數據集
雙機械臂操作任務對兩個機械臂之間的協調性、同步性和對稱性提出了更高的要求,因此比單臂任務更具挑戰性。為了評估 KStar Diffuser 在這些方面的能力,使用 RLBench2 基準測試 進行了全面的實驗。RLBench2 是 RLBench 的擴展版本,專為雙機械臂操作設計,包含與真實場景高度相似的任務。
評估設置
為了評估策略性能,采用成功率作為主要指標。盡管策略在執行過程中會生成多個連續動作,但我們主要關注最終目標的實現,而非中間步驟。每個任務都有其目標狀態定義的成功標準。為了全面評估策略的能力,我們在訓練過程中使用不同數量的演示(20 和 100)進行實驗。下圖 3 展示了我們的實驗設置,包括仿真環境和 Cobot Agilex ALOHA 機器人。仿真任務和真實世界實驗設置的詳細描述見附錄 B。
基線方法
系統地評估了 KStar Diffuser 與以下兩類最先進方法的對比:
基于 Transformer 的方法:
- 動作分塊 Transformer (ACT):采用條件變分自編碼器(CVAE)架構,包含用于關節角度序列預測的編碼器-解碼器框架。
- 機器人視角 Transformer 領導者跟隨 (RVT-LF):以 RVT 為骨干,結合多視角 Transformer 進行跨視角信息聚合和圖像重渲染,并通過領導者跟隨機制進行動作預測。
- 感知-動作領導者跟隨 (PerAct-LF):基于 PerAct 的領導者跟隨范式,利用感知 Transformer 編碼指令和體素觀察,以生成最優體素動作。
- PerAct2:通過為雙機械臂動作實現統一特征空間并結合自注意力機制進行同步雙機械臂動作預測,增強了 PerAct。
基于擴散的方法:
- 基于關節的擴散策略 (DP-J):在模仿學習框架中采用擴散模型進行機器人操作,專注于關節角度預測。
- 基于末端執行器的擴散策略 (DP-EE):重新實現了 Diffusion Policy,以預測末端執行器姿態而非關節角度,提供了一種替代控制范式。
- 3D 擴散策略 (DP3):通過結合點云進行關節角度預測,增強了 3D 感知能力。
與 SOTA 方法的對比結果
RLBench2 上的實驗結果
如下表 1 所示,KStar Diffuser 顯著優于其他最先進的基線方法,在 20 和 100 個訓練演示的情況下,整體性能均提高了 20% 以上。
- 類似于學習單臂策略,學習雙機械臂策略的過程可以快速適應并實現較高的成功率,前提是任務軌跡分布相對一致。例如,在“推箱子”任務中,目標是讓兩個機械臂沿固定軌跡將箱子推向指定目標,KStar Diffuser 和其他基線模型表現良好。然而,隨著任務復雜性的增加,成功率會下降。例如,在“舉球”任務中,兩個機械臂必須同時舉起一個大球才能完成任務。任何運動的不同步都可能導致不穩定,使球滑落并最終導致任務失敗。KStar Diffuser 通過顯式建模兩個機械臂之間的空間和運動關系,在此類雙機械臂任務中實現了穩健的性能,比其他方法高出 6% 以上。
- 與單臂系統不同,雙機械臂系統具有協作操作的能力。直接從單臂操作適應到雙機械臂操作的方法在任務中表現出較高的失敗率,例如“拿筆記本電腦”任務,因為它們缺乏對機械臂之間空間和運動關系的考慮。具體來說,如圖 4 所示,該任務涉及從柜子表面拿起一個平放的筆記本電腦。由于筆記本電腦完全貼合桌面,機械臂無法直接抓取。相反,有效的策略是控制一個機械臂將筆記本電腦從柜子向外推一小段距離,使另一個機械臂能夠拿起它。KStar Diffuser 的成功率比其他方法高出約 9%,展示了其捕捉雙機械臂協作操作所需協調運動模式的能力。
真實世界實驗結果
為了全面評估策略的有效性,我們基于仿真基準在真實世界中構建了 2 個任務。真實世界任務的表現如下表 2 所示。
與仿真結果類似,未考慮雙機械臂場景的策略(如 ACT、DP 和 DP3)在所有雙機械臂任務中表現有限,平均成功率約為 20%。盡管 PerAct2 通過將雙機械臂動作映射到共享學習空間來設計雙機械臂任務,但它未能捕捉雙機械臂系統的空間結構,導致執行過程中機械臂協調無效。此外,我們還發現 PerAct2 在其預測的末端執行器姿態上存在顯著的逆運動學問題,包括關節配置沖突和不可達位置,如下圖 4 所示。這可能是由于 PerAct2 在捕捉雙機械臂系統中復雜空間約束和運動學關系方面的能力有限。相比之下,KStar Diffuser 實現了卓越的雙機械臂協調能力,比其他方法高出 10% 以上,因為它成功捕捉了雙機械臂之間的運動模式并預測了可行的末端執行器姿態。
消融實驗
模型組件的影響
為了系統評估 KStar Diffuser 中每個組件的貢獻,在仿真和真實環境中對“傳遞物品”任務進行了消融實驗。我們設計了一個逐步消融的過程:首先移除可微正向運動學(DFK)模塊,同時保留時空圖(ST Graph),然后完全禁用時空圖和運動學正則化器(KR)。下表 3 中的實驗結果展示了每個組件的關鍵作用。移除 KR 導致成功率顯著下降,在真實場景中尤為明顯。這種性能下降可歸因于仿真環境和真實環境之間的根本差異。仿真環境保持一致的、無噪聲的輸入,而真實場景引入了各種擾動(如傳感器噪聲和光反射),在沒有 KR 正則化作用的情況下,策略更容易違反運動學約束。進一步移除 ST Graph 和 KR 會導致所有實驗設置中的性能大幅下降。這一觀察結果說明了兩個關鍵點:首先,ST Graph 有效地捕捉了關節之間的時空依賴性,這對于協調機械臂之間的相對位置和交互至關重要;其次,圖結構對機器人物理架構的顯式編碼通過保持空間和時間一致性,增強了策略對意外擾動的魯棒性。我們對動作分塊大小、歷史長度和權衡系數進行了廣泛的消融研究。
定性分析
在前面圖 4 中進一步展示了定性分析。分別比較了 KStar Diffuser 與 DP3 和 PerAct2 在仿真和真實環境中執行雙機械臂操作任務的表現。
在仿真任務中,由于筆記本電腦平放在柜子上,直接抬起是不可行的。一個機械臂開始向前推,創造空間,而另一個機械臂同時抓取并抬起筆記本電腦。KStar Diffuser 有效地建模了這種雙機械臂協調,生成了精確的同步動作軌跡。相反,從單臂策略適應到雙機械臂配置的 DP3 未能實現有效協調。具體來說,在執行推動動作后,右臂沒有停止,阻礙了左臂的抬起過程。
在真實世界任務中,KStar Diffuser 生成了左右機械臂之間可執行的物品傳遞軌跡,整個任務過程中沒有發生碰撞,體現了其強大的環境適應性和碰撞避免能力。相反,PerAct2 在傳遞過程中發生了碰撞(用紅色標記),表明其對動態真實世界變量的處理能力較弱,且缺乏對機器人運動的運動學感知。
結論
本文提出了一種新穎的運動學增強時空圖擴散模型(KStar Diffuser),它將機器人結構和運動學顯式地結合到雙機械臂運動生成過程中。該模型包括一個時空機器人圖,顯式建模機器人物理配置以指導生成動作的去噪過程,以及一個運動學正則化器,通過引入關節空間監督來增強 NBP 學習目標。大量實驗表明,KStar Diffuser 在仿真和真實世界任務中均大幅優于基線方法。
局限性與未來方向
雖然通過 GNN 建模和運動學約束探索了機器人結構的影響,但末端執行器姿態預測和逆運動學的核心控制邏輯仍然存在。未來,我們計劃利用神經網絡直接建模關節運動,將機器人運動空間與人類世界的笛卡爾空間對齊。
本文轉自AI生成未來 ,作者:AI生成未來
