一手訓練,多手應用:國防科大提出靈巧手抓取策略遷移新方案
本文來自國防科技大學智能圖形計算團隊,主要研究方向包括智能圖形學、具身智能、機器學習、三維視覺等。團隊擁有多名國家級人才,在國際上較早開展了數據驅動三維感知、建模與交互工作,發表TOG/TPAMI/TVCG等A類論文200余篇,獲得湖南省自然科學一等獎、中國計算機學會自然科學一等獎、軍隊科技進步獎、軍隊教學成果獎、湖南省優秀研究生導師團隊等。
在機器人研究領域,抓取任務始終是機器人操作中的一個關鍵問題。這項任務的核心目標是控制機械手移動到合適位置,并完成對物體的抓取。近年來,基于學習的方法在提高對不同物體的抓取的泛化能力上取得了顯著進展,但針對機械手本身,尤其是復雜的靈巧手(多指機械手)之間的泛化能力仍然缺乏深入研究。由于靈巧手在不同形態和幾何結構上存在顯著差異,抓取策略的跨手轉移一直存在挑戰。
為了解決這個問題,來自國防科技大學和深圳大學的研究者提出了一種新穎的策略學習方法。通過利用對不同靈巧手的一致性表征設計,以及分離靈巧手高層運動生成和低層關節控制,該方法實現了將在一個靈巧手上訓練的策略以低代價遷移到其他靈巧手,并同時保持抓取性能和對物體的泛化性。
- 論文標題:Learning Cross-hand Policies of High-DOF Reaching and Grasping
- 論文地址:https://arxiv.org/abs/2404.09150
- 項目主頁:https://qijinshe.github.io/IBS-Retargeting.github.io/
該工作的創新點主要有以下部分:
運動和控制分離的層次化框架:將高層次的抓取運動預測與低層次的關節控制分離開來,通用的策略負責規劃靈巧手整體的運動,專用的控制模塊負責將運動轉化為對特定機械手關節的控制,這一設計提高了模型在多種靈巧手上的適應性;
手無關的狀態和動作表示:提出了一種通用的表示方法,這種表示結合了靈巧手間通用的關鍵點以及側重刻畫手和場景交互的幾何特征,分別避免了靈巧手結構和幾何差異對策略泛化帶來的影響,使其能夠在不同的機械手之間轉移,無需針對每個機械手單獨訓練策略模型;
基于 Transformer 的策略網絡結構設計:通過注意力機制,模型能夠在各種靈巧手上整合不同手指和表示的信息,并使其適用于不同手指數量的靈巧手,進一步提高了抓取策略的泛化能力。
相關工作
靜態抓取生成:現有的抓取生成技術可以分為分析法和數據驅動法。分析法通過采樣或優化技術尋找確保物理穩定性的抓取姿態,盡管適用于不同抓手的抓取規劃,但運行速度較慢 [1]。數據驅動法直接根據物體特征預測抓取姿態,運行速度快,但是缺乏對機械手本身的泛化性。為了跨越不同機械手,一些改進方法通過預測接觸點并結合逆運動學 [2] 或強化學習 [3] 生成抓取姿態, 其他方法如 AdaGrasp [4] 和 GenDexGrasp [5] 則通過接觸圖(contact map)進行抓取預測。然而,這些方法主要關注最終抓取姿態,缺少對整個抓取過程的規劃調整。
運動重定向:運動重定向用于將一個實體的動作轉移到另一個實體,可分為基于學習的方法和啟發式方法。學習法將其視為序列生成問題 [6][7],啟發式方法通過匹配關節或關鍵點計算目標機器人的姿態 [8]。在抓取任務中,已有一些方法將人手動作實時轉移到靈巧手上來收集靈巧手的運動軌跡 [9]。然而,由于動態環境中的誤差,重定向動作的可復現性仍然是挑戰,因此通常僅用作策略訓練中的數據[10]。
動態策略轉移:一些研究通過將機器人形態結構信息整合到策略中,實現了機器人步態控制的策略轉移 [11]。用圖神經網絡 [12] 或 Transformer [13] 來編碼機器人組件之間的連接和關系被驗證是提高策略對機器人本體結構泛化能力的有效方法。然而,在靈巧手抓取這種需要和場景產生大量接觸的任務中,機器人的幾何差異以及和場景交互關系也需要被充分考慮以實現策略遷移。
方法描述
該工作提出了一種可以在不同靈巧手間遷移的抓取策略及其學習方法,總體框架如圖所示。整個方法分為兩個關鍵階段:基于通用的幾何和結構無關的狀態動作表示的抓取策略模型,以及面向特定靈巧手的自適應模型。前者負責把控靈巧手總體的運動生成,而后者則將相應的運動轉化為靈巧手實時的關節動態變化。
圖 1 跨手遷移的抓取策略學習的整體框架圖
為了使得學習的策略模型可以在不同靈巧手之間實現泛化,該工作設計了一套不同靈巧手普適的狀態和動作表征。它使用了靈巧手上的語義關鍵點作為表征,來克服靈巧手的結構差異。這些語義關鍵點不僅可以統一指代不同靈巧手上具有相同語義的部分(比如指尖),也可以很好地概括靈巧手手指的運動信息,因此可以將關鍵點的位置信息作為策略的狀態表示,而將其的位置變化作為策略的動作表示。此外,為了克服不用靈巧手的幾何差異對策略的影響,該工作使用了交互二分曲面(Interaction Bisector Surface)[15] 這種特殊幾何表示作為策略的狀態表示的補充。這種表示被定義成到空間中到兩個物體距離相等的平面,在該工作中則用來表示抓手和場景之間的等距離面。這種表示被驗證可以提升抓取策略對靈巧手幾何的魯棒性。
在網絡的實現上,該工作設計了一個基于 Transformer 網絡結構的通用策略模型。它通過多層自注意力機制來融合不同輸入特征,并整合各手指之間的信息。這種設計使得學習的策略可以適用不同數量手指的靈巧手,進一步提升了泛化性。在下層的靈巧手關節控制上,該工作用輕量的多層感知機網絡構建了特定手適配模型,負責將關鍵點位移映射到抓取器的關節變化,確保不同抓取器都能夠被統一的高層策略模型控制。
模型訓練分為兩個階段:聯合訓練和遷移訓練,以確保模型在不同抓取器上的通用性和性能。在聯合訓練階段,策略模型和特定手適配模型會在一個靈巧手上同時訓練,但它們各自獨立優化。策略模型的訓練采用強化學習方法,通過獎勵函數優化抓取成功率和避免碰撞的能力。而適應模型則通過自監督的循環損失進行訓練,確保關鍵點位移能夠精確映射到關節角度變化同時避免自碰撞。
至于遷移訓練,其重點是將先前訓練的策略模型應用到新的靈巧手上。在這個過程中,策略模型保持固定,只對新的靈巧手重新訓練特定手適配模型,以適配其不同的關節結構。由于適應模型較為輕量且可以通過自監督方式訓練,這個過程可以被快速高效的完成。
通過這兩階段的訓練,模型不僅具備了跨靈巧手的通用能力,還能在新靈巧手上迅速適應并執行高精度抓取任務。
實驗結果
該工作對所提出的框架和設計進行了廣泛的實驗驗證,并評估了其在不同抓取器和物體上的性能。實驗使用了多種靈巧抓取器,并在 YCB 物體集和 ContactPose 物體集上測試了詳細實驗,圖 2 展示了該工作方法在不同靈巧手以及不同物體上抓取的可視結果,證明了方法的泛化性。
圖 2. 跨手遷移的抓取策略在不同靈巧手和物體上的泛化效果
定量測試方面,該工作首先測試了方法中的主要設計對靈巧手抓取策略性能和泛化性的影響,包括兩階段分離的策略設計,通用的表征設計,基于 transform 的網絡結構設計。實驗結果表明這些設計可以幫助策略實現不同靈巧手之間的,高性能的策略遷移。
表 1. 跨手遷移的抓取策略的消融實驗
為了進一步證明該工作方法的性能優勢,該工作和一些基于現有方案的基線方法進行了進一步的性能對比,如表 2 所示。這些方法包括使用不同特征(關節匹配和關鍵點匹配)的基于運動重定向的方法以及對策略輸入輸出進行映射的方法,實驗結果證明了該工作方法的優越性。
表 2. 跨手遷移的抓取策略和基線方法的對比實驗