如你所說的抓取:基于語言指導(dǎo)的靈巧抓取生成 原創(chuàng) 精華
摘要:本文探討了一項(xiàng)新穎任務(wù)“如你所說的靈巧抓取”(DexGYS),使機(jī)器人能夠根據(jù)以自然語言表達(dá)的人類指令執(zhí)行靈巧抓取。然而,這一領(lǐng)域的發(fā)展因缺乏具有自然人類指導(dǎo)的數(shù)據(jù)集而受到阻礙;因此,我們提出了一個(gè)基于語言指導(dǎo)的靈巧抓取數(shù)據(jù)集,名為DexGYSNet,提供高質(zhì)量的靈巧抓取注釋以及靈活和細(xì)致的人類語言指導(dǎo)。我們的數(shù)據(jù)集構(gòu)建具有成本效益,采用精心設(shè)計(jì)的手-物體交互重定向策略和大語言模型輔助的語言指導(dǎo)注釋系統(tǒng)。借助該數(shù)據(jù)集,我們引入了DexGYSGrasp框架,用于基于人類語言指令生成靈巧抓取,具有生成意圖對(duì)齊、高質(zhì)量和多樣性的抓取能力。為了實(shí)現(xiàn)這一能力,我們的框架將復(fù)雜的學(xué)習(xí)過程分解為兩個(gè)可管理的漸進(jìn)目標(biāo),并引入兩個(gè)組件來實(shí)現(xiàn)它們。第一個(gè)組件學(xué)習(xí)抓取分布,側(cè)重于意圖對(duì)齊和生成多樣性。第二個(gè)組件在保持意圖一致性的同時(shí)優(yōu)化抓取質(zhì)量。我們?cè)贒exGYSNet和真實(shí)環(huán)境中進(jìn)行了廣泛的實(shí)驗(yàn)以進(jìn)行驗(yàn)證。
1.引言
使機(jī)器人能夠根據(jù)人類語言指令執(zhí)行靈巧抓取在機(jī)器人和深度學(xué)習(xí)領(lǐng)域具有重要意義,提供了在工業(yè)生產(chǎn)和家庭協(xié)作場(chǎng)景中具有前景的應(yīng)用。隨著數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)的發(fā)展和大規(guī)模數(shù)據(jù)集的可用性,機(jī)器人靈巧抓取方法取得了令人印象深刻的性能。然而,以前的方法側(cè)重于抓取的穩(wěn)定性,尚未充分利用靈巧手進(jìn)行意圖明確、類似人類的抓取。最近的研究,稱為任務(wù)導(dǎo)向和功能性靈巧抓取,旨在根據(jù)特定任務(wù)或物體的功能生成抓取。然而,這些方法通常依賴于預(yù)定義的、固定且有限的任務(wù)或功能,限制了它們的靈活性并阻礙了自然的人機(jī)交互。
在本文中,我們探討了一項(xiàng)新穎的任務(wù)“如你所說的靈巧抓取”,簡稱DexGYS,如圖1所示。我們可以看到,在該任務(wù)中提供了自然的人類指導(dǎo),可以用來驅(qū)動(dòng)靈巧抓取生成,從而促進(jìn)更加用戶友好的人機(jī)交互。然而,這項(xiàng)新任務(wù)也帶來了新的挑戰(zhàn)。首先,標(biāo)注靈巧姿勢(shì)及相應(yīng)語言指導(dǎo)的高成本,構(gòu)成了開發(fā)和擴(kuò)展靈巧數(shù)據(jù)集的障礙。其次,生成確保意圖一致性、高質(zhì)量和多樣性的靈巧抓取的需求,對(duì)模型學(xué)習(xí)提出了相當(dāng)大的挑戰(zhàn)。
圖1:我們的語言指導(dǎo)任務(wù)與傳統(tǒng)靈巧抓取任務(wù)的對(duì)比。傳統(tǒng)方法要么僅關(guān)注抓取質(zhì)量,要么專注于固定和有限的功能。我們的方法通過基于人類語言生成靈巧抓取,增強(qiáng)了自然的人機(jī)交互。
為了解決第一個(gè)挑戰(zhàn),我們提出了一個(gè)大規(guī)模語言指導(dǎo)的靈巧抓取數(shù)據(jù)集DexGYSNet。DexGYSNet通過利用人類抓取行為和大語言模型的廣泛能力,以一種具有成本效益的方式構(gòu)建。具體而言,我們引入了手-物體交互重定向(HOIR)策略,將易于獲得的人類手-物體交互轉(zhuǎn)移到機(jī)器人靈巧手,以保持接觸一致性和高質(zhì)量的抓取姿勢(shì)。隨后,我們開發(fā)了LLM輔助的語言指導(dǎo)注釋系統(tǒng),在LLM的支持下,為靈巧抓取數(shù)據(jù)生成靈活和細(xì)致的語言指導(dǎo)。DexGYS數(shù)據(jù)集包含了50,000對(duì)高質(zhì)量的靈巧抓取及其對(duì)應(yīng)的語言指導(dǎo),涵蓋了1,800種常見家庭物品。
在數(shù)據(jù)集的支持下,我們開始克服第二個(gè)挑戰(zhàn)。我們提出了用于靈巧抓取生成的DexGYSGrasp框架,該框架對(duì)齊意圖,確保高質(zhì)量,并保持多樣性。起初,我們驚訝地發(fā)現(xiàn)同時(shí)掌握所有目標(biāo)的難度源于常用的穿透損失,該損失用于避免手-物體穿透。正如圖2所示,穿透損失大大阻礙了抓取分布的學(xué)習(xí),導(dǎo)致意圖不一致和多樣性降低。相反,盡管具有高多樣性和對(duì)齊的意圖,移除穿透損失導(dǎo)致了不可接受的物體穿透,使抓取不可行。基于這一發(fā)現(xiàn),我們以漸進(jìn)策略設(shè)計(jì)了DexGYSGrasp框架,將復(fù)雜的學(xué)習(xí)任務(wù)分解為兩個(gè)由漸進(jìn)組件管理的順序目標(biāo)。最初,第一個(gè)組件學(xué)習(xí)抓取分布,專注于意圖一致性和多樣性,有效地在沒有穿透損失約束的情況下進(jìn)行優(yōu)化。隨后,第二個(gè)組件對(duì)初步粗略的抓取進(jìn)行優(yōu)化,使其在保持相同意圖和多樣性的同時(shí)達(dá)到高質(zhì)量。我們的框架允許每個(gè)組件專注于特定且可管理的優(yōu)化目標(biāo),顯著提升了生成抓取的整體性能。
圖2:穿透損失(圖中為Pen.)對(duì)抓取性能影響的可視化:意圖對(duì)齊、質(zhì)量和多樣性。(a) 說明了穿透損失導(dǎo)致意圖不一致,而沒有穿透損失會(huì)導(dǎo)致嚴(yán)重的物體穿透。(b) 展示了在相同條件下的三個(gè)采樣結(jié)果,表明穿透損失導(dǎo)致多樣性降低。
我們?cè)贒exGYSNet數(shù)據(jù)集和現(xiàn)實(shí)世界場(chǎng)景中進(jìn)行了廣泛的實(shí)驗(yàn)。結(jié)果表明,我們的方法能夠?yàn)楦鞣N物體生成意圖一致、高多樣性和高質(zhì)量的抓取姿勢(shì)。
2.相關(guān)工作
2.1 靈巧抓取生成
靈巧手賦予機(jī)器人以類似人類的方式操控物體的能力。先前的方法通過分析方法和深度學(xué)習(xí)方法在確保抓取穩(wěn)定性方面取得了令人印象深刻的結(jié)果。然而,這些方法尚未完全開發(fā)出靈巧手在意圖明確和類似人類抓取方面的全部潛力。最近,一些工作專注于功能性靈巧抓取,旨在實(shí)現(xiàn)超越抓取穩(wěn)定性的類似人類能力,但仍然缺乏靈活性和泛化能力。在這項(xiàng)工作中,我們探討了“如你所說的靈巧抓取”這一新穎任務(wù),充分利用機(jī)器人手的靈巧性,使機(jī)器人能夠根據(jù)人類自然語言執(zhí)行靈巧抓取。
2.2 抓取數(shù)據(jù)集
大規(guī)模數(shù)據(jù)集的發(fā)展顯著促進(jìn)了數(shù)據(jù)驅(qū)動(dòng)抓取方法的進(jìn)步,包括平行抓取、人類抓取和靈巧抓取方法。盡管取得了這些進(jìn)展,數(shù)據(jù)收集的高成本仍然是一個(gè)重大挑戰(zhàn),特別是在靈巧手領(lǐng)域。先前的靈巧抓取數(shù)據(jù)集主要依賴于物理分析方法來緩解這一問題。然而,這些方法通常缺乏構(gòu)建我們的語言指導(dǎo)靈巧任務(wù)所需的特定語義上下文或相應(yīng)的語言指導(dǎo)。在本文中,我們提出了DexGYSNet數(shù)據(jù)集,以具有成本效益的方式構(gòu)建,提供高質(zhì)量的靈巧抓取注釋以及靈活和細(xì)致的人類語言指導(dǎo)。
2.3 語言指導(dǎo)的機(jī)器人抓取
語言指導(dǎo)的機(jī)器人抓取在機(jī)器人領(lǐng)域中非常重要。先前專注于平行夾持器的工作在實(shí)現(xiàn)任務(wù)導(dǎo)向抓取、語言指導(dǎo)抓取和語言指導(dǎo)的操作方面取得了進(jìn)展。與平行夾持器相比,靈巧手具有更高的自由度(例如,Shadow Hand有28個(gè)自由度),從而提供了更廣泛的靈巧性。然而,這種高自由度也給模型學(xué)習(xí)帶來了挑戰(zhàn)。在本文中,我們提出了DexGYSGrasp框架,能夠生成意圖對(duì)齊、高質(zhì)量和多樣性的靈巧抓取。
3.DexGYSNet 數(shù)據(jù)集
3.1 數(shù)據(jù)集概述
DexGYSNet 數(shù)據(jù)集采用了一種具有成本效益的策略構(gòu)建,如圖3所示。我們首先從現(xiàn)有數(shù)據(jù)集中收集對(duì)象網(wǎng)格和人類抓取數(shù)據(jù)。隨后,我們開發(fā)了手-物體交互重定向(HOIR)策略,將人類抓取轉(zhuǎn)換為具有高質(zhì)量和手-物體交互一致性的靈巧抓取。最后,我們實(shí)施了一個(gè)LLM輔助的語言指導(dǎo)注釋系統(tǒng),利用大語言模型(LLM)的知識(shí),為語言指導(dǎo)生成靈活和細(xì)致的注釋。
圖3:DexGYSNet 數(shù)據(jù)集的構(gòu)建過程。(a) HOIR 策略通過三步將人類手重定向到靈巧手,保持手-物體交互的一致性并避免物理不可行性(黑色圓圈中所示)。(b) 注釋系統(tǒng)在 LLM 的幫助下自動(dòng)為手-物體對(duì)注釋語言指導(dǎo)。
3.2 手-物體交互重定向
我們的手-物體交互重定向(HOIR)旨在將人類手-物體交互轉(zhuǎn)移到靈巧手-物體交互,如圖3所示。源MANO手參數(shù)表示為 Gm∈R61。目標(biāo)靈巧手參數(shù)表示為 Gdex = (r, t, q),其中 r ∈SO(3) 表示全局旋轉(zhuǎn),t∈R3 是世界坐標(biāo)中的平移,q∈RJ 是具有 J 自由度的靈巧手的關(guān)節(jié)角,例如,Shadow Hand 的 J = 22。HOIR 包含三個(gè)步驟:姿勢(shì)初始化、指尖對(duì)齊和交互優(yōu)化。
在第一步中,通過從相似的人類姿勢(shì)復(fù)制參數(shù)來初始化靈巧手姿勢(shì),以建立更好的初始值。在第二步中,在參數(shù)空間中優(yōu)化靈巧手姿勢(shì),使指尖位置 pdex,ftk 與人類的 pmano,ftk對(duì)齊。這個(gè)過程實(shí)現(xiàn)了重定向的一致性,優(yōu)化目標(biāo)可以表示為:
為了在保持一致性的同時(shí)提高物理交互的可行性,在第三步中,通過手-物體交互和物理約束損失進(jìn)一步優(yōu)化靈巧手姿勢(shì)。設(shè)計(jì)了兩個(gè)關(guān)鍵點(diǎn)以保持一致性:保持優(yōu)化后姿勢(shì)的接觸區(qū)域與第二步輸出一致,并在此階段保持平移固定。優(yōu)化目標(biāo)可以表示為:
其中,物體穿透損失 Lpen 用于懲罰手-物體穿透深度。自我穿透損失 Lspen 用于懲罰自我穿透。關(guān)節(jié)角損失 Ljoint 用于懲罰超出限制的關(guān)節(jié)角度。接觸圖損失 Lcmap確保物體上的接觸圖與第二階段的輸出一致。
3.3 LLM輔助的語言指導(dǎo)注釋
為了以低成本為靈巧手-物體對(duì)注釋靈活和細(xì)致的語言指導(dǎo),我們?cè)O(shè)計(jì)了一個(gè)由LLM輔助的粗到細(xì)自動(dòng)化語言指導(dǎo)注釋系統(tǒng),如圖3所示,靈感來自于 [40, 28]。具體來說,我們最初基于對(duì)象類別和簡要的人類意圖(例如“使用乳液泵”)生成簡短的指導(dǎo),這些意圖由人類數(shù)據(jù)集 [26] 收集。隨后,我們通過計(jì)算手上接觸錨點(diǎn)到物體不同部分的距離來編寫每個(gè)手指的接觸信息。然后,我們將接觸信息組織成語言描述符(例如“食指觸碰泵頭,其他手指觸碰瓶身”)。最后,我們將簡要指導(dǎo)和詳細(xì)的接觸信息輸入到 GPT-3.5 中,生成自然的注釋指導(dǎo)(例如“要使用乳液泵,請(qǐng)用食指按下泵頭,同時(shí)用其他手指握住瓶子”)。
4.DexGYSGrasp 框架
給定完整的對(duì)象點(diǎn)云 O 和語言指導(dǎo) L 作為輸入,我們的目標(biāo)是生成與意圖對(duì)齊、高多樣性和高質(zhì)量的靈巧抓取 Gdex。
4.1 漸進(jìn)抓取目標(biāo)
DexGYS 中的學(xué)習(xí)挑戰(zhàn)。DexGYS 對(duì)意圖對(duì)齊(例如,準(zhǔn)確地用食指按壓扳機(jī)來使用噴霧器)、高多樣性(例如,用不同的姿勢(shì)握住瓶子)和高質(zhì)量(例如,確保抓取穩(wěn)定且避免物體穿透)提出了高要求。然而,我們發(fā)現(xiàn)單一模型難以同時(shí)滿足這些要求,因?yàn)槌S玫奈矬w穿透損失帶來的優(yōu)化挑戰(zhàn),如圖2和圖4所示,增加穿透損失的權(quán)重會(huì)減少物體穿透,但會(huì)對(duì)意圖對(duì)齊和生成多樣性產(chǎn)生不利影響。
圖4:不同物體穿透損失權(quán)重 λpen 的定量實(shí)驗(yàn)結(jié)果。意圖通過預(yù)測(cè)與目標(biāo)之間的 Chamfer 距離(CD)量化。多樣性通過手部平移的標(biāo)準(zhǔn)差δt 評(píng)估。物體穿透通過從對(duì)象點(diǎn)云到手網(wǎng)格的穿透深度(Pen.)進(jìn)行評(píng)估。我們的方法在意圖一致性、多樣性和避免穿透方面獨(dú)特地實(shí)現(xiàn)了高性能。
漸進(jìn)抓取目標(biāo)。為了解決這些挑戰(zhàn),我們提出將復(fù)雜的學(xué)習(xí)目標(biāo)分解為兩個(gè)更易管理的目標(biāo)。第一個(gè)目標(biāo)是生成的:它專注于學(xué)習(xí)抓取分布,不優(yōu)先考慮質(zhì)量,而是專注于學(xué)習(xí)具有意圖對(duì)齊和生成多樣性的抓取分布。第二個(gè)目標(biāo)是回歸的:它旨在將粗略的抓取優(yōu)化為具有相同意圖的高質(zhì)量抓取。通過分解復(fù)雜的目標(biāo),我們降低了生成目標(biāo)的學(xué)習(xí)難度,因?yàn)樗粚W⒂谫|(zhì)量,避免使用可能干擾學(xué)習(xí)過程的穿透損失。此外,回歸學(xué)習(xí)比分布學(xué)習(xí)復(fù)雜度低,因?yàn)樗鼉H需要在小空間內(nèi)調(diào)整姿勢(shì)到特定目標(biāo)。因此,我們可以使用穿透損失來確保優(yōu)化后的靈巧手避免穿透物體并具有高質(zhì)量。
4.2 漸進(jìn)抓取組件
受益于第4.1節(jié)中的漸進(jìn)抓取目標(biāo),我們?cè)O(shè)計(jì)了以下兩個(gè)簡單的漸進(jìn)抓取組件,可以實(shí)現(xiàn)意圖對(duì)齊、高多樣性和高質(zhì)量的語言指導(dǎo)靈巧生成。
圖5:我們框架的概述。(a) 在只有回歸損失的情況下,意圖和多樣性抓取組件根據(jù)語言和對(duì)象條件,從噪聲姿勢(shì)中重建原始手姿勢(shì)進(jìn)行訓(xùn)練。(b) 在回歸損失和穿透損失的情況下,質(zhì)量抓取組件通過訓(xùn)練優(yōu)化粗略姿勢(shì),提高抓取質(zhì)量,同時(shí)保持意圖一致性。
意圖和多樣性抓取組件。我們引入意圖和多樣性抓取組件,以高效地學(xué)習(xí)抓取分布,實(shí)現(xiàn)意圖對(duì)齊和多樣性生成。由于分布建模的目標(biāo),IDGC 構(gòu)建在條件擴(kuò)散模型之上,以預(yù)測(cè)從噪聲化的 GTdex 到靈巧姿勢(shì) G0dex。輸入的對(duì)象點(diǎn)云 O由 Pointnet++ 編碼,語言 L 由預(yù)訓(xùn)練的 CLIP 模型作為條件進(jìn)行編碼。我們采用 DDPM 作為采樣過程,公式如下:
質(zhì)量抓取組件。第一個(gè)組件生成的抓取具有良好的意圖對(duì)齊和高多樣性,但由于顯著的物體穿透而質(zhì)量較差。因此,我們引入質(zhì)量抓取組件以回歸方式優(yōu)化抓取質(zhì)量,同時(shí)保持意圖一致性。特別地,它以粗略姿勢(shì) G^dex、粗略手點(diǎn)云 H(G^dex) 和對(duì)象點(diǎn)云 O 作為輸入,并輸出姿勢(shì)△Gdex。優(yōu)化后的抓取為 G~dex= G^dex +△Gdex。訓(xùn)練對(duì)通過收集第一個(gè)組件生成的粗略抓取及其具有相似意圖的最相似的真實(shí)抓取構(gòu)建。這確保了訓(xùn)練目標(biāo)與語言意圖對(duì)齊,從而保證優(yōu)化后的抓取與預(yù)期操作保持一致。特別地,QGC 以粗略姿勢(shì) G^dex、粗略手點(diǎn)云 H(G^dex) 和對(duì)象點(diǎn)云 O 作為輸入,并輸出姿勢(shì) △Gdex。優(yōu)化后的抓取為 G~dex= G^dex +△Gdex。
4.3 漸進(jìn)抓取損失
意圖和多樣性抓取損失。我們策略性地使用回歸損失并排除物體穿透損失,以提高意圖和多樣性抓取組件的訓(xùn)練效果。通過專注于回歸學(xué)習(xí),該組件促進(jìn)了更有效的優(yōu)化過程,實(shí)現(xiàn)意圖一致性和抓取多樣性的提升。具體而言,我們利用 L2 損失進(jìn)行姿勢(shì)參數(shù)回歸,并結(jié)合手型 Chamfer 損失以顯式輔助手型。意圖和多樣性抓取組件的損失函數(shù)定義為:
其中,H 是相應(yīng)姿勢(shì)的靈巧手點(diǎn)云。
質(zhì)量抓取損失。受益于簡化的訓(xùn)練目標(biāo),質(zhì)量抓取組件專注于在相對(duì)有限的空間內(nèi)將粗略抓取優(yōu)化為特定目標(biāo),從而減少物體穿透的負(fù)面影響。因此,我們采用包括物體穿透在內(nèi)的精心設(shè)計(jì)的損失函數(shù)。質(zhì)量抓取組件的損失函數(shù)可以表示為:
5.實(shí)驗(yàn)
5.1 數(shù)據(jù)集和評(píng)估指標(biāo)
我們?cè)趯?duì)象實(shí)例級(jí)別上劃分了 DexDYSNet 數(shù)據(jù)集;在每個(gè)類別中,80% 的對(duì)象用于訓(xùn)練,20% 用于評(píng)估。從意圖一致性、抓取質(zhì)量和抓取多樣性的角度,采用三種類型的指標(biāo)進(jìn)行評(píng)估。1)對(duì)于意圖一致性,使用 Chamfer 距離(CD)來衡量預(yù)測(cè)的手點(diǎn)云與目標(biāo)之間的距離。此外,我們使用接觸距離(Con.)來衡量預(yù)測(cè)與目標(biāo)之間的對(duì)象接觸圖的 L2 距離。2)對(duì)于抓取質(zhì)量,Q1 衡量抓取的穩(wěn)定性,并按照 1 cm 的接觸閾值和 5 mm 的穿透閾值。最大穿透深度(Pen.)反映了從對(duì)象點(diǎn)云到手網(wǎng)格的最大穿透深度。3)對(duì)于多樣性,我們采用在相同條件下八個(gè)樣本的平移δt、旋轉(zhuǎn) δr 和關(guān)節(jié)角δq 的標(biāo)準(zhǔn)差。
5.2 實(shí)現(xiàn)細(xì)節(jié)
對(duì)于 DexDYSNet 的構(gòu)建,步驟 2 和 3 分別優(yōu)化了 20 和 300 次迭代,學(xué)習(xí)率分別為 0.01 和 0.0001。我們將 λ1pen=100,將 λ1pen、λ1joint、λ1cmap分別設(shè)置為 10。對(duì)于訓(xùn)練我們的框架,意圖和多樣性抓取組件的訓(xùn)練周期設(shè)為 100,質(zhì)量抓取組件設(shè)為 20。損失權(quán)重配置如下:
在所有訓(xùn)練過程中,使用 Adam 優(yōu)化器進(jìn)行優(yōu)化,批量大小為 64,權(quán)重衰減率為 5.0 ×10-6。初始學(xué)習(xí)率為 2.0×10-4,并使用余弦學(xué)習(xí)率調(diào)度器衰減到 2.0×10-5。所有實(shí)驗(yàn)都在單個(gè) RTX 4090 GPU 上使用 PyTorch 實(shí)現(xiàn)。
5.3 與 SOTA 方法的比較
比較結(jié)果如表 1 所示。我們重現(xiàn)了 SOTA 方法以適應(yīng)我們的任務(wù),將語言條件與點(diǎn)云特征連接起來。正如表中所見,我們的 DexGYSGrasp 框架在意圖一致性和抓取多樣性方面顯著優(yōu)于所有先前的方法,同時(shí)在抓取質(zhì)量上也取得了可比的性能。由于第 4.1 節(jié)中概述的優(yōu)化挑戰(zhàn),先前的方法在學(xué)習(xí)強(qiáng)健的語言條件抓取分布方面存在困難。它們通常會(huì)產(chǎn)生未對(duì)齊但高質(zhì)量的抓取,導(dǎo)致抓取質(zhì)量相當(dāng),但意圖不一致和多樣性有限,而我們的框架在意圖對(duì)齊、高質(zhì)量和多樣性方面達(dá)到了 SOTA 性能。圖 6 中,我們可視化了生成的抓取,以定性展示我們框架的抓取生成能力。底部圖展示了四個(gè)樣本的結(jié)果,左下角強(qiáng)調(diào)了我們框架在確定性指導(dǎo)下生成精確和一致抓取的能力(例如,使用扳機(jī)噴霧器的方式是確定性的)。右下角展示了在提供模糊指導(dǎo)時(shí)(例如,握住瓶子的方式是多樣的)生成抓取的多樣性。
5.4 漸進(jìn)組件和損失的必要性
表 2 中的結(jié)果驗(yàn)證了我們框架的核心觀點(diǎn):將復(fù)雜任務(wù)分解為漸進(jìn)目標(biāo),采用漸進(jìn)組件,并使用漸進(jìn)損失進(jìn)行學(xué)習(xí)。結(jié)果的前四行表明,單一組件在沒有漸進(jìn)目標(biāo)的情況下,無法平衡所有目標(biāo)。此外,單一組件,即使有漸進(jìn)目標(biāo),在幾個(gè)訓(xùn)練周期后將 λ2pen 從 0 調(diào)整到 100,也不會(huì)提升性能。當(dāng)使用沒有相應(yīng)漸進(jìn)損失的漸進(jìn)組件時(shí)(IDGC(λ2pen= 100) + QGC),結(jié)果也類似。此外,常用的質(zhì)量優(yōu)化策略測(cè)試時(shí)適應(yīng)(TTA),雖然提高了抓取質(zhì)量,但導(dǎo)致意圖一致性極差。總體而言,只有我們 DexGYSGrasp 框架的漸進(jìn)設(shè)計(jì)才能確保意圖對(duì)齊、高質(zhì)量和多樣性的卓越表現(xiàn)。
5.5 即插即用實(shí)驗(yàn)
我們進(jìn)行了實(shí)驗(yàn),以評(píng)估我們的見解對(duì)其他 SOTA 方法的適用性。具體來說,我們?cè)跊]有物體穿透損失的情況下訓(xùn)練了 GraspCAVE 和 SceneDiffuser。結(jié)果表明,移除物體穿透損失可以提高意圖一致性,這與第 4.1 節(jié)討論的發(fā)現(xiàn)一致。此外,我們的質(zhì)量抓取組件可以顯著提高抓取質(zhì)量,同時(shí)保持意圖一致性。
5.6 手-物體交互重定向的有效性
我們進(jìn)行了消融研究,以評(píng)估我們?cè)跇?gòu)建 DexDYSNet 數(shù)據(jù)集時(shí)的手-物體交互重定向(HOIR)策略。如表 3 所示,我們的三步 HOIR 顯著提高了質(zhì)量和意圖一致性。我們觀察到,將所有損失在一個(gè)步驟中優(yōu)化(所有在一個(gè)階段),會(huì)導(dǎo)致接觸一致性變差,而抓取質(zhì)量變好。當(dāng)在第三步中不固定根平移(不固定平移)時(shí),結(jié)果也類似。我們認(rèn)為這種權(quán)衡是由于手-物體交互數(shù)據(jù)中的固有噪聲和人類抓取與靈巧手之間的結(jié)構(gòu)差異,使得在所有方面表現(xiàn)出色具有挑戰(zhàn)性。總體而言,我們認(rèn)為三步 HOIR 策略在手物接觸一致性這個(gè)最重要方面達(dá)到了更全面的結(jié)果。
5.7 現(xiàn)實(shí)世界中的實(shí)驗(yàn)
我們進(jìn)行了現(xiàn)實(shí)世界的抓取實(shí)驗(yàn),以驗(yàn)證我們方法的實(shí)際應(yīng)用,如圖 7 所示。實(shí)驗(yàn)在 Allegro 手、Flexiv Rizon 4 手臂和 Intel Realsense D415 相機(jī)上進(jìn)行。盡管我們的框架是為完整的對(duì)象點(diǎn)云設(shè)計(jì)的,我們集成了幾種現(xiàn)成的方法以增強(qiáng)其實(shí)用性。具體來說,通過視覺定位和 SAM 獲得部分對(duì)象點(diǎn)云,然后輸入到點(diǎn)云補(bǔ)全網(wǎng)絡(luò)以獲得完整的點(diǎn)云。在執(zhí)行中,我們首先將手臂移動(dòng)到靈巧手根節(jié)點(diǎn)的 6-DOF 姿勢(shì),然后將靈巧手關(guān)節(jié)角度控制到預(yù)測(cè)的姿勢(shì)。現(xiàn)實(shí)世界的實(shí)驗(yàn)進(jìn)一步驗(yàn)證了我們方法的有效性。
6.結(jié)論
我們認(rèn)為,使機(jī)器人能夠執(zhí)行與人類語言對(duì)齊的高質(zhì)量靈巧抓取在深度學(xué)習(xí)和機(jī)器人領(lǐng)域至關(guān)重要。在本文中,我們探討了這一新穎任務(wù),稱為“如你所說的靈巧抓取”。這一任務(wù)并不簡單,我們提出了 DexGYSNet 數(shù)據(jù)集和 DexGYSGrasp 框架來完成它。DexGYSNet 數(shù)據(jù)集通過對(duì)象-手交互重定向策略和 LLM 輔助的語言指導(dǎo)注釋系統(tǒng),以具有成本效益的方式構(gòu)建。在 DexGYSNet 的基礎(chǔ)上,DexGYSGrasp 框架由兩個(gè)漸進(jìn)組件組成,可以實(shí)現(xiàn)意圖對(duì)齊、高多樣性和高質(zhì)量的靈巧抓取生成。DexDYSNet 和現(xiàn)實(shí)世界設(shè)置中的廣泛實(shí)驗(yàn)表明,我們的框架顯著優(yōu)于所有 SOTA 方法,證實(shí)了我們方法的潛力和有效性。
Wei Y L, Jiang J J, Xing C, et al. Grasp as You Say: Language-guided Dexterous Grasp Generation[J]. arXiv preprint arXiv:2405.19291, 2024.
1 Sun Yat-sen University
2 Stanford University
3 Wuhan University
本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt
原文鏈接:??https://mp.weixin.qq.com/s/vxOl-P1Xxn8-9g_FkC1hDg??
