突破空間限制!從2D到3D:北大等開源Lift3D,助力精準具身智能操作!
文章鏈接:https://arxiv.org/pdf/2411.18623
項目鏈接:https://lift3d-web.github.io/
亮點直擊
- 提出了Lift3D,通過系統地提升隱式和顯式的3D機器人表示,提升2D基礎模型,構建一個3D操作策略。
- 對于隱式3D機器人表示,設計了一個任務感知的MAE(Masked Autoencoder),它掩蓋了任務相關的可操作性區域,并重建了深度幾何信息,從而增強了2D基礎模型的3D空間感知能力。
- 對于顯式3D機器人表示,提出了一種2D模型提升策略,利用2D基礎模型的預訓練位置嵌入(PEs)來編碼3D點云數據,用于操作模仿學習。
總結速覽
亟需解決的問題:
- 缺乏大規模的機器人3D數據:現有的3D數據資源不足,限制了機器人在復雜空間任務中的應用。
- 空間幾何信息的丟失:在處理和提取3D特征時,可能會丟失一些重要的空間幾何信息,影響機器人對環境的感知與操作。
提出的方案:
- Lift3D框架:該框架通過逐步增強2D基礎模型,結合隱式和顯式的3D機器人表示,來構建一個魯棒的3D操作策略。
- 任務感知mask自動編碼器:首先設計了一個mask自動編碼器,通過掩蓋任務相關的可操作性區域,重建深度信息,從而增強2D基礎模型的隱式3D機器人表示。
- 2D模型提升策略:通過建立輸入3D點與2D模型位置嵌入之間的映射關系,使Lift3D能夠將3D點云數據直接編碼到2D基礎模型中,從而構建顯式的3D機器人表示。
應用的技術:
- 任務感知mask自動編碼器:用于掩蓋和重建任務相關的3D特征,增強模型對空間關系的理解。
- 自監督微調:通過自監督學習的方式對2D模型進行微調,以增強其對3D空間的感知。
- 2D模型提升策略:建立2D與3D的映射關系,將2D基礎模型與3D點云數據結合,提取3D機器人表示。
達到的效果:
- 提高3D操作策略的魯棒性:Lift3D能夠更好地處理和理解3D空間中的復雜配置,構建更加穩定的機器人操作策略。
- 提升性能:在多個仿真基準和實際場景中,Lift3D的表現 consistently 優于現有的最先進方法,展示了在3D機器人操作中的優勢。
這個框架通過增強2D模型的3D能力,減少了空間信息的損失,在實際應用中展現了顯著的提升。
Lift3D Method
本節介紹了提出的Lift3D框架的問題陳述。接著詳細介紹了任務感知的MAE和2D模型提升策略,這兩者分別增強了隱式和顯式的3D機器人表示。
問題陳述
任務感知masked自動編碼器 (Task-aware Masked Autoencoder)
一些研究表明,2D基礎模型在各種下游機器人任務中展示了強大的表示能力和泛化能力。在此基礎上,Lift3D首先增強了2D基礎模型中的隱式3D機器人表示。現有的機器人MAE重建方法采用了激進的mask策略,其中大量的輸入圖像補丁被隨機mask。然而,這些mask的區域大多包含與任務無關的背景信息,阻礙了前景物體表示的有效學習。與之前的方法不同,Lift3D旨在掩蓋任務相關的可操作性區域,并重建深度幾何信息,從而增強2D基礎模型的3D空間感知能力。
具體而言,利用來自機器人操作的大規模數據集來構建MAE訓練數據集,該數據集包括從視頻中隨機抽取的100萬個訓練樣本,包含配對的圖像和深度數據。如下圖2 a)所示,一旦獲得數據,使用多模態模型(例如,CLIP)基于任務特定的文本描述生成圖像關注圖。例如,圖2中提取關注圖的文本提示是:“機器人臂將紅色碗放入灰色碗中”。然后,這些關注圖會被雙線性縮放并反投影到輸入圖像上,用于引導MAE的mask策略。
2D模型提升策略 (2D Model-lifting Strategy)
在賦予2D基礎模型隱式的3D機器人感知能力之后,提出了一種提升策略,使2D模型能夠顯式地理解點云數據。最近的研究,無論是將3D點云投影到多視圖圖像中,還是將2D特征提升到3D空間中,都面臨著由于模態轉換而丟失空間信息的問題。因此,高效地編碼3D數據一直是3D機器人領域的關鍵研究方向。
對于基于Transformer的2D模型,位置嵌入(PEs)起著重要作用,因為它們為注意力機制中的輸入token提供了位置信息。然而,直接創建新的3D位置嵌入來編碼3D token可能會引入語義差異,這些差異源于預訓練的2D基礎模型與新添加的3D位置嵌入之間的不同,從而可能導致大規模預訓練知識的喪失。
因此,受[23, 24, 71]啟發,將3D token投影到多個虛擬平面上。與之前的工作不同,投影過程并不是為了構造模型的輸入。相反,它建立了輸入3D點與每個虛擬平面上的預訓練2D位置嵌入之間的位置對應關系。然后,這些2D位置嵌入被用來直接編碼3D token。
最后,監督損失的公式為:
其中,T、R和G分別表示7自由度末端執行器姿態中的平移、旋轉和夾持器狀態。如圖2 b)所示,在第二階段的模仿學習中,凍結2D基礎模型的參數,僅更新3D分詞器、注入適配器和策略頭。Lift3D也可以在不注入適配器的情況下操作,這會導致操作性能略微下降。
實驗
通過展示模擬任務和真實任務中的實驗設置和結果,評估了Lift3D的操作能力。每個組件的有效性通過消融研究得到了驗證。通過在不同的操作實例、背景場景和光照條件下測試模型,檢驗了Lift3D的泛化能力。最后通過逐步增加2D基礎模型的參數來探索模型的可擴展性。
模擬實驗
基準測試:從三個廣泛使用的操作模擬基準中選擇了30多個任務:MetaWorld 和 Adroit 在MuJoCo模擬器中的任務,以及 RLBench 在CoppeliaSim模擬器中的任務。點云數據通過使用相機外參和內參從單視圖RGBD數據中獲得。對于MetaWorld,選擇了一個包含Sawyer臂和雙指夾持器的桌面環境,并從不同難度級別中選擇了15個任務。這些任務從兩個角落攝像頭視角捕捉,任務分類如下:
- 簡單任務:按鈕按壓、抽屜打開、到達、拉手柄、插頭拔出、拉桿和旋鈕轉動。
- 中等任務:錘子、清掃、垃圾桶取物、推墻和箱子關閉。
- 難度較高任務:組裝、手伸入和架子放置。
對于Adroit任務,重點是使用與[52]中相同攝像頭視角的靈巧手操作,包括了三個任務:錘子、門和鋼筆。對于RLBench,它使用Franka Panda機器人和前視攝像頭。由于篇幅限制,RLBench的結果和詳細信息已在附錄B.1中提供。
數據收集:MetaWorld中使用了腳本化策略,收集了25個演示,每個演示包含200個步驟。對于Adroit任務,軌跡是通過強化學習算法訓練的智能體獲得的。具體來說,DAPG應用于門和錘子任務,而VRL3用于鋼筆任務。研究者們收集了100個演示,每個演示包含100個步驟。RLBench中的演示是通過預定義的路徑點和Open Motion Planning Library收集的,共收集了100集,每集包含若干個關鍵幀。
基線Lift3D的創新之處在于系統性地增強了隱式和顯式的3D機器人表示。為了評估其有效性,將Lift3D與來自三個類別的9種方法進行了比較:
- 2D 機器人表示方法:選擇了CLIP(ViT-base),它是一個2D基礎模型。此外,還包括了R3M和VC1,這兩者都是2D機器人預訓練方法。
- 3D 機器人表示方法:借鑒了[95],采用了基礎的3D模型,包括PointNet、PointNet++和PointNext。此外,還檢驗了SPA ,這是之前的SOTA 3D機器人預訓練方法。與[52]相同,所有機器人表示方法均使用與Lift3D相同的三層策略頭和訓練損失。
- 3D 策略方法:Lift3D與之前的SOTA 3D擴散策略(DP3)在MetaWorld和Adroit上進行了比較,并在RLBench上與RVT-2進行了比較。
訓練和評估細節
定量結果在下表1中,Lift3D(CLIP)在MetaWorld基準測試中達到了平均成功率83.9,其中中等任務的準確率為78.8,難度較大的任務準確率為82.0。與其他機器人表示方法相比,Lift3D在最頂尖的2D方法和3D方法基礎上分別提高了8.8和14.4的平均成功率。此外,與之前的SOTA 3D策略(DP3)相比,Lift3D實現了18.6的準確率提升。這些結果表明,Lift3D有效地增強了2D基礎模型的操作能力,通過利用大規模預訓練知識,使其對機器人3D場景有更深入的理解。
此外,Lift3D在靈巧手任務上也表現出優越的性能,超過了以前的機器人表示和策略方法。需要注意的是,靈巧手的自由度在任務間有所不同,其中錘子、門和鋼筆任務的自由度分別為26、28和24。結果證明,本文的方法對于更復雜的靈巧手操作任務也很有效,這得益于強大的3D機器人表示能力。
Lift3D(DINOV2)也顯示出了良好的結果,證明了該方法對其他2D基礎模型的實用性。
真實世界實驗
數據集收集在真實世界實驗中,使用Franka Research 3臂進行實驗,并通過Intel RealSense L515 RGBD攝像頭從靜態前視角捕捉圖像。執行了十個任務:
- 將瓶子放置到架子上
- 倒水
- 拔掉充電器
- 堆積積木
- 拾取并放置物品
- 滑動積木
- 給植物澆水
- 擦拭桌面
- 打開抽屜
- 關上抽屜
這些任務涉及不同類型的交互對象和操作行為。對于每個任務,在不同空間位置收集了40個演示,軌跡以30fps的速度記錄。選擇了30個回合,并提取關鍵幀來構建每個任務的訓練集。輸入的點云數據和圖像示例如圖4所示。
訓練與評估細節
實現細節與模擬實驗中的相同。對每個任務從頭開始訓練每種方法。在訓練過程中,使用世界坐標系下的點云數據和操作姿態作為輸入和監督信號。評估時,使用最終epoch的模型,并在不同空間位置上進行20次評估。
定量結果
如下圖3所示,將Lift3D(CLIP)與DP3、VC-1和PointNet進行了比較。結果表明,Lift3D在多個任務中表現出色。特別是在“將瓶子放置到架子上”任務中,該任務需要準確的3D位置和旋轉預測,Lift3D達到了90%的成功率。結果表明,Lift3D能夠有效理解3D空間場景,并在真實世界中做出準確的姿態預測。對于更復雜的任務(如擦拭桌面),由于需要操作可變形的物體,所有方法的精度都面臨一定的局限性。盡管如此,Lift3D仍然達到了40%的成功率。
定性結果如下圖4所示,展示了六個真實世界任務的操作過程。本文的方法準確預測了連續的7自由度末端執行器姿態,使得任務得以沿著軌跡順利完成。例如,在“給植物澆水”任務中,Lift3D首先準確抓住了澆水壺的手柄。接著,它平穩地抬起壺并將其定位到植物上方。最后,夾持器逐漸旋轉以控制“水流”。
消融實驗
在下表2中,針對MetaWorld仿真任務(包括裝配和關箱任務)進行了一系列消融實驗,并計算了平均操作準確率。
Task-aware MAE在Ex2到Ex4中,觀察到深度重建和RGB+深度重建相較于Ex1(僅RGB重建)分別提高了6%和5%的成功率,而僅使用RGB重建并未顯示出顯著改善。這突出了在操作任務中重建幾何信息的重要性,因此選擇將深度圖像作為重建目標。通過比較Ex2和Ex5,發現基于任務的引導掩膜策略相比隨機掩膜策略提高了4%的成功率,證明了專注于與任務相關的可操作區域來學習幾何信息更加高效。
視覺token蒸餾
與Ex5相比,通過視覺token蒸餾進行預訓練(Ex6)使成功率提高了8%,這表明防止災難性遺忘已經預訓練的知識對于將2D基礎模型賦予隱式3D機器人意識至關重要。
2D模型提升策略
對于2D模型提升策略,與僅輸入圖像的Ex1相比,Ex7引入了顯式點云編碼的提升策略,顯著提高了操作性能。這表明3D空間信息對于實現穩健的操作至關重要。Ex8相較于Ex7也展示了明顯的提升,驗證了隱式3D表示學習能夠促進后續顯式3D模仿學習。
位置編碼(PE)影響
最后,與Ex8相比,Ex9采用了沒有預訓練的新增PE(位置編碼),結果性能下降了6%,驗證了提升策略最有效地利用了大規模的2D預訓練知識。
泛化能力探索
通過利用2D基礎模型的大規模預訓練知識和全面的3D機器人表示,Lift3D展現了強大的現實世界泛化能力。正如下表3所示,設計了三種不同于訓練場景的實際測試場景來驗證其泛化能力。
- 不同的操作實例Lift3D在多種操作物體中展現了強大的魯棒性,且表現出最小的準確率損失。這一成功主要歸功于預訓練的2D基礎模型的語義理解能力。
- 復雜的背景場景背景干擾顯著降低了所有方法的準確性,但Lift3D顯示出最小的下降,操作成功率仍然保持在50%以上。這可以歸因于在3D空間中有效利用了大規模預訓練知識。此外,基于任務的引導掩膜策略通過重建增強了模型對前景區域空間幾何的理解,同時減少了背景干擾的影響。
- 不同的光照條件光照變化影響2D圖像的數據分布,同時也會影響深度捕捉,從而影響點云數據。在光照變化的影響下,Lift3D僅顯示出平均20%的準確率下降,證明了其強大的3D機器人表示能力。
模型可擴展性探索
在計算機視覺中,隨著2D基礎模型參數的增大,通常會提高下游任務的性能 [56, 61]。基于這一點,探討了Lift3D政策是否也表現出可擴展性。在非常困難的MetaWorld仿真任務——“置物架任務”上進行了實驗。
對于這一復雜任務,Lift3D (DINOV2-ViTbase) 僅達到28%的準確率。ViT-base的參數數量為86M,而ViT-large和ViT-giant分別有304M和1B的參數。通過將2D基礎模型替換為DINOV2-ViT-large和DINOV2-ViT-giant,Lift3D在“置物架任務”中分別達到了48%和58%的準確率,并且展現了更快的收斂速度,如下圖5所示。這些改進證明了Lift3D政策模型的可擴展性,并且Lift3D框架能夠通過更大的2D基礎模型生成更強健的操作策略。
結論與局限性
本文提出了Lift3D,一種將大規模預訓練的2D基礎模型與強大的3D操作能力相結合的創新框架。首先,設計了一種任務感知的MAE(Masked Autoencoder),它通過掩蓋與任務相關的有用區域并重建深度幾何信息,增強了隱式的3D機器人表示。其次,提出了一種2D模型提升策略,通過利用預訓練的2D基礎模型顯式地編碼3D點云數據,用于操作模仿學習。Lift3D在仿真和實際實驗中持續超越現有方法,并在多種實際場景中展現了強大的泛化能力。
局限性
然而,Lift3D框架專注于將2D視覺模型提升至3D操作任務,這意味著它無法理解語言條件。然而,本文的方法可以適應像CLIP這樣的多模態模型,能夠將Lift3D編碼器與語言模型結合,為未來的3D視覺-語言-行動模型的實現鋪平道路。
本文轉自AI生成未來 ,作者:AI生成未來
