僅需10%參數量即超越SOTA!浙大、字節、港中文聯合提出「類別級位姿估計」任務新框架
賦予機器人對日常物體的 3D 理解是機器人應用中的一項重大挑戰。
在未知環境中進行探索時,由于物體形狀的多樣性,現有的物體位姿估計方法仍然不能令人滿意。
最近浙江大學、字節跳動人工智能實驗室和香港中文大學的研究者聯合提出了一個新的框架,用于從單個 RGB-D 圖像進行類別級物體形狀和位姿估計。
論文地址:?https://arxiv.org/abs/2210.01112?
項目鏈接:?https://zju3dv.github.io/gCasp?
為了處理類別內物體的形狀變化,研究人員采用語義原始表示,將不同的形狀編碼到一個統一的隱空間中,這種表示是在觀察到的點云和估計的形狀之間建立可靠對應關系的關鍵。
然后通過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀優化。實驗表明所提出的方法在公開數據集中實現了領先的位姿估計性能。
研究背景
在機器人的感知與操作領域,估計日常物體的形狀和位姿是一項基本功能,并且具有多種應用,其中包括 3D 場景理解、機器人操作和自主倉儲。
該任務的早期工作大多集中在實例級位姿估計上,這些工作主要通過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。
然而,這樣的設置在現實世界的場景中是有限的,因為很難預先獲得一個任意給定物體的確切模型。
為了推廣到那些沒見過但是在語義上熟悉的物體,類別級別物體位姿估計正在引起越來越多的研究關注,因為它可以潛在地處理真實場景中同一類別的各種實例。
現有的類別級位姿估計方法通常嘗試預測一個類中實例的像素級歸一化坐標,或者采用形變之后的參考先驗模型來估計物體位姿。
盡管這些工作已經取得了很大的進步,但是當同一類別中存在較大的形狀差異時,這些一次性預測方法仍然面臨困難。
為了處理同一類內物體的多樣性,一些工作利用神經隱式表示,通過迭代優化隱式空間中的位姿和形狀來適應目標物體的形狀,并獲得了更好的性能。
在類別級物體位姿估計中有兩個主要挑戰,一是巨大的類內形狀差異,二是現有的方法將形狀和位姿的耦合在一起進行優化,這樣容易導致優化問題更加復雜。
在這篇論文中,研究人員通過設計的對剛體相似變換不變的形狀描述子,解耦了物體的形狀和位姿估計,從而支持任意位姿中目標物體的隱式形狀優化。最后再根據估計形狀與觀測之間的語義關聯,求解出物體的尺度與位姿。
算法介紹
算法由三個模塊組成,語義原語提取、生成式形狀估計和物體位姿估計。
算法的輸入是單張 RGB-D 圖像,算法使用預先訓練好的 Mask R-CNN 獲得 RGB 圖像的語義分割結果,然后根據相機內參反投影得到每個物體的點云。該方法主要對點云進行處理,最終求得每個物體的尺度與6DoF位姿。
語義原語提取
DualSDF[1] 中提出了一種針對同類物體的語義原語的表示方法。如下圖左所示,在同一類物體中,每個實例都被分成了一定數量的語義原語,每個原語的標簽對應著某類物體的特定部位。
為了從觀測點云中提取物體的語義原語,作者利用了一個點云分割網絡,將觀測點云分割成了帶有標簽的語義原語。
生成式的形狀估計
3D的生成模型(如DeepSDF)大多是在歸一化的坐標系下運行的。
然而在真實世界觀測中的物體與歸一化坐標系之間會存在一個相似位姿變換(旋轉、平移以及尺度)。
為了在位姿未知時來求解當前觀測對應的歸一化形狀,作者基于語義原語表示,提出了一種對相似變換不變的形狀描述子。
這種描述子如下圖所示,它描述了不同原語構成的向量之間的夾角:
作者通過這個描述子來衡量當前觀測與估計形狀之間的誤差,并通過梯度下降來使得估計形狀與觀測之間更加一致,過程如下圖所示。
作者另外展示了更多的形狀優化示例。
位姿估計
最后,通過觀測點云與求解形狀之間的語義原語對應關系,作者使用 Umeyama 算法求解了觀測形狀的位姿。
實驗結果
作者在 NOCS 提供的 REAL275(真實數據集) 和 CAMERA25(合成數據集) 數據集上進行了對比實驗,與其他方法在位姿估計精度上進行了對比,所提出的方法在多項指標上遠超其他方法。
同時,作者也對比了需要在 NOCS 提供的訓練集上訓練的參數量,作者需要最少的2.3M的參數量便達到了最先進水平。