一次推理,實現六大3D點云分割任務!華科發布大一統算法UniSeg3D,性能新SOTA
三維場景理解在虛擬現實和具身智能等技術中具有廣泛應用,吸引了研究者們的極大關注。
3D點云分割任務是三維場景理解中的重要組成部分,涵蓋了實例分割、語義分割和全景分割,以及交互式分割、參考分割和開放詞匯分割等子任務。
盡管針對相關任務的研究已經取得引人注目的進展,但現有研究往往聚焦于單一任務領域,從而導致三維場景理解局限于單一任務視角,忽視了不同任務之間的內在關聯性。
這種局限性為實現全面的三維場景理解帶來了顯著的挑戰。
為了解決上述問題,華中科技大學的研究人員提出了一種統一的三維場景理解算法UniSeg3D,通過一次推理完成六項3D點云分割任務,并通過構建任務間的顯式關聯來促進信息共享,從而增強性能表現。
論文地址:https://arxiv.org/abs/2407.03263
項目地址:https://dk-liang.github.io/UniSeg3D/
代碼地址:https://github.com/dk-liang/UniSeg3D
實驗結果表明,UniSeg3D在多個3D點云分割數據集上均取得了SOTA結果。
圖1:3D點云分割領域的單一任務方法與統一多任務方法
其主要包含如下的優勢:
1. 多任務統一:當前的3D點云分割方法通常為單一任務設計,不同于現有的研究工作,UniSeg3D通過一次推理能夠支持六種3D點云分割任務;
2. 性能優異:通過建立任務間的顯式關聯,UniSeg3D在全景分割、語義分割、實例分割、交互式分割、參考分割和開放詞匯語義分割六個任務中均展現出SOTA性能;
3. 可擴展性:采用query統一表征多種點云分割任務的信息與特征,結構簡潔有效。且通過輸入新增任務的query表征,可將UniSeg3D拓展至更多任務,展現了框架的可擴展性和靈活性。
動機
三維場景理解已成為機器人技術、自主導航和混合現實等各類現實應用的基礎。近年來,構建高效、精確的三維場景理解算法成為熱門研究課題,但現有方法通常專注于單一子任務,并為特定任務場景進行定制化模型設計。
然而,由于單一任務算法只能實現單一任務預測,在應用于多任務場景時,需要運行多種單一任務方法以實現多任務預測,帶來了較高的算力需求。且單一任務方法缺乏其他子任務算法的場景理解知識,阻礙了全面的三維場景理解。為了解決這一問題,一些研究者探索構建統一三維場景理解算法,并取得了一定的成果。
但當前方法不具備對用戶提示信息的理解能力,不支持交互式分割、參考分割、開放詞匯分割任務,限制其人機交互潛力;且用戶提示信息包含三維場景先驗信息,可有效提高三維場景理解算法的可靠性,缺乏對用戶提示信息的理解能力將限制算法的有效性。
針對上述問題,文章提出了一種統一三維場景理解算法UniSeg3D,用于提高多任務應用場景中的場景理解效率。
方法
UniSeg3D主要由三個模塊組成:點云Backbone、Prompt編碼器和掩膜解碼器。其中,點云Backbone提取輸入三維場景的點云特征;
Prompt編碼器包含文本提示編碼器與視覺提示編碼器,文本提示編碼器提取文本特征,而視覺交互分割中的Prompt特征通過采樣點云特征獲取,將提取后的特征信息送入掩膜解碼器中獲取不同任務的分割結果。
模型整體結構如下圖所示:
圖2:UniSeg3D整體框架圖
算法采用Query統一表征三維場景信息、視覺提示信息和文本提示信息。
編碼自不同信息的Query攜帶差異性的場景知識,將其不加區分地送入掩膜解碼器會削弱掩膜解碼器對差異性場景信息的感知能力,因此UniSeg3D根據信息來源不同為Query疊加不同的Embedding,從而促進掩膜解碼器對三維場景信息、視覺提示信息和文本提示信息的信息提取性能。
掩膜生成過程對六個任務采用統一的掩膜解碼器以及輸出Head,未對特定任務進行定制化的模塊設計,整體流程簡潔有效。
在之前的研究工作中,忽略了各個任務間的關聯,導致每個任務只關注其任務特定的知識,缺乏對其他任務信息的感知能力,限制了全面而深入的三維場景理解。
為克服以上缺陷,本研究采用對比學習和知識蒸餾建立了不同任務間的顯式聯系,促進深層次的三維場景理解。
圖3:任務間知識蒸餾方向以及顯式關聯關系
對比學習:對于參考分割任務,當多個形狀相同的物體相鄰排列時,容易出現歧義問題,如上圖(a)所示。因此引入基于ranking的對比學習方式,即利用交互式分割的特征與參考分割任務的特征進行對比學習從而建立顯式關聯,如上圖(b)所示。
知識蒸餾:鑒于視覺交互式分割所展現出的優異性能,如上圖(c)所示,利用交互式分割任務的預測mask和分類logits分別對全景分割任務的預測mask和參考分割任務輸出的類別logits進行監督約束,從而實現性能優化。
實驗結果
表1:多任務統一的挑戰性
研究人員首先討論在單一模型中統一多任務所面臨的挑戰。全景分割、語義分割、實例分割、開放詞匯分割、參考分割、交互式分割分別由Pan.、Sem.、Inst.、OV、Ref.、Inter.表示。
如表1所示,依次將交互式分割、參考分割和開放詞匯分割簡單地加入到框架中構建統一模型基線時,會觀察到算法在全景分割、實例分割任務上呈現性能下降。這表明平衡多任務性能具有顯著挑戰性。
盡管如此,研究人員認為在單一模型中實現多任務具有重要研究價值,因為這能夠減少計算資源消耗,有利于現實應用。
因此,UniSeg3D提出通過建立任務間顯示關聯來實現多任務聯合優化,緩解多任務統一帶來的性能下降,后續實驗表明這是一個有價值的探索方向。
研究人員在ScanNet20、ScanRefer和ScanNet200數據集上進行評估測試,在全景分割、語義分割、實例分割、開放詞匯分割、交互式分割和參考分割任務中,UniSeg3D均取得SOTA表現,這表明UniSeg3D在統一3D點云分割任務上的有效性:
表2:3D點云分割任務上性能對比
下圖展示了UniSeg3D在六種3D點云分割任務上的可視化結果。
總結
UniSeg3D作為首個在三維場景理解中集成六大分割任務的模型,為三維場景理解提供了一個靈活而高效的解決方案。以前的特定任務的方法難以提取跨任務信息,阻礙了全面的三維場景理解。
相比之下,UniSeg3D充分利用了支持多任務的結構特點,通過建立任務間的關聯來提高模型性能,從而在各種基準任務中取得優異表現。UniSeg3D為高效、精確的三維場景理解提供新的解決方案和可能思路。