CVPR 24|ETH Zurich等團隊:重新定義小樣本3D分割任務,新基準開啟廣闊提升潛力!
該文章的第一作者安照崇,目前在哥本哈根大學攻讀博士學位,導師為Serge Belongie。他碩士畢業于蘇黎世聯邦理工學院(ETH Zurich),在碩士期間,他在導師Luc Van Gool的實驗室中參與了多個研究項目。他的主要研究方向包括場景理解、小樣本學習以及多模態學習。
3D場景理解讓人形機器人「看得見」周身場景,使汽車自動駕駛功能能夠實時感知行駛過程中可能出現的情形,從而做出更加智能化的行為和反應。而這一切需要大量3D場景的詳細標注,從而急劇提升時間成本和資源投入。
最近,ETH Zurich等團隊提出了一種Few-shot學習方法,大大改善了這一局限性,并重新審視了目前的FS-PCS任務,在3D場景感知領域引入全新的benchmark,為未來的模型設計與開發開創了新局面。
- 論文鏈接: https://arxiv.org/abs/2403.00592
- 代碼鏈接: https://github.com/ZhaochongAn/COSeg
3D Few-shot分割結果示例
技術背景
3D場景理解在自動駕駛、智能機器人等領域扮演著至關重要的角色,它使設備能夠感知并理解周圍的三維世界。盡管傳統的全監督學習模型在特定類別的識別上表現出色,但這些模型通常只限于識別這些預定義的類別。這就意味著,每當需要識別新的對象類別時,就必須收集大量的3D場景數據并進行詳細標注,這一過程不僅耗時耗力,還極大限制了全監督模型在真實世界中的應用廣度和靈活性。
然而,借助Few-shot學習方法,這一局面得到了顯著改善。Few-shot學習是一種需要極少標注樣本就能迅速適應新類別的技術。這意味著模型可以通過少量的示例迅速學習和適應新的環境,大大降低了數據收集和處理的成本。這種快速、靈活的學習方式,使得3D場景理解技術更加適應快速變化的現實世界,為各種應用場景如自動駕駛和高級機器人系統打開了新的可能性。因此,研究Few-shot 3D模型能有效推動很多重要任務在更廣闊世界的實際應用。
特別的,對于Few-shot 3D point cloud semantic segmentation(FS-PCS)任務,模型的輸入包括support point cloud以及關于新類別的標注(support mask)和query point cloud。模型需要通過利用support point cloud和support mask獲得關于新類別的知識并應用于分割query point cloud,預測出這些新類別的標簽。在模型訓練和測試時使用的目標類別無重合,以保證測試時使用的類均為新類,未被模型在訓練時見過。
任務的重新審視與改正
圖1. 兩個場景的可視化(前景類分別為door和board)
表1. 存在(w/FG)和不存在前景泄露(w/o FG)時過往模型的性能比較
該文章重新審視了當前FS-PCS任務。發現當前的任務setting具有兩個顯著的問題:
- 第一個問題是前景泄漏:3D任務通常將場景點云中的密集點均勻采樣后作為模型的輸入。然而FS-PCS采用的采樣方法并非均勻采樣,而是會對目標類別(前景區域)采樣更多的點,對非目標區域(背景區域)采樣更少的點,這樣得到的輸入點云會在前景有更密集的點分布,導致了前景泄露問題。如圖1所示,第四和第六列的輸入點云來自于當前的有偏采樣,在前景區域(door或board)展示出比背景更密集的點分布,而第三和第五列的輸入使用改正后的一致性采樣,展示出了均勻的點密度分布。該問題使得新類的信息被點云的密度分布所泄漏,從而允許模型簡單的利用輸入點云中的密度差異,預測更密集的區域為前景就可以實現良好的few-shot性能,而非依賴于學習從support到query的知識轉移能力。因此當前的評價benchmark無法反映過往模型的真實性能。如表1所示,將當前setting中的前景泄露改正后,過往模型展示出了大的性能下降,表明了過往模型極大的依賴于密度的差異來實現看似優越的few-shot性能。
- 第二個問題是稀疏點分布:當前的setting僅從場景中采樣2048個點作為模型在訓練和測試時的輸入,這樣稀疏的點分布嚴重限制了輸入場景的語義清晰度。如圖1所示,在第一行第五列中,人類肉眼都難以區分出區域中的語義類別door和周圍的類別wall。對第二行也同樣很困難來區分目標區域為board類或是其他的類別如window。這些稀疏的輸入點云有非常受限的語義信息,引入了顯著的歧義性,限制了模型有效挖掘場景中語義的能力。
因此,為了改正這些問題,作者提出了一個新的setting來標準化FS-PCS任務,采用均勻采樣并增加采樣點數10倍到20480點。如圖1中第三列所示,新setting下的輸入有一致性的點的分布和更清晰的語義信息,使得該任務更加貼近于真實的應用場景。
新的模型COSeg
在新改正的setting下,作者引入了一個新的模型叫做Correlation Optimization Segmentation(COSeg)。過往的方法都基于特征優化范式,側重于優化support或者query的特征,并將改進后的特征輸入到無參的預測模塊獲得預測結果,可看作隱式的建模support和query間的correlations。相反,沒有注重于優化特征,文中提出了correlation優化范式,直接將support和query間的correlations輸入到有參的模塊中,顯式的優化correlations,允許模型直接塑造query和support間的關系,增強了模型的泛化能力。
圖2. COSeg架構
在COSeg中,首先對每個query點計算與support prototypes間的Class-specific Multi-prototypical Correlation簡稱為CMC,表示每個點和所有類別prototypes之間的關系。隨后將CMC輸入到后續的Hyper Correlation Augmentation(HCA)模塊。
HCA模塊利用兩個潛在的關系來優化correlations。第一,query點都是互相關聯的,因此他們對于類別prototypes間的correlations也是互相關聯的,由此可得到點和點間的關系,相對應于HCA的前半部分對correlations在點維度做attention。第二,將一個query點分為前景或者背景類依賴于該點對于前景和背景prototypes之間的相對correlations,由此可得到前景和背景間的關系,相對應于HCA的后半部分對correlations在類別維度做attention。
此外,由于few-shot模型在base類別上做訓練,在novel類別上做測試。這些模型會容易被測試場景中存在的熟悉的base類別干擾,影響對于novel類別的分割。為了解決該問題,文中提出對于base類別學習無參的prototypes(稱為base prototypes)。當分割新類時,屬于base類的query點應該被預測為背景。因此,利用base prototypes,作者在HCA層內部引入Base Prototypes Calibration(BPC)模塊來調整點和背景類別間的correlations,從而緩解base類帶來的干擾。
實驗結果
表2. 新的FS-PCS benchmark
圖3. COSeg和過往最佳方法的可視化比較
文中的實驗首先在改正后的標準setting下評測了之前的方法,創立了標準的benchmark,并且證明了COSeg方法的優越性能,在各個few-shot任務中都實現了最佳的結果。可視化也清楚表明了COSeg實現了更好分割結果。此外,在文中作者也提供了廣泛的消融實驗證明了設計的有效性和correlation優化范式的優越性。
總結
該文章的研究在FS-PCS領域的貢獻如下。
首先,作者確定了當前FS-PCS setting中的兩個關鍵問題(前景泄露和稀疏點分布),這兩個問題降低了對過往方法的評價基準的準確性。為了解決過往setting中的問題,文中引入了一個全新的標準化的setting以及評價benchmark。
此外,在標準化FS-PCS setting下,作者提出一個新的correlation優化范式,顯著提高了模型在few-shot任務上的泛化性能。文中的模型COSeg融合了HCA來挖掘有效的點云關聯信息和BPC來進行背景預測的調整,在所有few-shot任務上實現了最佳的性能。
文中改正的標準化setting開放了更多在Few-shot 3D分割任務上提升的可能性,同時提出的新correlation優化范式也為未來的模型設計與開發提供了新的方向。這項工作作為FS-PCS領域的一個新基準,有望激勵更多研究者探索和拓展小樣本3D場景理解的邊界。
作為參考,以下幾點可以作為潛在的研究方向,以進一步推動該領域的發展:
- 在文中的新setting下,雖然COSeg實現了最佳性能,但仍然有很大的進步空間,可以改進模型以實現更優的few-shot泛化:如改進prototype的抽取方式 [1,2],改進correlation優化模塊 [3],對每個few-shot任務做針對性的訓練 [4]。
- 解決Base類別干擾問題也是影響Few-shot性能的關鍵因素,可以從訓練或模型設計角度進行優化 [5,6],更好的減少Base類別的干擾。
- 提高模型的訓練和推理效率 [7],特別是在部署到實際應用時,模型的效率也是一個關鍵考量。
總結來說,這一領域的前景十分廣闊,而且目前尚處于新興起步階段,對于廣大的研究者而言,無疑是一個充滿希望和機遇的研究領域。