成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新加坡國立大學 | 通過語言分割任何3D目標

人工智能 新聞
本文提出了一種新的框架SOLE,用于自由形式語言指令的開放詞匯三維實例分割。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

本文研究了具有自由形式語言指令的開放詞匯3D實例分割(OV-3DIS)。先前的作品只依賴于注釋的基本類別進行訓練,對看不見的長尾類別的泛化能力有限。最近的工作通過生成類無關掩碼或將廣義Mask從2D投影到3D來緩解對新類別的較差可泛化性,但忽略語義或幾何信息,導致次優性能。相反,直接從3D點云生成可推廣但與語義相關的Mask將產生更好的結果。在本文中,我們介紹了用LanguagE分割任何3D目標(SOLE),這是一種具有語義和幾何意識的視覺語言學習框架,通過直接從三維點云生成語義相關的掩碼,具有很強的可推廣性。具體來說,我們提出了一種多模態融合網絡,將多模態語義納入主干和解碼器中。此外,為了使3D分割模型與各種語言指令對齊并提高掩碼質量,我們引入了三種類型的多模態關聯作為監督。我們的SOLE在ScanNetv2、ScanNet200和Replica基準測試上大大優于以前的方法,盡管訓練中沒有類別標注,但結果甚至接近于完全監督的方法。此外,大量的定性結果證明了我們的SOLE對語言指令的通用性。

項目主頁:https://cvrp-sole.github.io/

總結來說,本文的主要貢獻如下:

  • 我們為OV-3DIS提出了一個可視化語言學習框架—SOLE。為SOLE設計了一個多模態融合網絡,該網絡可以利用多模態信息直接預測三維點云中的語義mask,從而產生高質量和可推廣segment。
  • 我們提出了三種類型的多模態關聯,以提高3D分割模型與語言之間的一致性。這些關聯提高了掩碼質量和對語言指令的響應能力。
  • SOLE在ScanNetv2、Scannet200和Replica基準測試上取得了最先進的結果,其結果甚至接近完全監督的同類產品。此外,大量的定性結果表明,SOLE可以回答各種語言問題和指令。

相關工作回顧

閉集三維實例分割。三維實例分割旨在檢測、分割和識別三維場景中的目標實例。先前的工作主要考慮閉集設置,其中訓練和測試類別相同。這些方法在特征提取和解碼過程中各不相同。隨著變換器模型的發展,掩模預測成為一種比傳統的盒檢測解碼方法更高效、更有效的方法。Mask3D對場景中固定數量的點進行采樣作為查詢,然后使用注意力機制直接預測最終的掩碼,從而獲得更好的結果。然而,無論解碼方法如何,封閉集方法都缺乏處理看不見的類別的能力,從而阻礙了它們在現實世界中的應用。

開放式詞匯2D分割。由于最近大規模視覺語言模型的成功,在開放詞匯或零樣本2D分割方面取得了顯著的成就。共同的關鍵思想是利用2D多模態基礎模型將圖像級嵌入轉移到像素級下游任務。LSeg、OpenSeg和OVSeg將像素級或掩碼級視覺特征與開放詞匯語義分割基礎模型中的文本特征對齊。其他作品如X-Decoder、FreeSeg和SEEM提出了更統一的開放式詞匯分割框架,包括實例、全景和referring分割。

開放詞匯三維場景理解。開放詞匯2D分割(OV-2DS)取得的顯著成功促使了開放詞匯3D分割的幾項努力。然而,由于缺乏三維多模態基礎模型,OV-2DS中的技術無法直接轉移到三維領域。因此,研究人員建議將2D圖像和3D點云對齊,從而將2D基礎模型提升到3D。對于開放式詞匯3D語義分割從2D基礎模型中構建任務不可知的逐點特征表示,然后使用這些特征來查詢3D場景中的開放式詞匯概念。這些工作純粹專注于將語義信息從2D轉移到3D,限制了應用程序級別的識別任務。在這方面,引入了開放詞匯3D實例分割(OV-3DIS)來檢測和分割3D場景中各種類別的實例。PLA及其變體將訓練類別劃分為基類和新類,并僅使用基類注釋來訓練模型。OpenMask3D和OpenIns3D從掩碼注釋中學習類不可知的3D掩碼,然后使用相應的2D圖像從基礎模型中獲得類標簽。最近,研究人員還研究了在沒有訓練的情況下將2D預測從2D實例分割模型直接提升到3D。以往的工作極大地促進了OV-3DIS的改進。然而,由于語義泛化能力差和掩碼預測質量低,結果仍遠不能令人滿意。考慮到先前工作的局限性,我們通過設計一個具有多模態網絡和各種多模態關聯的視覺語言學習框架,顯著改進了OV-3DIS。

方法詳解

Objective:具有自由形式語言指令的開放詞匯三維實例分割(OV-3DIS)的目標定義如下:給定一個三維點云,對應的二維圖像和實例級三維掩碼,我們的目標是訓練一個沒有GT注釋的三維實例分割網絡。在推理過程中,給定文本提示,經過訓練的3D實例分割網絡必須檢測并分割相應的實例。

掩碼預測基線。我們在基于Transformer的3D實例分割模型Mask3D上構建了我們的框架,該模型將實例分割任務視為掩碼預測范式。具體來說,帶有掩碼查詢的轉換器解碼器用于對實例進行分段。給定從場景中選擇的Nq個查詢,使用交叉注意力將信息從點云聚合到實例查詢。在幾個解碼器層之后,Nq個查詢變成具有相應語義預測的Nq個掩碼。在訓練過程中,采用匈牙利匹配來匹配和訓練具有GT和掩碼的模型。在推理階段,將具有正確語義分類結果的Nq掩碼作為最終輸出。我們的SOLE利用了基于轉換器的架構的掩碼預測范式,其中模型僅使用掩碼進行訓練,而沒有GT,以實現可推廣的OV-3DIS。

概述:SOLE的總體架構如圖2所示。為了使用自由形式的語言指令實現開放式詞匯實例分割,我們改進了具有多模態信息的基于轉換器的實例分割模型:主干中的逐點CLIP特征和解碼器中的文本信息。此外,為了在沒有GT類標簽的情況下獲得更好的泛化能力,我們在目標實例上構建了三種類型的多模態關聯:掩碼視覺關聯、掩碼字幕關聯和掩碼實體關聯來訓練SOLE。配備了多模態框架和關聯,我們的SOLE可以在各種語言提示下有效地分割實例。

圖片

Backbone Feature Ensemble

使用預先訓練的模型 初始化主干是提高下游任務性能的有效方法,尤其是在下游數據不豐富的情況下。對于3D開放集設置,由于3D數據有限,利用2D基礎模型至關重要。因此遵循基于相機位姿將2D圖像的預訓練視覺特征投影到3D點云。為了保持細粒度和可推廣的特性,我們利用OpenSeg作為2D主干。這些特征包含CLIP特征空間中的視覺信息,該空間與文本信息對齊。

由于圖像級的對比訓練,CLIP特征空間主要關注語義信息,因此單獨利用投影的特征無法在實例分割上實現最佳性能。為此,我們訓練3D實例分割主干,并將其特征與投影的2D CLIP特征相結合。

圖片

從3D主干提取不同分辨率的特征,并分別與2D CLIP特征合并。如圖2所示,CLIP特征采用了與3D主干相同的池化策略,使分辨率保持一致。最后,將具有多個分辨率的合并的逐點特征饋送到跨模態解碼器中。

Cross Modality Decoder

投影的2D CLIP特征提供了可概括的視覺信息,但語言信息沒有明確集成,限制了對語言指令的響應能力。為了避免這個問題,我們引入了跨模態解碼器(CMD),將文本信息納入我們框架的解碼過程。具體來說,每個CMD模塊包含三個注意力層。實例查詢首先從CLIP組合的主干特征中提取視覺信息。然后將CLIP文本特征投影到第二關注層中的關鍵和值,結合文本領域知識。在訓練過程中,CLIP文本特征是從每個目標掩碼的字幕特征中獲得的,而在推理過程中,它可以是查詢實例的描述或其他形式的語言指令,如視覺問題或功能屬性。最后,將自注意應用于實例查詢,以進一步改進表示。通過將CLIP的多模態知識與多級CMD作為解碼器相融合,SOLE可以以高質量的結果響應各種語言指令。

Vision-Language Learning

我們進行視覺語言學習,使我們的SOLE能夠實現可推廣的OV-3DIS。為了有效地響應各種語言指令,我們利用源于目標掩碼注釋的多模態信息來監督分割網絡。具體而言,提出了三種分級粒度的監督類型:1)掩碼視覺關聯、2)掩碼字幕關聯和3)掩碼實體關聯。

圖片

  • Mask-Visual Association (MVA):利用2D圖像和3D點云之間的對應關系,我們可以通過對Nm目標實例掩碼內的每點CLIP特征進行平均來獲得實例級CLIP視覺特征。實例級CLIP視覺特征可以用作監督,以間接地將3D分割模型與CLIP文本空間對準。此外,作為3D點云和語言之間的中間表示,mask-visual關聯也是以下兩種細粒度關聯的基礎。
  • Mask-Caption Association (MCA):盡管處于CLIP特征空間,面具視覺聯想并不是一種準確的語言監督。相反,用語言指令直接監督模型會產生更好的結果。由于CLIP的強大泛化能力,現有工作中廣泛研究了從CLIP空間生成文本。由于掩碼視覺關聯中的實例級CLIP視覺特征在CLIP視覺空間中,我們可以將它們饋送到CLIP空間字幕生成模型(DeCap)中,以獲得掩碼字幕。然后將掩碼字幕饋送到CLIP文本模型中以提取掩碼字幕關聯。該關聯表示實例掩碼的語言信息,在CMD中用于在訓練期間融合文本信息。
  • Mask-Entity Association (MEA):盡管掩碼-標題關聯可以為語義和幾何結構提供詳細的語言描述,但對于特定類別來說,它可能是不明確的。如圖3的示例所示。桌子的口罩說明是“房間里有一張帶椅子的木制桌子”。這樣的說明可能會導致椅子和桌子之間的模型混淆,或者將這兩個實例誤解為單個實例。因此,引入更細粒度的視覺語言關聯以更好地進行語義學習是很重要的。

由于目標通常是標題中的名詞,我們可以提取名詞的實體級描述,并將其與實例進行匹配。具體來說,如圖3所示,我們首先提取每個掩碼標題ci的所有名詞短語ei,并從CLIP文本編碼器T中獲得每個名詞短語的文本特征,如下所示:

圖片

實體可以以硬或軟的方式與掩模匹配。直觀地說,最相似的實體可以被視為mask標簽。然而,這種硬匹配有兩個主要問題。首先,生成的字幕和相似性結果可能不準確,導致錯誤的監督。其次,盡管實體是正確的,但硬匹配忽略了上下文中的幾何信息,從而削弱了對語言指令的響應能力。為此,我們提出了一種軟匹配方法,通過多模態注意來獲得掩碼-實體關聯。具體地,基于掩模特征和實體特征之間的注意力映射來獲得第i個掩模的聚合實體特征:

圖片

Training and Inference

訓練這三種類型的多模態關聯是學習可推廣的3D實例分割模型的有效監督。我們遵循掩碼預測范式來訓練分割模型,該模型通過匈牙利匹配將GT 實例與預測的掩碼匹配。具體而言,第i個預測掩碼與第j個GT實例之間的匹配成本計算為:

圖片

在匹配掩碼和GT之后,使用掩碼和語義損失的組合來訓練模型。具體來說,所有三種類型的關聯都用于在語義上監督模型。對于每個關聯,我們按照使用focal loss和dice loss的組合,這可以確保獨立生成每個類別的分割結果。第j個GT掩碼的語義多模態關聯損失為:

圖片

訓練損失匯總如下:

圖片

推論:在推理過程中,我們將CLIP的視覺特征與預測的掩碼特征相結合,以獲得更好的泛化能力。具體地,在獲得3D掩模之后,在掩模內匯集每點CLIP特征。然后將合并的CLIP特征和掩碼特征饋送到分類器中,以獲得各自的分類概率,并通過它們之間的軟幾何平均值得出最終概率:

圖片

實驗

基準:我們主要將SOLE與OV-3DIS的兩個現有工作流進行比較:類劃分方法和掩碼訓練方法。類劃分方法將訓練類別劃分為基本類別和新穎類別。所有遮罩標注和基本類別標簽都用于訓練模型。與這些方法相比,我們只在掩碼注釋上訓練我們的模型,并在拆分的小說類別上與它們進行比較。掩碼訓練方法使用掩碼注釋訓練類不可知的掩碼生成器,并使用2D基礎模型獲得語義預測。mask訓練方法的設置與我們的相似,我們直接在所有類別上與他們進行比較。

閉集3D實例分割方法比較:相關結果匯總在表1和表2。

圖片圖片

分層跨域開放集3DIS:相關結果匯總在表3和表4。

圖片

消融實驗見表5和表6:

圖片

可視化見下圖:

圖片

結論

本文提出了一種新的框架SOLE,用于自由形式語言指令的開放詞匯三維實例分割。SOLE包含一個多模態融合網絡,并由三種類型的多模態關聯進行監督,旨在使模型與各種自由形式的語言指令保持一致。我們的框架在三個基準上以很大的優勢優于以前的方法,同時與完全監督的框架實現了有競爭力的性能。此外,大量的定性結果證明了我們的SOLE對語言指令的通用性。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-04-24 16:25:47

3D開發

2023-02-20 09:58:35

模型3D

2023-12-22 09:29:07

模型3D

2023-06-07 14:16:11

AIGPT-4

2024-11-12 09:34:48

2025-02-19 14:10:00

AI3D生成

2025-03-24 13:32:43

2024-12-30 10:20:00

模型數據訓練

2022-07-06 14:43:21

決策樹算法

2023-07-12 10:04:20

模型訓練

2025-06-16 09:40:48

2024-12-11 15:00:00

2025-03-17 09:35:00

AI模型數據

2024-01-18 15:18:48

數據模型

2025-06-03 08:25:00

推理模型框架

2023-12-07 15:15:00

AI模型

2024-02-29 11:56:10

AI模型

2022-04-26 15:09:14

優化模型訓練

2025-03-19 10:26:10

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜激情在线视频 | 国产电影一区 | 久久精品国产一区二区三区不卡 | 国产精品成人一区二区三区 | 久久精品国产一区二区电影 | 9久久精品| 欧美日韩中文在线 | www.久草.com | 日本午夜免费福利视频 | 免费欧美| 91av在线免费播放 | 最新中文字幕久久 | 91欧美 | 日韩av手机在线观看 | 日本福利一区 | 亚洲一区久久久 | 波波电影院一区二区三区 | 日本不卡免费新一二三区 | 人人人人干 | 欧美日韩亚洲国产 | 国产高清视频在线观看播放 | 青青久久久 | 97精品超碰一区二区三区 | 成人午夜激情 | 爱高潮www亚洲精品 中文字幕免费视频 | 亚洲一区久久 | 国产一区二区三区在线看 | 亚洲一区在线播放 | 成人影音 | a级毛片国产| 免费观看一级特黄欧美大片 | 免费在线观看毛片 | 精品成人一区二区 | 欧美精品久久久久久久久久 | 岛国毛片 | 成人精品在线观看 | jizz中国日本| 中文字幕精品一区二区三区精品 | 亚洲在线中文字幕 | 涩涩视频在线观看免费 | 99久久婷婷国产综合精品 |