無需標(biāo)注數(shù)據(jù),「3D理解」進(jìn)入多模態(tài)預(yù)訓(xùn)練時(shí)代!ULIP系列全面開源,刷新SOTA
通過對(duì)齊三維形狀、二維圖片以及相應(yīng)的語(yǔ)言描述,多模態(tài)預(yù)訓(xùn)練方法也帶動(dòng)了3D表征學(xué)習(xí)的發(fā)展。
不過現(xiàn)有的多模態(tài)預(yù)訓(xùn)練框架收集數(shù)據(jù)的方法缺乏可擴(kuò)展性,極大限制了多模態(tài)學(xué)習(xí)的潛力,其中最主要的瓶頸在于語(yǔ)言模態(tài)的可擴(kuò)展性和全面性。
最近,Salesforce AI聯(lián)手斯坦福大學(xué)和得克薩斯大學(xué)奧斯汀分校,發(fā)布了ULIP(CVP R2023)和ULIP-2項(xiàng)目,這些項(xiàng)目正在引領(lǐng)3D理解的新篇章。
論文鏈接:https://arxiv.org/pdf/2212.05171.pdf
論文鏈接:https://arxiv.org/pdf/2305.08275.pdf
代碼鏈接:https://github.com/salesforce/ULIP
研究人員采用了獨(dú)特的方法,使用3D點(diǎn)云、圖像和文本進(jìn)行模型的預(yù)訓(xùn)練,將它們對(duì)齊到一個(gè)統(tǒng)一的特征空間。這種方法在3D分類任務(wù)中取得了最先進(jìn)的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。
并且ULIP-2將這種多模態(tài)預(yù)訓(xùn)練變得可以不需要任何人工標(biāo)注,從而可以大規(guī)模擴(kuò)展。
ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升,達(dá)到74.0%的最高準(zhǔn)確率;在現(xiàn)實(shí)世界的ScanObjectNN基準(zhǔn)上,僅用140萬(wàn)個(gè)參數(shù)就獲得了91.5%的總體準(zhǔn)確率,標(biāo)志著在無需人類3D標(biāo)注的可擴(kuò)展多模態(tài)3D表示學(xué)習(xí)方面的突破。
對(duì)齊(3D,圖像,文本)這三種特征的預(yù)訓(xùn)練框架示意圖
代碼以及發(fā)布的大規(guī)模tri-modal的數(shù)據(jù)集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經(jīng)開源。
背景
3D理解是人工智能領(lǐng)域的重要組成部分,它讓機(jī)器能像人類一樣在三維空間中感知和互動(dòng)。這種能力在自動(dòng)駕駛汽車、機(jī)器人、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域都有著重要的應(yīng)用。
然而,由于3D數(shù)據(jù)的處理和解釋復(fù)雜性,以及收集和注釋3D數(shù)據(jù)的成本,3D理解一直面臨著巨大的挑戰(zhàn)。
ULIP
Tri-modal 預(yù)訓(xùn)練框架以及其下游任務(wù)
ULIP(已經(jīng)被CVPR2023接收)采用了一種獨(dú)特的方法,使用3D點(diǎn)云、圖像和文本進(jìn)行模型的預(yù)訓(xùn)練,將它們對(duì)齊到一個(gè)統(tǒng)一的表示空間。
這種方法在3D分類任務(wù)中取得了最先進(jìn)的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。
ULIP的成功關(guān)鍵在于使用預(yù)先對(duì)齊的圖像和文本編碼器,如CLIP,它在大量的圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練。
這些編碼器將三種模態(tài)的特征對(duì)齊到一個(gè)統(tǒng)一的表示空間,使模型能夠更有效地理解和分類3D對(duì)象。
這種改進(jìn)的3D表示學(xué)習(xí)不僅增強(qiáng)了模型對(duì)3D數(shù)據(jù)的理解,而且還使得跨模態(tài)應(yīng)用如zero-shot 3D分類和圖像到3D檢索成為可能,因?yàn)?D編碼器獲得了多模態(tài)上下文。
ULIP的預(yù)訓(xùn)練損失函數(shù)如下:
在ULIP的默認(rèn)設(shè)置中,α被設(shè)置為0, β和θ被設(shè)置為1,每?jī)蓚€(gè)模態(tài)之間的對(duì)比學(xué)習(xí)損失函數(shù)的定義如下,這里M1和M2指三個(gè)模態(tài)中的任意兩個(gè)模態(tài):
ULIP還做了由圖像到3D的retrieval的實(shí)驗(yàn),效果如下:
實(shí)驗(yàn)結(jié)果可以看出ULIP預(yù)訓(xùn)練的模型已經(jīng)能夠?qū)W習(xí)到圖像和三維點(diǎn)云間有意義的多模態(tài)特征。
令人驚訝的是,相較于其他的檢索到的三維模型,第一名檢索到的三維模型與查詢圖像的外觀最為接近。
例如,當(dāng)我們使用來自不同飛機(jī)類型(戰(zhàn)斗機(jī)和客機(jī))的圖片進(jìn)行檢索(第二行和第三行),檢索到的最接近的3D點(diǎn)云仍然保留了查詢圖像的微妙差異。
ULIP-2
這里是一個(gè)3D物體生成多角度文字描述的示例。首先,我們從一組視角將3D物體渲染成2D圖像,然后使用大型多模態(tài)模型為所有渲染出的圖像生成描述
ULIP-2在ULIP的基礎(chǔ)上,利用大型多模態(tài)模型為3D物體生成全方面對(duì)應(yīng)的語(yǔ)言描述,從而收集可擴(kuò)展的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù),無需任何人工標(biāo)注,使預(yù)訓(xùn)練過程和訓(xùn)練后的模型更加高效并且增強(qiáng)其適應(yīng)性。
ULIP-2的方法包括為每個(gè)3D物體生成多角度不同的語(yǔ)言描述,然后用這些描述來訓(xùn)練模型,使3D物體、2D圖像、和語(yǔ)言描述在特征空間對(duì)齊一致。
這個(gè)框架使得無需手動(dòng)注釋就可以創(chuàng)建大量的三模態(tài)數(shù)據(jù)集,從而充分發(fā)揮多模態(tài)預(yù)訓(xùn)練的潛力。
ULIP-2還發(fā)布了生成的大規(guī)模三模態(tài)數(shù)據(jù)集:「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。
兩個(gè)tri-modal的datasets的一些統(tǒng)計(jì)數(shù)據(jù)
實(shí)驗(yàn)結(jié)果
ULIP系列在多模態(tài)下游任務(wù)和3D表達(dá)的微調(diào)實(shí)驗(yàn)中均取得了驚人的效果,尤其ULIP-2中的預(yù)訓(xùn)練是完全不需要借助任何人工的標(biāo)注就可以實(shí)現(xiàn)的。
ULIP-2在ModelNet40的下游零樣本分類任務(wù)中取得了顯著的提升(74.0%的top-1準(zhǔn)確率);在真實(shí)世界的ScanObjectNN基準(zhǔn)測(cè)試中,它僅用1.4M參數(shù)就取得了91.5%的總體準(zhǔn)確率,這標(biāo)志著在無需人工3D標(biāo)注的情況下,實(shí)現(xiàn)了可擴(kuò)展的多模態(tài)3D表示學(xué)習(xí)的突破。
消融實(shí)驗(yàn)
兩篇論文均做了詳盡的消融實(shí)驗(yàn)。
在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的預(yù)訓(xùn)練框架有三個(gè)模態(tài)的參與,所以作者用實(shí)驗(yàn)探究了究竟是只對(duì)齊其中的兩個(gè)模態(tài)好還是對(duì)齊所有三個(gè)模態(tài)好,實(shí)驗(yàn)結(jié)果如下:
從實(shí)驗(yàn)結(jié)果中可以看到,在不同的3D backbone中,對(duì)齊三個(gè)模態(tài)一致的比只對(duì)齊兩個(gè)模態(tài)好,這也應(yīng)證了ULIP的預(yù)訓(xùn)練框架的合理性。
在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模態(tài)模型會(huì)對(duì)預(yù)訓(xùn)練的框架有什么影響,結(jié)果如下:
實(shí)驗(yàn)結(jié)果可以看出,ULIP-2框架預(yù)訓(xùn)練的效果可以隨著使用的大型多模態(tài)模型的升級(jí)而提升,具有一定的成長(zhǎng)性。
在ULIP-2中,作者還探索了在生成tri-modal的數(shù)據(jù)集是采用不同數(shù)量的視角會(huì)如何影響整體預(yù)訓(xùn)練的表現(xiàn),實(shí)驗(yàn)結(jié)果如下:
實(shí)驗(yàn)結(jié)果顯示,隨著使用的視角數(shù)量的增加,預(yù)訓(xùn)練的模型的zero-shot classification的效果也會(huì)隨之增加。
這也應(yīng)證了ULIP-2中的觀點(diǎn),更全方位多樣性的語(yǔ)言描述會(huì)對(duì)多模態(tài)預(yù)訓(xùn)練有正向的作用。
除此之外,ULIP-2還探究了取CLIP排序過的不同topk的語(yǔ)言描述會(huì)對(duì)多模態(tài)預(yù)訓(xùn)練有什么影響,實(shí)驗(yàn)結(jié)果如下:
實(shí)驗(yàn)結(jié)果表明:ULIP-2的框架對(duì)不同的topk有一定的魯棒性,論文中采用了top 5作為默認(rèn)設(shè)置。
結(jié)論
由Salesforce AI,斯坦福大學(xué),得克薩斯大學(xué)奧斯汀分校聯(lián)手發(fā)布的ULIP項(xiàng)目(CVPR2023)和ULIP-2正在改變3D理解領(lǐng)域。
ULIP將不同的模態(tài)對(duì)齊到一個(gè)統(tǒng)一的空間,增強(qiáng)了3D特征的學(xué)習(xí)并啟用了跨模態(tài)應(yīng)用。
ULIP-2進(jìn)一步發(fā)展,為3D對(duì)象生成整體語(yǔ)言描述,創(chuàng)建并開源了大量的三模態(tài)數(shù)據(jù)集,并且這個(gè)過程無需人工標(biāo)注。
這些項(xiàng)目在3D理解方面設(shè)定了新的基準(zhǔn),為機(jī)器真正理解我們?nèi)S世界的未來鋪平了道路。
團(tuán)隊(duì)
Salesforce AI:
Le Xue (薛樂), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于寧), Shu Zhang(張澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio savarese。
斯坦福大學(xué):
Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。
UT Austin:
Prof. Roberto Martín-Martín。