成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無需標(biāo)注數(shù)據(jù),「3D理解」進(jìn)入多模態(tài)預(yù)訓(xùn)練時(shí)代!ULIP系列全面開源,刷新SOTA

人工智能 新聞
機(jī)器開始理解3D世界了!

通過對(duì)齊三維形狀、二維圖片以及相應(yīng)的語(yǔ)言描述,多模態(tài)預(yù)訓(xùn)練方法也帶動(dòng)了3D表征學(xué)習(xí)的發(fā)展。

不過現(xiàn)有的多模態(tài)預(yù)訓(xùn)練框架收集數(shù)據(jù)的方法缺乏可擴(kuò)展性,極大限制了多模態(tài)學(xué)習(xí)的潛力,其中最主要的瓶頸在于語(yǔ)言模態(tài)的可擴(kuò)展性和全面性。

最近,Salesforce AI聯(lián)手斯坦福大學(xué)和得克薩斯大學(xué)奧斯汀分校,發(fā)布了ULIP(CVP R2023)和ULIP-2項(xiàng)目,這些項(xiàng)目正在引領(lǐng)3D理解的新篇章。

圖片

論文鏈接:https://arxiv.org/pdf/2212.05171.pdf

論文鏈接:https://arxiv.org/pdf/2305.08275.pdf

代碼鏈接:https://github.com/salesforce/ULIP

研究人員采用了獨(dú)特的方法,使用3D點(diǎn)云、圖像和文本進(jìn)行模型的預(yù)訓(xùn)練,將它們對(duì)齊到一個(gè)統(tǒng)一的特征空間。這種方法在3D分類任務(wù)中取得了最先進(jìn)的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。

并且ULIP-2將這種多模態(tài)預(yù)訓(xùn)練變得可以不需要任何人工標(biāo)注,從而可以大規(guī)模擴(kuò)展。

ULIP-2在ModelNet40的下游零樣本分類上取得了顯著的性能提升,達(dá)到74.0%的最高準(zhǔn)確率;在現(xiàn)實(shí)世界的ScanObjectNN基準(zhǔn)上,僅用140萬(wàn)個(gè)參數(shù)就獲得了91.5%的總體準(zhǔn)確率,標(biāo)志著在無需人類3D標(biāo)注的可擴(kuò)展多模態(tài)3D表示學(xué)習(xí)方面的突破。

圖片


對(duì)齊(3D,圖像,文本)這三種特征的預(yù)訓(xùn)練框架示意圖

代碼以及發(fā)布的大規(guī)模tri-modal的數(shù)據(jù)集(「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」)已經(jīng)開源。

背景

3D理解是人工智能領(lǐng)域的重要組成部分,它讓機(jī)器能像人類一樣在三維空間中感知和互動(dòng)。這種能力在自動(dòng)駕駛汽車、機(jī)器人、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域都有著重要的應(yīng)用。

然而,由于3D數(shù)據(jù)的處理和解釋復(fù)雜性,以及收集和注釋3D數(shù)據(jù)的成本,3D理解一直面臨著巨大的挑戰(zhàn)。

ULIP

圖片

Tri-modal 預(yù)訓(xùn)練框架以及其下游任務(wù)

ULIP(已經(jīng)被CVPR2023接收)采用了一種獨(dú)特的方法,使用3D點(diǎn)云、圖像和文本進(jìn)行模型的預(yù)訓(xùn)練,將它們對(duì)齊到一個(gè)統(tǒng)一的表示空間。

這種方法在3D分類任務(wù)中取得了最先進(jìn)的結(jié)果,并為跨領(lǐng)域任務(wù)(如圖像到3D檢索)開辟了新的可能性。

ULIP的成功關(guān)鍵在于使用預(yù)先對(duì)齊的圖像和文本編碼器,如CLIP,它在大量的圖像-文本對(duì)上進(jìn)行預(yù)訓(xùn)練。

這些編碼器將三種模態(tài)的特征對(duì)齊到一個(gè)統(tǒng)一的表示空間,使模型能夠更有效地理解和分類3D對(duì)象。

這種改進(jìn)的3D表示學(xué)習(xí)不僅增強(qiáng)了模型對(duì)3D數(shù)據(jù)的理解,而且還使得跨模態(tài)應(yīng)用如zero-shot 3D分類和圖像到3D檢索成為可能,因?yàn)?D編碼器獲得了多模態(tài)上下文。

ULIP的預(yù)訓(xùn)練損失函數(shù)如下:

圖片

在ULIP的默認(rèn)設(shè)置中,α被設(shè)置為0, β和θ被設(shè)置為1,每?jī)蓚€(gè)模態(tài)之間的對(duì)比學(xué)習(xí)損失函數(shù)的定義如下,這里M1和M2指三個(gè)模態(tài)中的任意兩個(gè)模態(tài):

圖片

ULIP還做了由圖像到3D的retrieval的實(shí)驗(yàn),效果如下:

圖片

實(shí)驗(yàn)結(jié)果可以看出ULIP預(yù)訓(xùn)練的模型已經(jīng)能夠?qū)W習(xí)到圖像和三維點(diǎn)云間有意義的多模態(tài)特征。

令人驚訝的是,相較于其他的檢索到的三維模型,第一名檢索到的三維模型與查詢圖像的外觀最為接近。

例如,當(dāng)我們使用來自不同飛機(jī)類型(戰(zhàn)斗機(jī)和客機(jī))的圖片進(jìn)行檢索(第二行和第三行),檢索到的最接近的3D點(diǎn)云仍然保留了查詢圖像的微妙差異。

ULIP-2

這里是一個(gè)3D物體生成多角度文字描述的示例。首先,我們從一組視角將3D物體渲染成2D圖像,然后使用大型多模態(tài)模型為所有渲染出的圖像生成描述

ULIP-2在ULIP的基礎(chǔ)上,利用大型多模態(tài)模型為3D物體生成全方面對(duì)應(yīng)的語(yǔ)言描述,從而收集可擴(kuò)展的多模態(tài)預(yù)訓(xùn)練數(shù)據(jù),無需任何人工標(biāo)注,使預(yù)訓(xùn)練過程和訓(xùn)練后的模型更加高效并且增強(qiáng)其適應(yīng)性。

ULIP-2的方法包括為每個(gè)3D物體生成多角度不同的語(yǔ)言描述,然后用這些描述來訓(xùn)練模型,使3D物體、2D圖像、和語(yǔ)言描述在特征空間對(duì)齊一致。

這個(gè)框架使得無需手動(dòng)注釋就可以創(chuàng)建大量的三模態(tài)數(shù)據(jù)集,從而充分發(fā)揮多模態(tài)預(yù)訓(xùn)練的潛力。

ULIP-2還發(fā)布了生成的大規(guī)模三模態(tài)數(shù)據(jù)集:「ULIP - Objaverse Triplets」和「ULIP - ShapeNet Triplets」。

圖片

兩個(gè)tri-modal的datasets的一些統(tǒng)計(jì)數(shù)據(jù)

實(shí)驗(yàn)結(jié)果

ULIP系列在多模態(tài)下游任務(wù)和3D表達(dá)的微調(diào)實(shí)驗(yàn)中均取得了驚人的效果,尤其ULIP-2中的預(yù)訓(xùn)練是完全不需要借助任何人工的標(biāo)注就可以實(shí)現(xiàn)的。

ULIP-2在ModelNet40的下游零樣本分類任務(wù)中取得了顯著的提升(74.0%的top-1準(zhǔn)確率);在真實(shí)世界的ScanObjectNN基準(zhǔn)測(cè)試中,它僅用1.4M參數(shù)就取得了91.5%的總體準(zhǔn)確率,這標(biāo)志著在無需人工3D標(biāo)注的情況下,實(shí)現(xiàn)了可擴(kuò)展的多模態(tài)3D表示學(xué)習(xí)的突破。

圖片

消融實(shí)驗(yàn)

兩篇論文均做了詳盡的消融實(shí)驗(yàn)。

在「ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding」中,由于ULIP的預(yù)訓(xùn)練框架有三個(gè)模態(tài)的參與,所以作者用實(shí)驗(yàn)探究了究竟是只對(duì)齊其中的兩個(gè)模態(tài)好還是對(duì)齊所有三個(gè)模態(tài)好,實(shí)驗(yàn)結(jié)果如下:

圖片

從實(shí)驗(yàn)結(jié)果中可以看到,在不同的3D backbone中,對(duì)齊三個(gè)模態(tài)一致的比只對(duì)齊兩個(gè)模態(tài)好,這也應(yīng)證了ULIP的預(yù)訓(xùn)練框架的合理性。

在「ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding」中,作者探究了不同的大型多模態(tài)模型會(huì)對(duì)預(yù)訓(xùn)練的框架有什么影響,結(jié)果如下:

圖片

實(shí)驗(yàn)結(jié)果可以看出,ULIP-2框架預(yù)訓(xùn)練的效果可以隨著使用的大型多模態(tài)模型的升級(jí)而提升,具有一定的成長(zhǎng)性。

在ULIP-2中,作者還探索了在生成tri-modal的數(shù)據(jù)集是采用不同數(shù)量的視角會(huì)如何影響整體預(yù)訓(xùn)練的表現(xiàn),實(shí)驗(yàn)結(jié)果如下:

圖片

實(shí)驗(yàn)結(jié)果顯示,隨著使用的視角數(shù)量的增加,預(yù)訓(xùn)練的模型的zero-shot classification的效果也會(huì)隨之增加。

這也應(yīng)證了ULIP-2中的觀點(diǎn),更全方位多樣性的語(yǔ)言描述會(huì)對(duì)多模態(tài)預(yù)訓(xùn)練有正向的作用。

除此之外,ULIP-2還探究了取CLIP排序過的不同topk的語(yǔ)言描述會(huì)對(duì)多模態(tài)預(yù)訓(xùn)練有什么影響,實(shí)驗(yàn)結(jié)果如下:

圖片

實(shí)驗(yàn)結(jié)果表明:ULIP-2的框架對(duì)不同的topk有一定的魯棒性,論文中采用了top 5作為默認(rèn)設(shè)置。

結(jié)論

由Salesforce AI,斯坦福大學(xué),得克薩斯大學(xué)奧斯汀分校聯(lián)手發(fā)布的ULIP項(xiàng)目(CVPR2023)和ULIP-2正在改變3D理解領(lǐng)域。

ULIP將不同的模態(tài)對(duì)齊到一個(gè)統(tǒng)一的空間,增強(qiáng)了3D特征的學(xué)習(xí)并啟用了跨模態(tài)應(yīng)用。

ULIP-2進(jìn)一步發(fā)展,為3D對(duì)象生成整體語(yǔ)言描述,創(chuàng)建并開源了大量的三模態(tài)數(shù)據(jù)集,并且這個(gè)過程無需人工標(biāo)注。

這些項(xiàng)目在3D理解方面設(shè)定了新的基準(zhǔn),為機(jī)器真正理解我們?nèi)S世界的未來鋪平了道路。

團(tuán)隊(duì)

Salesforce AI:

Le Xue (薛樂), Mingfei Gao (高明菲),Chen Xing(星辰),Ning Yu(于寧), Shu Zhang(張澍),Junnan Li(李俊男), Caiming Xiong(熊蔡明),Ran Xu(徐然),Juan carlos niebles, Silvio savarese。

斯坦福大學(xué):

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu(吳佳俊)。

UT Austin:

Prof. Roberto Martín-Martín。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-01-07 09:11:07

2024-08-21 10:04:14

2024-06-17 00:00:00

MiCo模態(tài)人腦

2025-05-08 09:31:50

2023-07-19 09:17:35

訓(xùn)練3D

2025-02-13 08:26:26

2024-01-15 10:38:24

3D框架

2024-10-15 13:07:38

2021-03-08 15:40:46

開源技術(shù) 軟件

2024-03-25 12:40:19

訓(xùn)練模型

2012-08-13 17:11:37

Silverlight

2011-05-07 09:45:36

晶體管3D22納米

2024-03-25 12:30:18

AI訓(xùn)練開源

2011-05-03 11:07:46

2D3D麗訊

2020-08-26 10:37:21

阿里3D

2025-04-16 02:55:00

2009-12-15 16:13:11

3D圖像

2024-04-02 09:17:50

AI數(shù)據(jù)開源

2025-03-10 08:25:00

機(jī)器人AI模型

2023-11-29 15:00:00

數(shù)據(jù)訓(xùn)練
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: av网站免费观看 | 成年人在线视频 | 北条麻妃av一区二区三区 | 国产一区中文字幕 | 精品国产一区二区三区日日嗨 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 美女天天操 | 精品一区二区三区在线观看 | 欧美日韩在线一区二区 | 91久色 | 久久青草av | 国产精品夜色一区二区三区 | 国产一级在线观看 | 日韩视频一区在线观看 | 色接久久 | 中文字幕在线三区 | 日韩毛片在线免费观看 | 狠狠av | 免费国产网站 | 国产综合视频 | 日本一区二区三区四区 | 亚洲成人中文字幕 | 亚洲第一网站 | 久操国产 | 激情五月婷婷综合 | 国产精品一区二区av | 欧美日韩久久久 | 欧美久久久久 | 精品国产一区二区三区久久狼黑人 | 91久久看片 | 亚洲精品视频在线观看免费 | 日韩欧美网 | 国产亚洲一区二区三区 | 亚洲手机视频在线 | 久久成人免费视频 | 国产精品国产a | 亚洲一区精品在线 | 丁香色婷婷 | 久久一起草| 色就是色欧美 | 国产精品99999999 |