成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="jzzr1"><code id="jzzr1"></code></button>

<pre id="jzzr1"><noscript id="jzzr1"></noscript></pre><s id="jzzr1"><em id="jzzr1"></em></s>

<rt id="jzzr1"><source id="jzzr1"></source></rt>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

擺脫編碼器依賴！Encoder-free 3D多模態(tài)大模型，性能超越13B現(xiàn)有SOTA | 上海AI Lab港中文等團(tuán)隊(duì)新作

作者：量子位 2025-02-27 13:00:00

人工智能新聞

來自上海AI Lab、西北工業(yè)大學(xué)、香港中文大學(xué)、清華大學(xué)等提出ENEL。

無編碼器多模態(tài)大模型被拓展到3D領(lǐng)域——

3D編碼器的功能被融入LLM本身，無編碼器3D LMM適應(yīng)不同的點(diǎn)云分辨率，擺脫預(yù)訓(xùn)練編碼器的依賴。

來自上海AI Lab、西北工業(yè)大學(xué)、香港中文大學(xué)、清華大學(xué)等提出ENEL，在預(yù)訓(xùn)練階段探索了如何使用自監(jiān)督損失將3D編碼器的功能整合到LLM本身，在指令調(diào)優(yōu)階段提出了一種層次幾何聚合策略，基于PointLLM首次全面研究了無編碼器架構(gòu)在3D多模態(tài)大模型中的潛力。

在Objaverse基準(zhǔn)測(cè)試中，ENEL表現(xiàn)突出，性能上超越目前SOTA ShapeLLM-13B。

基于編碼器架構(gòu)的3D LMM的局限性

針對(duì)3D大型多模態(tài)模型（LMMs），基于編碼器的架構(gòu)存在以下潛在問題：

（1）點(diǎn)云分辨率限制。3D編碼器通常在固定分辨率的點(diǎn)云數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練（如PointBERT中的1024個(gè)點(diǎn)）。然而在推理過程中，點(diǎn)云的分辨率可能發(fā)生變化（例如，8192或512個(gè)點(diǎn)），這導(dǎo)致訓(xùn)練與推理分辨率不一致，從而在提取3D嵌入時(shí)丟失空間信息，影響LLM的理解能力，如圖(a)所示。

（2）嵌入語義差異。3D編碼器通常采用自監(jiān)督學(xué)習(xí)方法（如掩碼自編碼器和對(duì)比學(xué)習(xí)）進(jìn)行預(yù)訓(xùn)練，但其訓(xùn)練目標(biāo)與LLMs的語義需求可能不完全一致，因此無法捕捉LLMs理解3D物體所需的關(guān)鍵語義信息，如圖(b)所示。

簡(jiǎn)單的MLP通常也難以實(shí)現(xiàn)充分的語義轉(zhuǎn)換。從上圖可見，ENEL的無編碼器架構(gòu)提供了更高的靈活性和更強(qiáng)的泛化性，更多關(guān)注到3D關(guān)鍵語義。

應(yīng)用自監(jiān)督損失將3D編碼器納入LLM本身

無編碼器結(jié)構(gòu)首先面臨的問題是如何提取高層次3D語義信息，避免模型難以捕捉3D點(diǎn)云的復(fù)雜空間結(jié)構(gòu)?？梢杂^察到從PointLLM中拿掉Encoder后，模型性能顯著下降。

PointLLM原生的token embedding模塊過于粗粒度，為了減少信息損失并提供精細(xì)的局部特征，團(tuán)隊(duì)采用了一個(gè)來自Point-PN的輕量化變體小型網(wǎng)絡(luò)。

具體而言，對(duì)于點(diǎn)云團(tuán)隊(duì)通過FPS進(jìn)行下采樣，采用knn進(jìn)行局部聚合，并使用可學(xué)習(xí)的線性層進(jìn)行特征編碼。結(jié)果表明團(tuán)隊(duì)設(shè)計(jì)的embedding模塊相比可以帶來明顯的性能提升。

為了讓LLM進(jìn)一步承擔(dān)encoder的編碼功能，在預(yù)訓(xùn)練階段嘗試了將LLM的前幾層設(shè)為可學(xué)習(xí)來挖掘點(diǎn)云特征中的高級(jí)語義信息，結(jié)果發(fā)現(xiàn)較小的學(xué)習(xí)率能夠帶來更好的結(jié)果。

通過以上兩種改變，無編碼器結(jié)構(gòu)已經(jīng)與基于編碼器的PointLLM在描述任務(wù)上持平。

當(dāng)前的3D編碼器大多依靠自監(jiān)督損失學(xué)習(xí)提取并編碼高層次3D語義信息, 主要分為掩蔽建模損失(a)、重建損失(b)、對(duì)比損失(c) 和知識(shí)蒸餾損失(d)。

基于編碼器架構(gòu)的3D LMM在訓(xùn)練時(shí)依靠對(duì)文字部分應(yīng)用自回歸損失進(jìn)行學(xué)習(xí)，那是否能同時(shí)對(duì)點(diǎn)云部分應(yīng)用自監(jiān)督損失，將3D編碼器的能力整合進(jìn)LLM本身？

團(tuán)隊(duì)在預(yù)訓(xùn)練階段實(shí)現(xiàn)并評(píng)估了這些損失對(duì)無編碼器3D LMM的影響。

具體而言，掩蔽建模損失和重建損失分別對(duì)點(diǎn)云掩碼token的部分進(jìn)行恢復(fù)和對(duì)全體點(diǎn)云token進(jìn)行重建，而知識(shí)蒸餾損失采用uni3d-L在特征層面進(jìn)行蒸餾。

最后團(tuán)隊(duì)提出了一種混合語義損失，先對(duì)點(diǎn)云token進(jìn)行隨機(jī)掩碼，然后將mask token拼接在visible token的后面以符合自回歸邏輯，同時(shí)對(duì)visible token計(jì)算重建損失，這種混合方法不僅能夠有效地將高層次語義信息嵌入LLM中，還能確保在整個(gè)點(diǎn)云學(xué)習(xí)過程中，幾何信息的一致性得以保持。

從實(shí)驗(yàn)結(jié)果中可以觀察到，自監(jiān)督學(xué)習(xí)損失在無編碼器3D LMM中通常具有積極影響，通過精心設(shè)計(jì)的任務(wù)促使LLM在學(xué)習(xí)過程中捕捉潛在的幾何關(guān)系以及深層次的語義信息。

其中，掩蔽建模損失展現(xiàn)出最為顯著的性能提升。

相較之下，知識(shí)蒸餾損失的提升效果較為有限，表現(xiàn)遜色于前兩種損失類型。

層次幾何聚合策略感知3D局部細(xì)節(jié)

傳統(tǒng)的3D編碼器往往通過將顯式的歸納偏置嵌入其架構(gòu)中，逐步捕捉多層次的3D幾何特征。例如，像Point-M2AE這樣的模型采用了局部到全局的層次結(jié)構(gòu)，這一結(jié)構(gòu)在2D圖像處理中常見于卷積層。相比之下，無編碼器架構(gòu)的LLM沒有明確的局部建模模塊，主要依賴自注意力機(jī)制來建模全局交互。

因此，如何將歸納偏置有效地整合到LLM中，以增強(qiáng)其對(duì)3D幾何結(jié)構(gòu)的感知能力，成為一個(gè)重要問題。

基于提出的混合語義損失，在指令調(diào)優(yōu)階段，團(tuán)隊(duì)探索了如何促使LLM主動(dòng)感知3D局部細(xì)節(jié)，同時(shí)補(bǔ)充其已學(xué)習(xí)的全局語義信息。為此，團(tuán)隊(duì)設(shè)計(jì)了層次幾何聚合策略。

具體來說，從LLM的第二層開始，通過最遠(yuǎn)點(diǎn)采樣將輸入點(diǎn)云token下采樣，將令牌數(shù)量減少至M/2并選取局部中心。接著，利用k-NN算法獲取鄰近點(diǎn)，并通過門控自注意力機(jī)制捕捉局部幾何信息。

最終，通過池化操作融合鄰近點(diǎn)特征，得到M/2長度的特征表示，并重復(fù)l-1次，完成幾何聚合。通過多層LLM層后，再通過l次幾何傳播將聚合后的特征從局部中心傳播至鄰近點(diǎn)，最終恢復(fù)為長度為M的點(diǎn)云特征，增強(qiáng)模型對(duì)局部和全局幾何結(jié)構(gòu)的感知。

實(shí)驗(yàn)結(jié)果：定性定量分析

定性實(shí)驗(yàn)中，團(tuán)隊(duì)可視化了PointLLM和ENEL最后一層中，平均文本token與點(diǎn)云token之間的注意力得分。

團(tuán)隊(duì)選擇了三種物體類別：椅子、飛機(jī)和臺(tái)燈。

圖中紅色表示較高的注意力得分。

結(jié)果顯示，ENEL作為無編碼器架構(gòu)，能夠?qū)崿F(xiàn)兩種模態(tài)特征之間的高相關(guān)性，平均文本token聚焦于物體的關(guān)鍵幾何結(jié)構(gòu)。

在Objaverse基準(zhǔn)測(cè)試中，ENEL-7B在描述和分類任務(wù)上超越了同等規(guī)模甚至13B的模型。此外，在3D MM-Vet數(shù)據(jù)集的3D-VQA任務(wù)中，盡管訓(xùn)練數(shù)據(jù)缺乏空間和具身交互信息，ENEL仍取得了42.7%的GPT得分，領(lǐng)先PointLLM-7B 1.5%。

定性定量結(jié)果驗(yàn)證了混合語義損失和層次幾何聚合策略在無編碼器架構(gòu)中的有效性。

代碼鏈接：
https://github.com/Ivan-Tang-3D/ENEL.
論文鏈接：
https://arxiv.org/pdf/2502.09620v1

責(zé)任編輯：張燕妮來源：量子位

模型訓(xùn)練測(cè)試

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：久久综合狠狠综合久久综合88 | 男女污污网站 | 日韩成人免费视频 | 亚洲欧美一区二区在线观看 | 久久久蜜桃一区二区人 | 一级全黄视频 | 日本特黄特色aaa大片免费 | 久久一及片 | 久久国产精品视频 | av中文字幕网站 | 国产精品久久久久久久免费观看 | 在线欧美亚洲 | www日日日| 亚洲成人一级 | 亚洲高清在线观看 | 国产精品色 | 欧美一级欧美三级在线观看 | 91精品国产高清久久久久久久久 | 国产精品中文在线 | 国产精品视频导航 | 最新国产精品视频 | 91精品中文字幕一区二区三区 | 色网在线看 | 99re在线视频 | 美女视频网站久久 | 欧美日韩午夜精品 | 又爽又黄axxx片免费观看 | 国产一区二区毛片 | 国产精品永久久久久久久www | 日韩高清一区 | 日韩精品成人免费观看视频 | 国产欧美久久一区二区三区 | 欧美日韩国产精品一区 | 久久国产精品久久久久 | 国产一区二区视频在线 | 精品日本中文字幕 | 国产一区二区成人 | 欧美成年黄网站色视频 | 久久高清国产视频 | 日韩一区二区三区在线视频 | 久久精品久久久 |

<bdo id="4iyqy"><optgroup id="4iyqy"></optgroup></bdo>

<menu id="4iyqy"><em id="4iyqy"></em></menu>

<dfn id="4iyqy"></dfn>