成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無編碼器架構潛力或被低估,首個無編碼器3D多模態(tài)LLM大模型來了

人工智能 新聞
作者首次全面研究了無編碼器架構在 3D 大型多模態(tài)模型中應用的潛力,將 3D 編碼器的功能直接整合到 LLM 本身。

本文一作湯軼文本科畢業(yè)于上海科技大學,導師是李學龍教授,在上海人工智能實驗室實習。他的研究興趣是 3D 視覺,大模型高效遷移,多模態(tài)大模型和具身智能等。主要工作有 Any2Point, Point-PEFT, ViewRefer 等。

  • 論文標題:  Exploring the Potential of Encoder-free Architectures in 3D LMMs
  • 作者單位:上海人工智能實驗室,西北工業(yè)大學,香港中文大學,清華大學
  • 代碼鏈接:https://github.com/Ivan-Tang-3D/ENEL
  • 論文鏈接:https://arxiv.org/pdf/2502.09620v1

許多近期的研究致力于開發(fā)大型多模態(tài)模型(LMMs),使 LLMs 能夠解讀多模態(tài)信息,如 2D 圖像(LLaVA)和 3D 點云(Point-LLM, PointLLM, ShapeLLM)。主流的 LMM 通常是依賴于強大但計算量大的多模態(tài)編碼器(例如,2D 的 CLIP 和 3D 的 I2P-MAE)。

雖然這些預訓練編碼器提供了強大的多模態(tài)嵌入,富含預先存在的知識,但它們也帶來了挑戰(zhàn),包括無法適應不同的點云分辨率,以及編碼器提取的點云特征無法滿足大語言模型的語義需求。

因此,作者首次全面研究了無編碼器架構在 3D 大型多模態(tài)模型中應用的潛力,將 3D 編碼器的功能直接整合到 LLM 本身。最終,他們展示了首個無編碼器架構的 3D LMM—ENEL,其 7B 模型與當前最先進的 ShapeLLM-13B 相媲美,表明無編碼器架構的巨大潛力。

背景和動機

對于 3D LMMs,基于編碼器的架構有以下潛在缺點:

  1. 點云分辨率限制:3D 編碼器通常在固定分辨率的點云數據上進行預訓練,例如 PointLLM 的編碼器 Point-BERT 使用 1,024 個點。然而,在推理過程中,輸入點云的分辨率可能會有所不同(例如,8,192 個點或 512 個點)。訓練和推理分辨率之間的差異可能導致在提取 3D 嵌入時丟失空間信息,從而使 LLMs 理解變得困難。如(a)所示,PointLLM 在不同的點云分辨率輸入下性能差異過大,而我們提出的 ENEL 顯示出了一定的魯棒性。
  2. 嵌入語義差異:3D 編碼器通常采用自監(jiān)督方法(如掩碼學習和對比學習)進行預訓練,但 3D 編碼器和大語言模型的訓練分離導致訓練目標可能與 LLMs 的特定語義需求不一致,無法捕捉到 LLMs 理解 3D 物體所需的最相關語義。即使使用投影層將 3D 編碼器與 LLMs 連接,簡單的 MLP 也往往不足以進行完全的語義轉換。如圖(b)所示,ENEL 架構中 text token 更能關注到點云物體的關鍵部位,如椅腳和機翼。

具體方案

作者選擇 PointLLM 作為基準模型進行探索,并使用 GPT-4 評分標準在 Objaverse 數據集上評估不同策略的表現。在無編碼器結構的探索中他們提出以下兩個問題:

  1. 如何彌補 3D 編碼器最初提取的高層次 3D 語義?在 3D LMMs 中,完全跳過編碼器會導致難以捕捉 3D 點云的復雜空間結構。
  2. 如何將歸納偏置整合到 LLM 中,以便更好地感知 3D 幾何結構?傳統(tǒng)的 3D 編碼器通常將顯式的歸納偏置嵌入到其架構中,以逐步捕捉多層次的 3D 幾何。例如,像 Point-M2AE 這樣的模型使用局部到全局的層次結構,這一概念在 2D 圖像處理的卷積層中也很常見。

LLM 嵌入的語義編碼

因為缺乏 3D 編碼器導致點云語義信息的編碼不足,極大地阻礙了 LLM 理解點云的結構細節(jié)。現有的大多數 3D 編碼器使用自監(jiān)督損失將點云的高層語義嵌入到 Transformer 中,主要分為四種類型:掩蔽建模損失 (a)、重建損失 (b)、對比損失 (c) 和知識蒸餾損失 (d)。基于 token embedding 模塊和 LLM 可學習層,作者在預訓練階段實現并評估了這些損失對無編碼器 3D LMM 的影響,并提出混合語義損失。

  • 點云自監(jiān)督學習損失通常有助于無編碼器 3D LMM。自監(jiān)督學習損失通過特定的任務設計對復雜的點云進行變換,促使 LLM 學習潛在的幾何關系和高層次的語義信息。
  • 在這些自監(jiān)督學習損失中,掩蔽建模損失展示了最強的性能提升。掩蔽比率與訓練優(yōu)化難度直接相關,從 30% 增加到 60% 會導致性能下降。此外,顯式重建點云 patch 不如掩蔽建模有效,但有助于 LLM 學習點云中的復雜模式。相比前兩種損失,知識蒸餾損失的效果較差。最后,對比損失未能提取詳細的語義信息,表現最差。
  • 基于上述實驗結果,作者提出混合語義損失 (Hybrid Semantic Loss),他們對于掩蔽部分采用掩蔽建模,而對于可見部分,他們使用重建策略。這種方法不僅將高層次的語義嵌入 LLM 中,而且確保在整個點云學習過程中保持幾何一致性。

層次幾何聚合策略

在無編碼器架構中,LLM 本身并沒有明確的局部建模模塊。自注意力機制主要用于建模全局交互。因此,基于提出的混合語義損失,作者在指令調優(yōu)階段探索如何使 LLM 主動感知 3D 局部細節(jié),并補充學到的全局語義。為此,他們提出了層次幾何聚合策略。

  • 從 LLM 的第二層開始,輸入的點云 token 基于它們對應的坐標使用最遠點采樣進行下采樣,將 token 數量從 M 減少到??/2, 作為局部中心。然后,使用 k-NN 算法獲得鄰近點。針對鄰近點他們采用門控自注意力機制進行組內交互,捕捉局部幾何結構。最后,他們應用池化操作融合每個鄰居的特征,結果特征長度為 M/2。總共進行 l-1 次幾何聚合。
  • 為了確保 LLM 充分提取局部信息,作者選擇在聚合操作后經過多層 LLM 層進行進一步的語義建模,避免丟失細粒度的幾何細節(jié)。
  • 隨后,他們進行 l 次幾何傳播。按照 PointNet++ 的方法,他們將聚合后的特征從局部中心點傳播到它們周圍的 k 個鄰近點,經過 l 次后重新得到長度為 M 的點云特征。

定量分析

  • 在 Objaverse 基準測試中,ENEL-7B 在 3D 物體描述任務中取得了 50.92% 的 GPT-4 得分,創(chuàng)下了新的 SOTA 性能。在傳統(tǒng)指標中,SentenceBERT 和 SimCSE 分別達到了 48.61% 和 49.31% 的得分,表現與 ShapeLLM-13B 相當。對于 3D 物體分類任務,ENEL-7B 超越了先前基于編碼器的 3D LMMs,取得了 55% 的 GPT 得分。
  • 此外,在 3D MM-Vet 數據集的 3D-VQA 任務上,盡管訓練集中缺乏空間和具身交互相關的數據,ENEL 仍取得了 42.7% 的 GPT 得分,超過了 PointLLM-7B 1.5%。
  • 考慮到與 PointLLM 相同的訓練數據集,這些結果驗證了作者提出的 LLM 嵌入式語義編碼和層次幾何聚合策略在無編碼器架構中的有效性。

實現、訓練和推理細節(jié)

作者使用 7B Vicuna v1.1 的檢查點。在嵌入層中,點云首先通過一個線性層處理,將其維度從 6 擴展到 288。輸入點云初始包含 8192 個點,隨后經過三次最遠點采樣(FPS),分別將點云數量減少到 512、256 和 128。每次 FPS 操作后,使用 k 近鄰進行聚類,聚類大小為 81,并通過三角編碼提取幾何特征,隨后通過線性層逐步將維度增加到 576、1152 和 2304。最后,投影層將特征映射到 LLM 的 4096 維度。

在兩階段訓練過程中,每個階段使用的數據集和預處理方法與 PointLLM 一致。所有訓練均在 4 張 80G 的 A100 GPU 上以 BF16 精度進行,使用了 FlashAttention、AdamW 優(yōu)化器以及余弦學習率調度策略。在預訓練階段,模型訓練了 3 個 epoch,批量大小為 128,學習率為 4e-4。在指令微調階段,訓練進行了 3 個 epoch,批量大小為 32,學習率為 2e-5。

用于分類和描述任務評估的 GPT-4 模型為「gpt-4-0613」版本,與 PointLLM 一致;而用于問答性能評估的 GPT-4 模型為「gpt-4-0125」版本,與 ShapeLLM 對齊。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-04-10 06:30:00

2025-04-28 02:03:00

多模態(tài)大模型EVEv2

2025-04-07 03:30:00

2025-04-10 11:52:55

2025-04-08 04:20:00

2021-11-02 20:44:47

數字化

2021-03-29 11:37:50

人工智能深度學習

2021-02-20 20:57:16

深度學習編程人工智能

2021-03-22 10:52:13

人工智能深度學習自編碼器

2025-04-08 03:00:00

2012-04-10 16:55:22

PowerSmart編碼器

2025-04-07 06:30:00

2012-04-01 16:40:45

編碼器

2023-10-07 09:29:09

2024-07-16 13:18:36

2017-07-03 07:14:49

深度學習無監(jiān)督學習稀疏編碼

2024-12-18 14:50:00

AI訓練數據

2023-04-25 21:36:07

火山引擎

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲在线免费观看 | 超碰电影 | 国产精品精品视频一区二区三区 | 天天欧美 | 黄色在线免费观看视频 | 91久久久久久久久久久久久 | 日韩美香港a一级毛片免费 国产综合av | 亚洲乱码一区二区三区在线观看 | 盗摄精品av一区二区三区 | h视频免费在线观看 | 亚洲欧美日韩在线一区二区 | 国产日韩一区二区三区 | 欧美国产视频 | 中文字幕精品一区二区三区精品 | 亚洲成av人片在线观看无码 | 国产男女视频 | 亚洲成色777777在线观看影院 | 日韩午夜场| 亚洲国产网站 | 91看片网站| 日本在线一区二区三区 | 97caoporn国产免费人人 | 视频一区二区在线观看 | 一区二区三区在线电影 | 久久精品视频网站 | 精品欧美黑人一区二区三区 | 狠狠影院 | 久久久女女女女999久久 | 久久免费福利 | 国产精品成人在线播放 | 免费国产成人av | av网站在线播放 | 国产盗摄视频 | 亚洲国产精品99久久久久久久久 | 在线观看www| 在线播放中文字幕 | 婷婷丁香在线视频 | 午夜视频免费网站 | 国产成人99久久亚洲综合精品 | 久艹av| 91免费看片 |