多模態LLM統一嵌入學習;基于心理意象模擬的感知視角推理;動態視覺token壓縮框架
Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs
2025-04-24|USYD, Deep Glint, Alibaba Group, ICL(Imperial)|??28
??http://arxiv.org/abs/2504.17432v1???
???https://huggingface.co/papers/2504.17432???
???https://garygutc.github.io/UniME??
研究背景與意義
- 背景概述:當前多模態表示學習領域,CLIP框架因其跨模態對比學習能力被廣泛采用,尤其在圖文檢索和聚類任務中表現突出。然而,CLIP存在文本長度限制、圖文編碼解耦以及組合性不足等瓶頸,限制了其在復雜多模態任務中的表現。
- 挑戰點:現有模型難以有效捕捉細粒度語義和復雜指令,且在區分難負樣本時表現不佳,影響了多模態表示的判別能力和泛化性能。
- 研究目標:本文提出UniME框架,旨在突破模態壁壘,利用多模態大語言模型(MLLMs)學習通用且具備強判別能力的多模態嵌入,提升跨任務的表現力和組合理解能力。
研究方法與創新
技術框架:UniME采用兩階段訓練策略:
- 文本判別知識蒸餾:從強大的LLM教師模型遷移判別知識,增強MLLM語言組件的嵌入能力。該階段通過文本輸入訓練,利用KL散度對齊學生模型與教師模型的嵌入分布,有效克服因自回歸結構導致的判別力不足。
- 難負樣本增強指令調優:通過過濾偽負樣本和采樣多樣化的難負樣本,強化模型對細粒度差異的敏感性,提升跨模態對齊和指令執行能力。該階段結合多模態輸入和任務特定指令,進一步優化嵌入判別力。
創新點:
- 引入基于教師模型的判別知識蒸餾,顯著提升語言組件嵌入的判別力。
- 設計偽負樣本過濾機制和多難負樣本采樣策略,有效解決難負樣本辨識難題,增強模型泛化能力。
- 結合任務指令調優,提升復雜檢索和視覺問答等任務的執行效果。
理論基礎:結合信息論中的KL散度優化和對比學習中的InfoNCE損失,理論上保證了模型在判別性和對齊能力上的提升。
實驗設計與結果分析
實驗設計:
- 訓練數據涵蓋273k自然語言推理文本對和MMEB基準中的20個多模態任務數據,保證多樣性和任務覆蓋。
- 評估指標主要為Precision@1和Recall@1,覆蓋分類、視覺問答、檢索和視覺定位等多種任務。
- 對比基線包括CLIP、EVA-CLIP、E5-V、VLM2Vec等多模態模型,涵蓋不同規模和結構。
主要結果:
- UniME在MMEB基準上平均提升4.1%-4.2%的性能,尤其在視覺問答和檢索任務中表現突出。
- 在短文本和長文本圖文檢索任務中,UniME通過兩階段訓練分別帶來顯著提升,最終性能超過VLM2Vec和EVA-CLIP。
- 組合性檢索任務中,UniME展示了更強的語義理解和判別能力,部分指標提升幅度達15.9%以上。
- 統計顯著性:訓練過程中,硬負樣本帶來的梯度顯著高于易負樣本,訓練損失穩定且收斂良好,表明模型有效學習了更具挑戰性的判別信息。
- 多場景表現:UniME在跨模態多任務、不同數據分布(內外部分布)下均表現出穩健性和優越性,驗證了其通用嵌入的有效性。
結論與展望
研究貢獻總結:
- 提出了一種創新的兩階段訓練框架,成功提升了MLLM的多模態判別嵌入能力。
- 通過知識蒸餾與難負樣本增強,顯著改善了模型在細粒度語義理解和復雜指令執行上的表現。
- 實驗驗證了UniME在多任務、多數據集上的優越性能,推動了多模態大語言模型在通用嵌入學習領域的應用。
局限性分析:
- 訓練過程對計算資源需求較高,尤其是在大規模硬負樣本采樣階段。
- 目前模型在極長文本處理和極端復雜組合任務上仍有提升空間。
未來展望:
- 探索更高效的硬負樣本采樣與過濾機制,降低訓練成本。
- 結合更先進的視覺編碼器和更大規模預訓練數據,進一步提升模型泛化能力。
- 拓展模型在跨模態生成、交互式多模態理解等更廣泛應用場景中的表現。
Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation
2025-04-24|KAIST, Stanford U, NVIDIA|??18
??http://arxiv.org/abs/2504.17207v1???
???https://huggingface.co/papers/2504.17207???
???https://apc-vlm.github.io/??
研究背景與意義
- 問題定義與挑戰視覺語言模型(VLMs)在空間推理方面取得了顯著進展,但仍存在嚴重的視角偏見,主要局限于攝像頭視角的自我中心(egocentric)空間理解,難以實現從任意參考視角(allocentric)進行空間推理。該缺陷限制了VLMs在導航、環境交互和協作等高階智能任務中的應用能力。
- 現狀概述現有研究多聚焦提升VLMs的自我中心空間推理能力,盡管通過深度學習和視覺適配器等技術增強了模型對空間關系的感知,但對視角轉換的支持仍極其有限。即使有指令調優嘗試,模型仍傾向于回歸攝像頭視角,缺乏真正的多視角空間理解能力。
- 研究意義該論文提出通過模擬人類“心理意象”(mental imagery)機制,構建抽象的場景表示,使VLMs能夠從任意視角進行空間推理,突破了傳統VLMs的視角限制。這不僅提升了模型的空間認知能力,也為實現更接近人類的視覺理解和智能交互奠定了基礎。
研究方法與創新
核心方法框架——APC(Abstract Perspective Change)APC框架由三個關鍵階段構成:
- 數值文本提示,直接提供3D坐標和方向信息;
- 抽象視覺提示,將對象以彩色立方體形式渲染,形成簡化視覺場景,輔以對應的文本映射,強化模型的空間感知。
- 場景抽象構建:利用現成的視覺基礎模型(如目標檢測、圖像分割、方向估計)從輸入圖像中提取對象,構建包含對象3D位置和朝向的粗略三維抽象表示。
- 視角轉換:選定參考視角(參考觀察者),將抽象場景從攝像頭坐標系轉換到該視角的自我中心坐標系,實現視角的“重新定位”。
- 視角提示生成:將轉換后的抽象場景以兩種形式輸入VLM:
創新點
- 模擬人類心理意象,通過構建抽象的三維場景表示,使VLMs擺脫對原始攝像頭視角的依賴,實現多視角空間推理。
- 視角轉換機制,將復雜的allocentric問題轉化為VLM擅長處理的egocentric問題,巧妙利用現有模型的能力。
- 多模態提示設計,數值與視覺提示的結合,既提供精確的空間信息,又保留視覺直觀性,提升推理準確性和魯棒性。
- 通用性強,框架適用于多種空間推理任務和數據集,無需專門針對特定任務或視角進行微調。
理論基礎
研究借鑒認知科學中關于心理意象的理論,強調人類通過抽象視覺和空間表征實現視角切換的能力,為計算機視覺提供了新的啟發。
實驗設計與結果分析
實驗設計
- 采用兩個主流空間推理基準:
- 對比對象包括多款開源和專有VLM(如Qwen2.5-VL、LLaVA、GPT-4o等)、專門針對空間推理設計的模型(SpatialVLM、SpatialRGPT、SpatialPIN)以及基于密集重建的視角合成方法(SpatialPIN*、ViewCrafter)。
- 評估指標為空間推理準確率,特別關注模型在不同視角偏差(角度θ)下的表現,以測試視角感知能力的魯棒性。
- **COMFORT++**(合成場景,評估左/右、遠近、可見性和朝向等多種空間關系);
- 3DSRBench(真實圖像,涉及多視角空間推理)。
結果分析
- APC顯著超越所有基線,視覺提示版本(APC-Vis)在COMFORT++左/右任務中達到近90%準確率,較最佳基線提升約40個百分點。
- 在更復雜的可見性和朝向任務中,APC依然保持60%以上準確率,表現優于多數基線。
- 數值提示版本雖稍遜于視覺提示,但也大幅領先傳統方法。
- 在3DSRBench真實圖像任務中,APC同樣展示出強勁性能,表明框架對現實場景具備良好適應性。
- 視角偏差實驗顯示,傳統模型準確率隨視角偏移顯著下降,而APC在整個角度范圍內均保持高準確率,驗證了其強大的視角轉換和多視角推理能力。
- 視覺提示能夠有效緩解數值提示中模型出現的邏輯錯誤,提升推理的準確性和穩定性。
結論與展望
總結貢獻
- 本文提出的APC框架通過模擬人類心理意象機制,實現了VLM的視角感知能力突破,支持任意參考視角的空間推理。該方法有效結合視覺基礎模型和VLM的優勢,通過抽象場景構建和視角轉換,將allocentric推理轉化為egocentric推理,顯著提升多項空間推理任務的性能。實驗驗證了APC在合成及真實數據集上的優越性和魯棒性,展示了其廣泛的應用潛力。
局限性分析
- 場景抽象依賴于視覺基礎模型的準確性,深度估計、對象定位和方向估計的誤差會影響最終推理效果。
- 當前方法對復雜動態場景和大規模對象環境的適應性尚需進一步驗證。
- 數值提示存在邏輯推理錯誤的風險,視覺提示雖有效緩解但仍有提升空間。
方法展望
- 未來可探索更精細的場景抽象技術,結合多模態傳感器數據提升三維重建精度。
- 結合強化學習或自監督學習,增強模型對視角轉換的內在理解和泛化能力。
- 擴展至動態場景和視頻數據,實現連續視角切換和時空推理。
- 探索與機器人導航、增強現實等實際應用的深度融合,推動VLM在真實環境中的智能交互能力。
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs
2025-04-23|UIUC, Salesforce Research|??8
??http://arxiv.org/abs/2504.17040v1???
???https://huggingface.co/papers/2504.17040???
???https://mikewangwzhl.github.io/dymu??
研究背景與意義
- 問題定義與現狀概述視覺-語言模型(Vision-Language Models,VLMs)通過視覺編碼器將圖像轉換為固定長度的視覺token序列,再與文本token結合進行多模態理解。然而,當前主流的視覺編碼器(如ViT架構)為固定分辨率的圖像生成固定數量的視覺token,不論圖像內容復雜度如何,token數量均不變,導致計算資源浪費,尤其在處理簡單圖像時效率低下。
- 挑戰點
- 固定長度的視覺token導致計算資源與圖像內容不匹配,簡單圖像無法減少計算負擔。
- 現有減少token數量的方法多為固定壓縮比例,缺乏對圖像復雜度的動態適應。
- 訓練自由(training-free)方法多忽視視覺編碼器本身的token冗余,且在減少token時,保持下游任務性能是一大難題。
- 研究目標本文旨在提出一種訓練自由的動態視覺token壓縮框架DYMU(Dynamic Merging and Virtual Unmerging),根據圖像復雜度動態調整視覺token數,既減少計算開銷,又保持VLM性能,且適用于多種主流視覺編碼器和語言模型架構。
研究方法與創新
- 核心技術描述
- 動態token合并(Dynamic Token Merging,DToMe)通過基于視覺token的相似度,采用層級雙邊匹配算法,動態合并冗余的視覺token。閾值由大規模圖像數據統計獲得,支持根據圖像復雜度自適應調整token數量,避免固定壓縮比例帶來的性能損失。
- 虛擬token解合(Virtual Token Unmerging,VTU)解決語言模型對固定長度視覺token序列的依賴。VTU通過稀疏矩陣映射和旋轉位置編碼(RoPE)線性特性,重構完整的視覺token序列的注意力矩陣,從而在不增加訓練的前提下,保持語言模型對視覺信息的完整感知。
- 創新點詳解
- 內容感知的動態token壓縮不同于傳統固定長度token,DToMe根據圖像內容復雜度動態調整token數,提升資源利用率。
- 訓練自由且兼容主流模型DYMU無需額外訓練,直接應用于現有ViT視覺編碼器和RoPE-based語言模型,方便快速部署。
- 高效的虛擬token重構機制VTU利用矩陣稀疏性和RoPE旋轉編碼的數學性質,實現在減少token數的同時,準確模擬完整token序列的注意力機制,兼顧效率與性能。
- 層級閾值統計方法采用大規模圖像集統計,針對每個Transformer層計算合并閾值,確保動態合并的穩定性和泛化能力。
- 方法優勢與理論基礎
- 計算復雜度降低通過減少視覺token數量,顯著降低視覺編碼器及后續自注意力層的計算開銷,理論上計算量與token數線性相關,實踐中實現近線性加速。
- 性能保持與提升結合DToMe和VTU,DYMU在多種視覺任務中保持甚至超越固定長度token方法的性能,尤其在復雜圖像上表現更優。
- 理論嚴謹充分利用Transformer注意力機制的線性代數性質和RoPE旋轉編碼的數學結構,保證重構注意力矩陣的準確性和效率。
實驗設計與結果分析
- 實驗設置
- 視覺編碼器采用CLIP和SigLIP等主流ViT架構,語言模型包括Vicuna-7B和Qwen2。
- 評測基準涵蓋多模態理解和推理任務,如GQA、MMBench、MME、POPE、TextVQA、ScienceQA等,以及視頻理解任務。
- 采用大規模多樣化圖像數據集(如LLaVA指令調優數據集)統計合并閾值,保證方法泛化。
- 對比對象涵蓋固定長度壓縮(如ToMe)和其他訓練自由壓縮方法。
- 結果表現
- DYMU在減少視覺token數達32%-85%的同時,保持了97.7%-100.4%的平均性能,相較于固定長度壓縮方法在復雜圖像上有明顯優勢。
- VTU顯著提升了語言模型處理動態token序列的性能穩定性,消除了token數變化帶來的性能波動。
- 通過圖像復雜度與token數的強相關性驗證,DYMU能夠根據圖像內容智能分配token預算。
- 在Any-Resolution模型(LLaVA-OneVision)和視頻任務中,DYMU同樣展現出良好的適配性和性能保持能力。
- 不同閾值設定(低、中、高)實現了性能與計算資源的靈活權衡,滿足多場景需求。
- 統計顯著性與多場景表現
- 通過多任務、多數據集驗證,DYMU表現穩定,且對閾值估計數據集的選擇不敏感,體現了方法的魯棒性。
- 結合背景移除、OCR、目標檢測等視覺預處理工具,DYMU進一步降低token數,展示了良好的擴展性和靈活性。
結論與展望
- 研究貢獻總結
- 提出了首個訓練自由、動態視覺token壓縮框架DYMU,解決了視覺token固定長度帶來的計算資源浪費問題。
- 創新設計了動態token合并與虛擬token解合兩大模塊,實現了內容感知的token壓縮與語言模型對變長token序列的高效處理。
- 在多種視覺語言模型和任務上驗證了DYMU的有效性和泛化能力,顯著提升了計算效率且保持甚至提升了性能。
- 通過大規模圖像統計方法確定合并閾值,保證了動態合并的穩定性和實用性。
- 局限性分析
- 對空間敏感的任務(如TextVQA和空間推理)性能仍有一定下降,提示token合并可能破壞部分細粒度空間信息。
- 虛擬token解合雖然有效,但仍存在輕微的性能折損,未來可進一步優化重構精度。
- 目前主要針對視覺token壓縮,視頻時間維度冗余尚未充分利用。
- 未來工作展望
- 探索針對空間敏感任務的自適應token合并策略,提升細粒度空間信息保留能力。
- 優化虛擬token解合算法,減少重構誤差,進一步提升下游任務性能。
- 擴展DYMU至視頻時序token壓縮,結合時空冗余,提升視頻理解效率。
- 結合更多視覺預處理和任務特定模塊,實現更靈活的計算資源分配和性能優化。
綜上,DYMU以其創新的動態視覺token合并與虛擬token解合技術,為視覺語言模型的高效推理提供了全新思路和實用方案,具有廣泛的應用前景和研究價值。
本文轉載自??AI研究前瞻??,作者:胡耀淇
