多模態擴散模型開始爆發,這次是高速可控還能學習推理的LaViDa
近段時間,已經出現了不少基于擴散模型的語言模型,而現在,基于擴散模型的視覺-語言模型(VLM)也來了,即能夠聯合處理視覺和文本信息的模型。今天我們介紹的這個名叫 LaViDa,繼承了擴散語言模型高速且可控的優點,并在實驗中取得了相當不錯的表現。
現目前,幾乎所有流行的 VLM 都是基于大型語言模型(LLM)構建的,而這些模型采用的范式是自回歸(AR),即按照從左到右的順序逐一生成 token。
在很多任務上,自回歸模型都表現出色,不過缺點也仍然存在。首先,由于它們是按順序生成,因此這個過程本質上難以并行化,從而導致推理速度緩慢。另外,由于它們是從左到右生成,因此難以處理需要雙向上下文或結構約束的任務 —— 例如文本填空。
例如,生成一首每行都以特定音節開頭的詩歌,或從預定義 JSON 格式的圖像中提取結構化信息 —— 這些任務通常需要模型填充或協調整個序列中的內容。即使使用精心設計的提示詞和演示,自回歸模型仍然難以穩定地滿足此類約束。
近段時間,離散的擴散模型(DM)開始崛起,甚至被許多人認為是自回歸 LLM 的一種有力替代,比如我們曾報道過的首個 8B 擴散大語言模型 LLaDA、擴散推理模型 Dream 7B 以及首個商業級擴散 LLM Mercury。
不同于自回歸 LLM,擴散模型是將文本生成視為在離散 token 上的擴散過程。會有一個前向過程逐漸將離散文本 token 序列退化(corrupt)為一個掩碼 token 序列。在推理過程中,則是從一個掩碼 token 序列開始,并通過一個學習到的反向過程逐漸將其轉換為一個有意義的文本 token 序列。
相比于自回歸 LLM,擴散模型具有多項理論優勢,可直接解決自回歸生成的局限性。
首先,自回歸 LLM 的吞吐量是固定的 —— 每次生成一個 token;而擴散模型則可以通過調整擴散步驟的數量來靈活地控制速度與質量之間的平衡。此外,它們能夠建模雙向上下文,這使得它們非常適合文本填空等任務,從而實現更有效的約束生成和結構化的輸出格式化 —— 這些功能在視覺-語言環境中尤其有價值,因為其輸出可能需要遵循特定的模式。
基于這些觀察和實踐,LaViDa 誕生了,其全稱為 Large Vision-Language Diffusion Model with Masking,即「帶掩碼的大型視覺-語言擴散模型」。
- 論文標題:LaViDa: A Large Diffusion Language Model for Multimodal Understanding
- 論文地址:https://arxiv.org/pdf/2505.16839
該模型來自加利福尼亞大學洛杉磯分校、松下、Adobe 和 Salesforce,算得上是首批基于擴散的 VLM 之一,我們之前還報道過的另外幾個多模態的擴散語言模型可供對照:
- 比 Gemini Diffusion 更全能!首個多模態擴散大語言模型 MMaDA 發布,同時實現強推理與高可控性
- 舍棄自回歸!國內團隊打造純擴散多模態大模型 LLaDA-V,理解任務新 SOTA
- 谷歌之后,英偉達入局擴散大語言模型,Fast-dLLM推理速度狂飆27.6倍
簡單來說,為了使預訓練的擴散模型能夠感知視覺輸入,LaViDa 的做法是使用一個視覺編碼器將視覺特征整合進擴散主干網絡 —— 類似于 LLaVA 使用視覺輸入增強大型語言模型 (LLM) 的方式。訓練方法上,他們采用了以擴散為目標的兩階段訓練流程:先進行預訓練,然后進行監督微調。
下面來詳細看看 LaViDa 的具體方法和實驗表現。
LaViDa 是如何構建的?
LaViDa 的模型架構與 LLaVa 等常見的自回歸視覺-語言模型(VLM)類似。它由視覺編碼器和擴散語言模型組成。這兩部分通過一個 MLP 投射網絡連接。其整體設計如圖 2 所示。
視覺編碼器:給定輸入圖像 I 和文本提示詞 P,首先將圖像大小調整為 7682,并將其分成四個 3842 的不重疊視圖,記為 I_{1:4}。另外,按照之前的相關研究,也將原始圖像的大小調整為 3842,以獲得第五個視圖 I_5。
這五個視圖分別由視覺編碼器(SigLIP-400M)獨立編碼,每個視圖產生 272 個嵌入,記為 V_{1:5}。總的來算,每個圖像會產生 3645 個嵌入。
為了減少序列長度以提高訓練效率,該團隊還會在每個視圖上應用 2×2 平均池化,從而將嵌入減少到了每個視圖 142 個,即總共 980 個。
然后,這五個視圖的嵌入會被展平并連接成一維序列,然后由投射網絡處理,從而獲得擴散語言模型的最終視覺上下文。此過程與自回歸 LLM 的視覺編碼過程相似,如圖 2 底部所示。
擴散語言模型:這里的擴散語言模型是一個多層 Transformer,其架構與 LLM 類似。唯一的主要區別是:它的注意力掩碼是非因果式的,并且它使用的建模目標是如下擴散語言建模目標,而不是自回歸模型使用的下一個 token 預測。
擴散語言模型的輸入包括投射的視覺嵌入、提示詞 P ,以及部分遮掩的響應 X_t 。最后一個 Transformer 塊的輸出會經過最終線性層,以獲得無掩碼的響應 X_0 的逐 token logit 。在其實驗中,他們探索了 LLaDA-8B(默認)和 Dream-7B 作為擴散語言模型。該過程如圖 2 的上半部分所示。
下圖展示了 LaViDa 的更多技術細節,而有關其訓練算法和推理算法的更詳細描述請參閱原論文。
LaViDa 的實驗表現如何?
從高層面看,LaViDa 總體上采用了一種兩階段訓練流程。
在預訓練階段(階段 1),僅更新投射算子,從而讓視覺嵌入與 DLM 的隱空間對齊。
在微調階段(階段 2),對所有組件進行端到端聯合訓練,以實現指令遵循。此外,該團隊還對階段 2 的模型進行了進一步微調,并得到了兩個分別用于推理和文本填空任務的專用模型。
主要結果
評估使用了多種視覺-語言任務。表 1 報告了在視覺理解任務上,LaViDa 使用 LLaDA-8B(LaViDa-L)和 Dream-7B(LaViDa-D)作為語言主干網絡的結果,另外還有一些對比模型的結果。
可以看到,在一般任務、推理、光學字符識別 (OCR) 和科學等類別的眾多任務上,LaViDa 展現出極具競爭力的性能。
其中,在一般性的視覺-語言理解方面,LaViDa-L 在 MMMU 上取得了最高分 (43.3),優于所有同類模型。LaViDa-D 在該類別的多個基準測試中也排名第二。
在推理任務方面,這兩個模型在數學密集型和基于空間的基準測試中均超越了規模相似的基線模型。
在科學方面,LaViDa 在 ScienceQA 上取得了最高分和第二高的成績(分別為 81.4 分和 80.2 分),同時在基于復雜圖表的基準 AI2D 上的表現與 Open-Llava-Next 相當。
最后,在 OCR 方面,LaViDa 表現還算不錯,但落后于一些最新的自回歸模型。該團隊分析表示,這種差距主要是因為 LaViDa 使用了平均池化進行視覺 token 壓縮,這會導致細粒度空間信息丟失。雖然這在計算預算方面是必要的權衡,但對于需要精確文本識別和布局理解的任務來說,這會帶來困難。
整體來看,這些結果凸顯了 LaViDa 的優勢,表明基于擴散的方法頗具競爭力,可以與自回歸模型一樣 scale,同時在多種視覺-語言任務上取得穩健的表現。
推理蒸餾
為了提升 LaViDa 模型的推理能力,該團隊使用從 VL-Rethinker-7B 蒸餾出的 1.92 萬個 CoT 樣本又進行第三階段訓練。最終,他們得到了一個推理模型 LaViDa-Reason,并在 MathVista、MathVerse 和 MathVision 上進行了評估,結果見表 2a。
在這些任務中,最大生成長度 L 設置為 1024。從結果可以看到,LaViDa-Reason 在所有基準測試中均優于 LaViDa,在最難的 MathVision 推理數據集上更是提升明顯(相對提升了 18%)。
文本填空
LaViDa 為文本生成提供了強大的可控性,尤其是在文本填空方面。
給定一份由 L 個 token 構成的草稿,其中包含 L_M 個掩碼,跳轉到時間步驟 t = L_M / L 并運行標準推理直到 t = 0。這會直接將 L_M 個掩碼替換為 L_M 個 token。
然而,在實踐中,補全所需的 token 數量可能會更少 —— 例如,There is a [M][M][M][M] in the image 可能會變成 dog 或 traffic light。
為了支持長度可變的補全,該團隊使用階段 2 數據一個 20% 的子集進行了額外的階段 3 訓練,并將該模型命名為 LaViDa-FIM。
在訓練期間,他們會在文本中間插入隨機長度的 [S]...[S][FIM] 序列。在推理時,則將 [FIM] 附加到已遮掩的片段(例如 [M][M][M][M][FIM])以為靈活的終止提供信號。然后,該模型可以生成類似 [dog][S][S][S][FIM] 或 [traffic][light][S][S][FIM] 形式的補全。
雖然 FIM 目標通常是在語言任務(例如代碼補全)的語境中討論,但它們與多模態應用同樣相關。
圖 4a 展示了有約束詩歌生成的定性結果,其中模型需要生成一首描述圖像的詩歌,并且每行要以特定的音節開頭。與自回歸模型不同,LaViDa 和 LaViDa-FIM 都成功完成了任務。值得注意的是,LaViDa-FIM 會動態調整每行的 token 數量。
表 2b 則展示了 100 個樣本的定量結果:這兩個 LaViDa 變體均實現了 100% 的約束滿足率,而對比的自回歸模型則均在 50% 以下。
速度與質量的權衡
通過控制離散化步數 K,LaViDa 提供了一種便捷的方法來實現速度與質量的權衡。
基于 COCO 2017 val 數據集的 500 張圖像,該團隊比較了不同 K 值下的圖像描述性能。其中 K ∈ {32, 24, 16, 8},等價地 NFE∈ {100%, 75%, 50%, 25%}。
圖 4b 報告了在單個 A5000 GPU 上測得的每張圖像的平均延遲和 CIDEr 分數。
當 NFE=100% 時,LaViDa 的 CIDEr 得分高于自回歸基線,但速度略慢。當 NFE=75% 和 NFE=50% 時,LaViDa 的速度比自回歸基線更快,并且質量更好。當 NFE=25% 時,速度明顯更快,但性能略遜一籌。這表明 LaViDa 可以根據應用需求靈活調整其推理速度,允許用戶根據具體需求在生成延遲和輸出質量之間進行權衡。
此外,該團隊還研究了 KV 緩存的影響和噪聲調度,并進行了消融研究,詳見原論文。