沖擊自回歸,擴散模型正在改寫下一代通用模型范式
上個月 21 號,Google I/O 2025 開發者大會可說是吸睛無數,各種 AI 模型、技術、工具、服務、應用讓人目不暇接。在這其中,Gemini Diffusion 絕對算是最讓人興奮的進步之一。從名字看得出來,這是一個采用了擴散模型的 AI 模型,而這個模型卻并非我們通常看到的擴散式視覺生成模型,而是一個地地道道的語言模型!
Google DeepMind 表示,他們正在使用「擴散」技術來探索新的語言模型方向,從而為用戶提供更強大的控制力、創造力和文本生成速度。
從演示效果看,Gemini Diffusion 也確實快 ——「生成速度是我們迄今為止最快模型的五倍,同時還具有相當的編程性能?!?/span>
那么,擴散模型為什么會這么快呢?這與其工作原理有關。簡單來說,不像自回歸語言模型那樣直接預測下個文本 token,擴散語言模型(dLLM)是通過逐步細化噪聲的方式來學習生成輸出。這意味著它們不僅可以快速迭代,還能在生成過程中進行糾錯。這些特性有助于它們更好地應對編輯等任務,包括在數學和代碼環境中。
用戶輸入「Explain what artificial intelligence is」時,擴散語言模型 LLaDA 生成響應的過程,可以看到其生成方式與從左到右的自回歸模型有明顯差別。
但遺憾的是,截至目前,Gemini Diffusion 都還沒有真正問世,感興趣的用戶也還只得在 waitlist 中繼續等待。但是,其實早在 Gemini Diffusion 問世之前幾年,就已經有一些研究團隊在探索擴散式 LLM 的可行性了,并研發出了擴散語言模型。
比如斯坦福大學 2022 年提出的 Diffusion-LM 在細粒度的復雜生成控制方面取得了重要進步;同年,上海 AI 實驗室提出了首個專為序列到序列(Seq2Seq)任務設計的擴散模型 DiffuSeq,而復旦大學則將擴散過程與 BERT 模型相結合創造了 DiffusionBERT。之后還有人大高瓴人工智能學院李崇軒團隊對掩碼式擴散模型在文本建模上的 Scaling Law 的研究。
一直到今年二月份,螞蟻集團和中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊推出了首個 8B 參數量的擴散大語言模型 LLaDA。憑借比肩同規模 LLaMA 3 的性能,LLaDA 備受關注。不僅如此,該模型也是國內率先做到真正可用的擴散語言模型,并在相關研究領域產生了巨大影響,甚至成為了許多相關研究所使用的基礎模型 —— 后續的 d1、LaViDa 和 LLaDOU 都采用了 LLaDA 作為基礎或主干模型。
有意思的是,就在 LLaDA 誕生之后幾天,硅谷的一家初創公司 Inception Labs 正式從隱身模式中浮出水面,研發的「首個商業級擴散大型語言模型」Mercury 問世了。AI 社區對擴散式 LLM 的關注也隨之迎來了一波小高潮。
在這期間,相關研究層出不窮,包括將自回歸與擴散模型融合的 Block Diffusion 和 CtrlDiff、通過 KV Cache 和并行解碼實現 dLLM 無訓練加速的 Fast-dLLM、基于傅里葉變換的狀態擴散語言模型 SFDLM、香港大學和華為發布的 Dream 7B、使用橫向思維擴散鏈(DCoLT)增強擴散語言模型推理能力的 LLaDOU 以及我們曾報道過的來自 UCLA 和 Meta 的 d1 模型 —— 其通過監督微調和強化學習(diffu-GRPO 算法),擴展了 dLLM 的推理能力,尤其是在數學和邏輯推理任務上的表現。
以 LLaDA 為基礎模型開發的 d1-LLaDA 在多個數學和邏輯推理任務上都獲得了明顯提升,來自論文 arXiv:2504.12216
當然,谷歌 5 月份發布的 Gemini Diffusion 絕對算得上是 dLLM 領域的一大盛事,而其給人最直觀的第一印象就一個字:「快」。其排除額外開銷后的采樣速度可以達到驚人的每秒 1479 token。而 Gemini Diffusion 還不只是快,其在多個基準上的表現可媲美大得多的自回歸模型 Gemini 2.0 Flash-Lite,彰顯了 dLLM 的巨大潛力。
而在 dLLM 研究發展的基礎上,我們也看到了 dMLLM(擴散式多模態 LLM)研究正在爆發,其中最典型的代表莫過于螞蟻集團與人大基于 LLaDA 模型開發的多模態擴散大語言模型 LLaDA-V 和字節跳動開發的多模態擴散大語言模型 MMaDA。
其它一些研究同樣非常值得關注,包括來自新加坡國立大學的首個離散 dMLLM Dimple、來自 UCLA 等的 LaViDa。
可以說,MMaDA 與 LLaDA 系列模型一起,表明在擴散語言模型這個賽道上,國內的研究團隊已經躋身第一梯度。我們也非常期待螞蟻集團和字節跳動接下來在這個方向上的進一步探索。
下面,我們首先將以 LLaDA 為例,展現當前擴散式 LLM 的工作原理;之后我們會深入多模態的領域,帶你一窺當前擴散式多模態 LLM(dMLLM)研究成果所昭示的光明未來。在這個未來里,你說不定還能看見 AGI 的影子。
擴散式 LLM 的工作原理 —— 以 LLaDA 為例
不管是擴散式 LLM 還是自回歸 LLM,其實都是生成式模型。而本質上講,生成模型是對高維概率分布 P_θ 進行建模,旨在優化 P_θ 與 P_data 間的某種距離。這個過程通常包含三大要素,即網絡結構(MLP、CNN、RNN、Transformer)、規模擴展(模型、數據、計算)、概率建模方法(VAE、GAN、Flow、自回歸、擴散模型)。
更具體而言,自回歸模型是使用鏈式發展來拆分概率分布 P_θ,而擴散模型則是借助隨機微分方程,通過前向加噪和反向去噪過程建模聯合概率 P_θ。
LLaDA 團隊觀察到:當前主流大語言模型普遍采用極大似然估計訓練網絡,而極大似然估計等價于最小化真實數據分布與模型分布的 KL 散度。他們認為:「大模型的諸多優良性質源于極大似然估計本身,而非自回歸建模方式?!?/span>
基于這一見解,該團隊探索了「擴散模型」這一已經在視覺生成領域取得顯著成功的范式,看其能否在語言任務上得同樣的成功。他們進一步觀察到,對于自回歸語言模型成功的要素,擴散模型同樣也具備,包括卓越的可擴展性、指令遵從和上下文學習能力、「壓縮即智能」的理論基礎。
基于這些觀察,人大和螞蟻集團提出了 LLaDA,即 Large Language Diffusion with mAsking,下圖展示了其一些概念。
LLaDA 架構的概念性說明,其中 (a) 是預訓練,(b) 為 SFT,(c) 則是采樣過程,來自論文 arXiv:2502.09992
其中,在預訓練過程中,LLaDA 會基于文本進行訓練,并且這些文本都帶有隨機掩碼 —— 以相同的比例獨立應用于所有 token。在接下來的 SFT 階段,則被遮掩的只有 response,該階段的目標是提升模型的指令遵從能力。而在采樣階段,LLaDA 模擬從 t = 1(全掩碼)到 t = 0(無掩碼)的擴散過程,并在每一步,模型預測所有被掩碼 token 后,會按一定比例對部分預測結果進行再掩碼(remask),以保證反向過程與前向過程一致。
對這些過程更詳細的數學描述可參閱我們之前的報道《語言模型新范式:首個 8B 擴散大語言模型 LLaDA 發布,性能比肩 LLaMA 3》或原論文。
預訓練后的 LLaDA 8B 的實驗表現足以比肩同等規模下的 LLaMA3,來自論文 arXiv:2502.09992
經過后訓練的 LLaDA 8B 也有同樣表現,來自論文 arXiv:2502.09992
LLaDA 首次表明:通過前向掩碼加噪與反向去噪機制,同樣可以實現大語言模型的核心能力。
此后,LLaDA 逐漸發展成了 dLLM 研究的常用基礎模型之一,比如前文提到的 d1、LaViDa 和 LLaDOU 以及近期 Meta 剛發布的新研究 EB-Sampler,一種通過 Entropy Bounded Unmasking 加速掩碼式擴散模型的采樣過程的技術。
事實上,掩碼式擴散語言模型的有效性已經得到了一些理論證明,比如論文《A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective》從信息論的角度對擴散語言模型的收斂性進行了理論分析,為擴散語言模型的實際有效性提供了新的理論見解。而北京大學和螞蟻集團的論文《Theoretical Benefit and Limitation of Diffusion Language Model》更是從理論上剖析了 dLLM 的優勢和局限。
同時,LLaDA 本身也在不斷演進。5 月下旬,LLaDA 1.5 問世,其有效整合了新提出的 Variance-Reduced Preference Optimization(VRPO)方法 ,在多個數學和對齊基準上都取得了顯著進步。簡單來說,VRPO 旨在降低偏好得分估計器的方差,從而減輕整體偏好優化中的偏差和方差。
LLaDA 1.5 相比 LLaDA 進步明顯,來自論文 arXiv:2505.19223
另一方面,dLLM 也在不斷地擴展自己的能力邊界,尤其是在多模態能力方面 —— 本就已經在視覺生成任務上表現優異的擴散模型也開始通過視覺理解這個世界。
擴散式多模態 LLM
機器理解絢麗世界的另一種方式
目前,擴散式多模態 LLM(dMLLM)還主要集中在文本模態的基礎上增加視覺模態。其中,來自人大和螞蟻集團的 LLaDA-V 可說是最典型的代表(實際上 LLaDA-V 中的 V 便是指視覺 /vision)。
LLaDA-V 是一種集成了視覺指令微調的純擴散多模態大語言模型,其核心在于將視覺指令微調框架與 LLaDA 的掩碼擴散機制相結合。下圖展示了 LLaDA-V 的訓練和推理過程。
b 和 c 分別展示了 LLaDA-V 的訓練和推理過程,而 a 則是自回歸訓練
架構上,LLaDA-V 采用了經典的「視覺編碼器 + MLP 投影器 + 語言模型」架構。視覺編碼器(SigLIP 2)的作用是提取圖像特征,MLP 投影器再將其映射到 LLaDA 的嵌入空間,LLaDA 語言模型則負責處理融合后的多模態輸入并生成回復。尤其需要注意,LLaDA-V 采用了雙向注意力機制。這允許模型在預測時全面理解對話上下文,這在消融實驗中被證明略優于對話因果注意力機制。
為了支持多輪多模態對話,LLaDA-V 的訓練目標在 LLaDA 的訓練目標的基礎上進行了擴展,以支持多輪多模態對話。其核心思想是在訓練時保持圖像特征和用戶提示,僅對模型的 response 進行隨機掩碼,訓練目標僅對被掩碼部分計算交叉熵損失。
在執行推理時,LLaDA-V 由于是擴散模型,因此其生成過程并非自回歸式的逐詞預測,而是通過擴散模型的反向去噪過程。從一個完全被掩碼的回復開始,模型在多個步驟中迭代地預測被掩碼的 token,逐步恢復出完整的回復。研究采用了 LLaDA 的低置信度重掩碼策略,優先保留高置信度的預測,以提升生成質量。
整體而言,LLaDA-V 成功地將視覺指令微調與掩碼擴散模型相結合,證明了擴散模型不僅能在語言任務上與自回歸模型一較高下,在多模態理解領域同樣展現出強大的競爭力和獨特的優勢,尤其是在數據可擴展性方面。
LLaDA-V 的基準測試結果,來自論文 arXiv: 2505.16933
對 LLaDA-V 模型的更多介紹可以參看我們之前的報道《舍棄自回歸!國內團隊打造純擴散多模態大模型 LLaDA-V,理解任務新 SOTA》。
當然,除了 LLaDA-V,近期也誕生了其它一些非常值得關注的 dMLLM。
這里來重點看看字節跳動開發的 MMaDA,其兼具文本推理、多模態理解和文生圖三種能力。該方法具有三大關鍵創新:采用了統一的擴散架構、實現了一種混合長思維鏈(CoT)微調策略、提出了一種基于策略梯度的統一強化學習算法 UniGRPO。
MMaDA 的訓練和推理流程概況,來自論文 arXiv: 2505.15809
這些創新造就了 MMaDA 在多種任務上的強勢表現,這也使其成為了當前 dMLLM 領域最具代表性的研究成果之一。
MMaDA 執行文本推理任務示例,來自論文 arXiv: 2505.15809
當然,除了視覺模態,dLLM 也正在向其它更多模態推進,其中尤其值得一提的是擴散蛋白質語言模型(DPLM)。該研究也來自字節跳動,可以無條件地生成結構合理、新穎且多樣化的蛋白質序列。另外,DPLM 還可根據各種需求進行定制,并展現出了強大的條件生成能力。
作為當前生成式 AI 的前沿方向,dMLLM 相關研究正迅速積累。LLaDA-V 和 MMaDA 作為杰出代表,也代表了國內在這一研究方向上的前沿探索水平。期待這一范式早日邁入真實應用場景。
智能的范式不會固定
AI 也將繼續擴散
從視覺生成到語言理解,再到多模態交互,擴散模型正逐步走出「圖像領域的舒適區」,成為通用智能的新基底。在自回歸模型主導 AI 敘事數年的當下,這種技術范式的更迭并非輕易之舉,它意味著思路的反轉、范式的顛覆,也意味著更大的挑戰與更遠的可能。
LLaDA 系列模型、MMaDA 和即將問世的 Gemini Diffusion 是這一技術路徑從可能性走向現實性的關鍵一躍。它們不僅驗證了掩碼式擴散機制在語言和多模態任務上的有效性,也為整個 AI 社區提供了更加多元和可擴展的研究方向。我們看到,越來越多的團隊開始圍繞 dLLM 與 dMLLM 展開嘗試,構建起一個不斷擴展的模型生態。事實上,甚至已經有研究團隊嘗試將量子計算與擴散語言模型進行整合并開發出了所謂的 Quantum-Diffusion LLM(qdLLM)。這種擴散模型的擴散,似乎本身就預示著某種更具生命力的未來。
我們始終相信,AI 的發展從來不是一條直線。范式的演進,是一次次對既有認知的突破。在擴散的光譜中,或許我們尚未抵達最終形態,但每一次掩碼與解碼之間的跳躍,都是通往通用智能世界的回聲。
未來已在擴散中生成,下一代智能的曙光,也許正藏在每一個逐步去噪的片段里。