d1:通過GRPO在擴散LLM中縮放推理
加州大學洛杉磯分校與Meta AI的研究團隊聯合發布了革命性的強化學習框架d1【文獻1】。
該框架顯著提升了基于擴散原理的LLM(dLLM)的推理性能——在某些場景下將響應時間從超過30秒縮短至僅需3秒。
當AI界普遍聚焦于GPT這類逐詞生成結果的自回歸模型時,dLLM另辟蹊徑,其設計靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。
這類模型并非順序構建答案,而是通過多輪迭代優化被遮蔽的文本版本,在每一階段都能實現更快速的并行化處理及完整上下文感知。
顛覆傳統的AI架構
與GPT-4o或LLaMA等根據上文預測下一個詞的傳統LLM不同,擴散LLM從含噪聲的遮蔽輸入中逆向推導出連貫文本。
這就像從模糊的句子出發,通過逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大,但其推理能力始終是短板。
d1框架的誕生正是為了攻克這一瓶頸。
據論文合著者、UCLA計算機科學助理教授Aditya Grover介紹,當前能執行復雜推理的頂尖自回歸LLM普遍存在嚴重延遲問題,單個響應耗時常超30秒。而Mercury等前沿dLLM的響應速度可達前者的10倍。
d1秘訣:微調+智能訓練
d1的核心在于兩階段訓練法:
1.監督微調(SFT):使用s1k數據集,通過分步解題的高質量示例訓練模型。
這些案例包含詳細推理、修正與回溯過程,幫助模型建立基礎推理能力。
2.基于diffu-GRPO的強化學習:研究團隊將自回歸模型采用的組相對策略優化(GRPO)技術適配于dLLM的非連續特性。
diffu-GRPO方法能以極低計算成本有效評估輸出可能性,其核心是隨機提示遮蔽技術——通過每次訓練時微調輸入內容來提升模型泛化能力。
diffu-GRPO 的 loss function
diffu-GRPO中的對數概率估計方法
首先通過完整擴散去噪過程從提示q生成完整輸出o(左圖),隨后針對每種遮蔽模式執行單次前向傳播計算詞元級對數概率(中圖),并以單步解遮蔽的對數概率作為最終估計值。
在進行策略梯度更新時,我們對提示施加隨機遮蔽模式生成q′,同時保持輸出文本完全遮蔽狀態(右圖)。圖中詞元對數概率的顏色漸變表明:每種獨特的遮蔽模式都會產生不同的詞元級對數概率估計。
這種機制形成了策略優化的正則化手段——既能實現單批次內更多梯度更新,又可減少強化學習訓練所需的在線生成次數。
實證效果
研究團隊在開源模型LLaDA-8B-Instruct上應用d1框架,并在數學基準測試(GSM8K、MATH500)及4×4數獨、倒計時數字游戲等邏輯任務中進行驗證。
結果顯示:完整訓練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本,新RL技術單獨使用也成效顯著。
在四項數學與邏輯推理任務中,經過監督微調(SFT)和diffu-GRPO強化學習訓練的d1-LLaDA模型,其表現始終優于基礎LLaDA-8B-Instruct模型。采用了各任務和模型對應的最佳生成序列長度進行結果統計。
?與同類規模頂尖dLLM及自回歸LLM的對比, d1-LLaDA在GSM8K測試中奪得最高分, MATH500 測評位列第二。
LLaDA數據來自我們采用相同的零樣本(0-shot)評估協議所得結果,其他模型分數引自Ye等人(2025a)的Dream研究(GSM8K使用8樣本提示,MATH采用4樣本提示)。
需特別說明,d1-LLaDA針對每個基準測試都進行了任務專屬的強化學習訓練。?
除分數提升外,模型更展現出深度理解跡象。在長文本輸出中,它會像人類解題者那樣突然頓悟,主動修正錯誤并回溯推理路徑。
企業級應用前景
Grover認為這是企業AI應用的轉折點:"d1這類增強推理的dLLM能驅動多種智能體",從即時響應編程助手到戰略咨詢實時研究代理皆可勝任。
該技術兼具性能與靈活性:對受成本或延遲限制的企業,d1賦能后的dLLM即插即用,在保持傳統非推理模型速度的同時輸出更優質結果;對算力充裕者,d1能生成更詳盡的推理軌跡以追求極致質量。
用Grover的話說:"d1類dLLM實現了對自回歸LLM的帕累托超越——同時提供更優質量、更快速度和更低成本。"
隨著企業對響應敏捷、智能高效的AI需求增長,d1這類創新有潛力顛覆自回歸模型的主導地位,或將開啟基于擴散原理的新一代智能推理引擎時代。
文獻1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning
本文轉載自???????清熙???,作者:王慶法
