成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

d1:通過GRPO在擴散LLM中縮放推理

發布于 2025-4-30 06:40
瀏覽
0收藏

加州大學洛杉磯分校與Meta AI的研究團隊聯合發布了革命性的強化學習框架d1【文獻1】。

該框架顯著提升了基于擴散原理的LLM(dLLM)的推理性能——在某些場景下將響應時間從超過30秒縮短至僅需3秒。

當AI界普遍聚焦于GPT這類逐詞生成結果的自回歸模型時,dLLM另辟蹊徑,其設計靈感源自DALL·E 2和Stable Diffusion等圖像生成模型。

這類模型并非順序構建答案,而是通過多輪迭代優化被遮蔽的文本版本,在每一階段都能實現更快速的并行化處理及完整上下文感知。

顛覆傳統的AI架構

與GPT-4o或LLaMA等根據上文預測下一個詞的傳統LLM不同,擴散LLM從含噪聲的遮蔽輸入中逆向推導出連貫文本。

這就像從模糊的句子出發,通過逐步修正使其變得清晰。雖然該方法在速度和并行處理上潛力巨大,但其推理能力始終是短板。

d1框架的誕生正是為了攻克這一瓶頸。

據論文合著者、UCLA計算機科學助理教授Aditya Grover介紹,當前能執行復雜推理的頂尖自回歸LLM普遍存在嚴重延遲問題,單個響應耗時常超30秒。而Mercury等前沿dLLM的響應速度可達前者的10倍。

d1秘訣:微調+智能訓練

d1的核心在于兩階段訓練法:

1.監督微調(SFT):使用s1k數據集,通過分步解題的高質量示例訓練模型。

這些案例包含詳細推理、修正與回溯過程,幫助模型建立基礎推理能力。

2.基于diffu-GRPO的強化學習:研究團隊將自回歸模型采用的組相對策略優化(GRPO)技術適配于dLLM的非連續特性。

diffu-GRPO方法能以極低計算成本有效評估輸出可能性,其核心是隨機提示遮蔽技術——通過每次訓練時微調輸入內容來提升模型泛化能力。


d1:通過GRPO在擴散LLM中縮放推理-AI.x社區

diffu-GRPO 的 loss function

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區

diffu-GRPO中的對數概率估計方法

首先通過完整擴散去噪過程從提示q生成完整輸出o(左圖),隨后針對每種遮蔽模式執行單次前向傳播計算詞元級對數概率(中圖),并以單步解遮蔽的對數概率作為最終估計值。

在進行策略梯度更新時,我們對提示施加隨機遮蔽模式生成q′,同時保持輸出文本完全遮蔽狀態(右圖)。圖中詞元對數概率的顏色漸變表明:每種獨特的遮蔽模式都會產生不同的詞元級對數概率估計。

這種機制形成了策略優化的正則化手段——既能實現單批次內更多梯度更新,又可減少強化學習訓練所需的在線生成次數。

實證效果

研究團隊在開源模型LLaDA-8B-Instruct上應用d1框架,并在數學基準測試(GSM8K、MATH500)及4×4數獨、倒計時數字游戲等邏輯任務中進行驗證。

結果顯示:完整訓練的d1-LLaDA全面超越僅用SFT或diffu-GRPO的版本,新RL技術單獨使用也成效顯著。

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區

在四項數學與邏輯推理任務中,經過監督微調(SFT)和diffu-GRPO強化學習訓練的d1-LLaDA模型,其表現始終優于基礎LLaDA-8B-Instruct模型。采用了各任務和模型對應的最佳生成序列長度進行結果統計。

d1:通過GRPO在擴散LLM中縮放推理-AI.x社區

?與同類規模頂尖dLLM及自回歸LLM的對比, d1-LLaDA在GSM8K測試中奪得最高分, MATH500 測評位列第二。

LLaDA數據來自我們采用相同的零樣本(0-shot)評估協議所得結果,其他模型分數引自Ye等人(2025a)的Dream研究(GSM8K使用8樣本提示,MATH采用4樣本提示)。

需特別說明,d1-LLaDA針對每個基準測試都進行了任務專屬的強化學習訓練。?

除分數提升外,模型更展現出深度理解跡象。在長文本輸出中,它會像人類解題者那樣突然頓悟,主動修正錯誤并回溯推理路徑。

企業級應用前景

Grover認為這是企業AI應用的轉折點:"d1這類增強推理的dLLM能驅動多種智能體",從即時響應編程助手到戰略咨詢實時研究代理皆可勝任。

該技術兼具性能與靈活性:對受成本或延遲限制的企業,d1賦能后的dLLM即插即用,在保持傳統非推理模型速度的同時輸出更優質結果;對算力充裕者,d1能生成更詳盡的推理軌跡以追求極致質量。

用Grover的話說:"d1類dLLM實現了對自回歸LLM的帕累托超越——同時提供更優質量、更快速度和更低成本。"

隨著企業對響應敏捷、智能高效的AI需求增長,d1這類創新有潛力顛覆自回歸模型的主導地位,或將開啟基于擴散原理的新一代智能推理引擎時代。

文獻1,https://arxiv.org/pdf/2504.12216,d1: Scaling Reasoning in Diffusion Large Language Models via Reinforcement Learning

本文轉載自???????清熙???,作者:王慶法

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久草视 | 亚洲手机在线 | 国产视频综合 | 色婷婷一区二区三区四区 | 亚洲一区二区av | 国产精品一区二区三区在线 | 亚洲免费观看视频网站 | 91成人在线视频 | 日韩欧美三级电影在线观看 | 欧美一级在线免费观看 | 欧美日韩不卡合集视频 | 碰碰视频 | 一二三四在线视频观看社区 | 中文字幕亚洲无线 | 欧美视频在线播放 | 成人精品视频在线观看 | 日本粉嫩一区二区三区视频 | 国产精品福利在线观看 | 欧美九九 | 国产黄色av网站 | 99热碰| 久久国产精品视频 | 综合五月 | 亚洲欧美激情国产综合久久久 | 欧美中文字幕一区二区 | 在线欧美一区二区 | 国产一区二区成人 | 亚洲国产一区二区三区在线观看 | 国产精品毛片av一区 | 国产午夜亚洲精品不卡 | 日韩一区二区三区在线 | 欧美成人精品二区三区99精品 | 色综久久| 一本一道久久a久久精品综合 | 久久久高清 | 成人毛片一区二区三区 | 亚洲一区二区免费看 | 日韩av一区二区在线观看 | 欧美一级网站 | 国产精品激情小视频 | 亚洲成人免费av |