成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌之后,英偉達入局擴散大語言模型,Fast-dLLM推理速度狂飆27.6倍

人工智能 新聞
近日,NVIDIA 聯合香港大學、MIT 等機構重磅推出?Fast-dLLM,以無需訓練的即插即用加速方案,實現了推理速度的突破!

在大語言模型(LLM)領域,推理效率是制約其實際應用的關鍵因素之一。谷歌 DeepMind 的 Gemini diffusion 曾以 1400 tokens / 秒的生成速度震驚學界,展現了擴散模型在并行生成上的潛力。然而,開源擴散 LLM 卻因缺乏 KV 緩存機制和并行解碼質量衰退,實際推理速度長期被自回歸模型壓制.

近日,NVIDIA 聯合香港大學、MIT 等機構重磅推出 Fast-dLLM,以無需訓練的即插即用加速方案,實現了推理速度的突破!

圖片

  • 論文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
  • 項目地址:https://nvlabs.github.io/Fast-dLLM
  • 論文鏈接:http://arxiv.org/abs/2505.22618
  • GitHub 鏈接:https://github.com/NVlabs/Fast-dLLM

通過創新的技術組合,在不依賴重新訓練模型的前提下,該工作為擴散模型的推理加速帶來了突破性進展。本文將結合具體技術細節與實驗數據,解析其核心優勢。

圖片

一、 核心技術

分塊 KV 緩存與置信度感知并行解碼

1. 分塊 KV 緩存(Block-Wise KV Cache):激活重用率超 90% 的雙向加速

傳統擴散模型因雙向注意力機制難以直接復用計算結果,導致長序列推理效率低下。Fast-dLLM 提出分塊 KV 緩存機制,通過以下設計實現高效計算:

  • 雙向緩存策略:采用 DualCache 同時緩存前綴(Prompt)和后綴(Masked Tokens)的注意力激活值(KV Cache),如圖 1 (a)(b) 所示。在分塊生成時,前序塊的 KV 激活可直接復用于后續塊,減少重復計算??。
  • 高相似度驗證:實驗表明,相鄰推理步驟的 KV 激活余弦相似度接近 1(圖 2),證明緩存復用的可行性。例如,在 LLaDA 模型中,通過緩存可實現 90% 以上的激活重用,單步計算量顯著降低。

圖片

圖片

2. 置信度感知并行解碼(Confidence-Aware Parallel Decoding) 

并行解碼雖能提升速度,但條件獨立假設易破壞 token 依賴關系,比方說這個例子 The list of poker hands that consist of two English words are: _ _.。后續兩個單詞可以是 “high card,” “two pair,” “full house,” 或者是 “straight flush.”。值得注意的是,這兩個單詞之間存在關聯。

然而,MDMs 中的多令牌預測過程首先為每個令牌生成一個概率分布,然后從這些分布中獨立采樣。這種獨立采樣可能導致不理想的組合(如生成 “high house” 等無效組合)。Fast-dLLM 通過動態置信度篩選解決這一問題(所謂置信度,是指模型給 token 賦予的概率大?。?/span>

  • 閾值激活策略:僅對置信度超過閾值(如≥0.9)的 token 進行并行解碼,低置信度 token 留待后續步驟處理。如圖 3 所示,該策略可在保證生成質量的前提下,并行輸出多個 token。
  • 理論證明:當 (n+1)?≤1 時(n 為并行解碼 token 數,并且并行解碼的 n 個 token 的置信度都大于 1-?),貪婪解碼策略下并行解碼與順序解碼結果一致,從數學層面確保了生成邏輯的連貫性。

圖片

3. 偽代碼:分塊 KV 緩存與置信度感知并行解碼流程

以下是 Fast-dLLM 算法的核心偽代碼,結合了分塊 KV 緩存以及置信度感知并行解碼,無需訓練就可以在現有的開源 Diffusion LLM(如 LLaDA、Dream)上即插即用進行推理加速。 

圖片

二、 性能突破

速度與精度的均衡優化

1. 長文本生成:27.6 倍端到端加速

在 LLaDA 模型上,針對 1024 token 的長文本生成任務,Fast-dLLM 將單步延遲從 0.26 秒降至 0.09 秒,整體耗時從 266 秒壓縮至 12 秒,實現 27.6 倍端到端加速。這一提升在代碼生成、數學推理等長序列場景中尤為顯著,例如 8-shot 提示的 GSM8K 任務中,加速后仍能保持 76% 的準確率。

2. 精度保持:損失 < 2% 的基準測試表現

在主流基準測試中,Fast-dLLM 的準確率損失控制在 2% 以內:

  • GSM8K(5-shot):LLaDA+Fast-dLLM 準確率為 78.5%,僅比基線低 0.8%,但吞吐量提升 8.1 倍(圖 5)。
  • HumanEval(代碼生成):準確率達 44.5%,較基線提升 1.2%,同時吞吐量提升 3.7 倍。
  • 多模型兼容:在 LLaDA、Dream 等模型上均實現高效加速,驗證了技術的通用性。

圖片

三、 應用價值

無需訓練的即插即用方案

Fast-dLLM 的零訓練成本特性使其成為理想的推理優化工具,能夠快速集成到現有的系統中。對于那些已經在使用擴散模型的企業和開發者來說,可以在不改變模型架構和訓練流程的基礎上,直接利用 Fast-dLLM 提升推理效率,縮短長文本生成耗時,為實際部署提供更可行的方案。

四、 總結與展望

Fast-dLLM 通過分塊 KV 緩存與置信度感知并行解碼的創新組合,實現了擴散模型推理效率的跨越式提升,同時保持了生成質量的穩定性。其技術設計為非自回歸生成模型提供了新的優化范式,有望推動擴散模型在實時交互、長文本生成等場景中的廣泛應用。未來,隨著模型規模的擴大和蒸餾技術的深化,Fast-dLLM 或將進一步縮小與自回歸模型的性能差距,成為 LLM 推理加速的核心方案之一。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-16 09:13:00

2023-03-22 13:53:26

芯片英偉達

2025-02-27 13:45:00

2023-05-10 09:35:52

芯片AI

2024-08-28 13:34:13

2023-10-31 19:20:29

語言模型英偉達芯片

2024-02-20 12:30:53

AI訓練

2025-02-27 09:09:45

2024-10-18 14:46:51

2022-06-01 16:47:53

AI模型開源

2024-07-19 09:59:31

2025-04-08 00:40:00

谷歌合成數據大模型

2025-06-13 11:24:39

英偉達AI芯片

2023-09-14 13:23:00

AI芯片

2023-10-18 07:59:05

人工智能大語言模型

2023-09-11 12:58:00

AI訓練

2025-05-27 15:28:11

模型訓練AI

2025-05-21 13:56:37

模型圖像AI

2023-09-10 12:37:38

模型英偉達

2023-08-09 07:04:17

清華微軟LLM
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产日韩欧美精品一区二区 | 在线中文视频 | 欧美一区二不卡视频 | 美女一级毛片 | 国产成人免费在线观看 | 国产精品网址 | 在线免费黄色小视频 | 亚洲精品电影在线 | 日韩在线欧美 | 中文字幕一区二区三区在线观看 | 日本黄色影片在线观看 | 一区二区三区国产视频 | 偷拍自拍第一页 | 一区二区免费视频 | 国产福利在线免费观看 | 国产农村妇女毛片精品久久麻豆 | 国产在线一级片 | 国产精品一区二区在线 | 精品成人一区二区 | 国产成年人小视频 | 91毛片网| 国产成人精品一区二区三区视频 | 91麻豆精品国产91久久久久久久久 | 亚欧洲精品在线视频免费观看 | 在线亚洲人成电影网站色www | 综合另类 | 奇米影视首页 | 欧美日韩中文字幕在线 | 国产亚洲日本精品 | 国产片侵犯亲女视频播放 | 国产亚洲精品久久久久动 | 久久久久久国产免费视网址 | 免费骚视频 | 国产精品美女久久久久aⅴ国产馆 | 91国产精品| 亚洲免费视频在线观看 | 99精品网| 夜夜草 | 超碰成人av| 日本一区二区三区四区 | 日本精品视频 |