成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語言模型新范式:首個8B擴散大語言模型LLaDA發布,性能比肩LLaMA 3

人工智能 新聞
擴散語言模型 LLaDA 首次展示了通過前向掩碼加噪與反向去噪機制,同樣可以實現大語言模型的核心能力。

本文由中國人民大學高瓴人工智能學院李崇軒、文繼榮教授團隊和螞蟻集團共同完成。共同一作聶燊和朱峰琪是中國人民大學高瓴人工智能學院的博士生,導師為李崇軒副教授,論文為二者在螞蟻實習期間完成。螞蟻集團張曉露、胡俊,人民大學林衍凱、李崇軒為共同項目負責人。李崇軒副教授為唯一通訊作者。LLaDA 基于李崇軒課題組的前期工作 RADD [1] 和 SMDM [2]。目前這兩篇論文均已被 ICLR2025 接收。

近年來,大語言模型(LLMs)取得了突破性進展,展現了諸如上下文學習、指令遵循、推理和多輪對話等能力。目前,普遍的觀點認為其成功依賴于自回歸模型的「next token prediction」范式。這種方法通過預測下一個詞的方式拆解語言聯合概率,形式化如下:

最近,人大高瓴李崇軒、文繼榮團隊和螞蟻集團的研究員提出了一種新的洞察:大語言模型展現的語言智能(如上下文學習、指令遵循、推理和多輪對話等能力)并非自回歸機制獨有,而在于背后所遵循的生成建模原則,即通過最大似然估計(或最小化 KL 散度)來逼近真實語言分布。

正是基于這一理念,團隊開發了 LLaDA(Large Language Diffusion with mAsking)—— 一種基于掩碼擴散模型的語言生成方法。與傳統自回歸模型不同,LLaDA 采用了前向掩碼加噪和反向去噪的機制,不僅突破了單向生成的局限,還通過優化似然下界,提供了一種不同于自回歸的、原理嚴謹的概率建模方案。

通過大規模實驗,LLaDA 8B 在可擴展性、下游語言任務中全面媲美現代大語言模型,如 Llama3 8B。這些結果一定程度上表明,LLMs 的核心能力(如可擴展性、上下文學習和指令遵循)并非自回歸模型獨有,而是源自于合理的生成建模策略和充分的模型數據規模。LLaDA 不僅提出了一種新的大語言模型的概率建模框架,也有助于我們進一步理解語言智能。

  • 論文鏈接:https://arxiv.org/abs/2502.09992
  • 項目地址:https://ml-gsai.github.io/LLaDA-demo/
  • 代碼倉庫:https://github.com/ML-GSAI/LLaDA

團隊預計近期開源推理代碼和 LLaDA 8B Base 權重,后續還將開源 LLaDA 8B Instruct 權重。

性能展示

卓越的可擴展性。在多個語言任務上,LLaDA 和自回歸模型基線進行了嚴格對比。實驗表明,在相同的數據條件下,LLaDA 在 MMLU、GSM8K 等多個任務上展現了與自回歸模型相當的表現,證明了其在高計算成本下的強大擴展能力。即使在某些相對薄弱的任務上,隨著模型規模的增大,LLaDA 也能迅速縮小與自回歸模型之間的性能差距。

出色的上下文學習與指令遵循能力。在涵蓋 15 個熱門基準測試(包括通用任務、數學、代碼及中文任務)的評測中,預訓練了 2.3T tokens 的 LLaDA 8B Base 模型憑借強大的 zero/few-shot 學習能力,整體表現超越了 LLaMA2 7B Base (預訓練 tokens 2T),并與 LLaMA3 8B Base (預訓練 tokens 15T)媲美。在經過監督微調(SFT)后,LLaDA 的指令遵循能力得到了顯著提升,能在多輪對話及跨語種生成任務中保持連貫性和高質量輸出,充分展現了其對復雜語言指令的良好理解和響應能力。

下圖是在一些熱門基準上 LLaDA 和 LLaMA3 以及 LLaMA2 的性能對比,詳細結果請參見論文。


平衡的正向與逆向推理能力。傳統自回歸模型在逆向推理任務中常常存在「逆向詛咒」[3] 問題,好比當模型在「A is B」數據上訓練之后無法回答「B is A」。而 LLaDA 則通過雙向的概率建模機制,有效克服了這一局限。在詩歌補全任務中,LLaDA 在正向生成與逆向生成上均取得了均衡表現,尤其在逆向任務中明顯超越了 GPT-4o 和其他對比模型,展現了強大的逆向推理能力。

多場景下的實際應用效果。除了標準測試指標外,我們在多輪對話、數學題解和跨語言文本生成等實際應用場景中也看到了 LLaDA 的出色表現。無論是復雜問題求解、指令翻譯,還是創意詩歌生成,LLaDA 都能準確把握上下文并生成流暢、合理的回答,充分驗證了其在非自回歸生成模式下的應用前景。

下圖是 LLaDA 在回答用戶提問的一個例子,用戶輸入的 prompt 是「Explain what artificial intelligence is」。LLaDA 采取了一種不同于自回歸模型從左到右的生成方式。

下圖是 LLaDA 同用戶進行多輪對話的場景。LLaDA 不僅正確回答了詩歌《未選擇的路》的前兩句,而且成功將英文翻譯成中文和德語,并且按照用戶要求創作了一首五行,且每一行均以字母 C 開頭的詩歌。

核心方法

下圖展示了 LLaDA 的預訓練、監督微調以及采樣過程。

概率建模框架。LLaDA 通過前向過程和反向過程來定義模型分布。在前向過程中,對文本中的 tokens 進行逐步獨立掩碼,直到在 t=1 時整個序列被完全掩碼。當時,序列是部分掩碼的,每個 token 有概率 t 被掩碼,或者以概率 1-t 保留原樣。而反向過程則通過在 t 從 1 逐步減小到 0 的過程中反復預測被掩碼的 tokens,從而恢復出數據分布。LLaDA 的核心是一個參數化的掩碼預測器,其訓練目標僅對被掩碼部分計算交叉熵損失:

前期工作 [2] 已證明該目標函數為負對數似然的上界,從而為生成建模提供了嚴格的理論依據。

預訓練。LLaDA 使用 Transformer 作為掩碼預測器,并且不采用因果掩碼,從而能夠利用全局信息進行預測。預訓練在 2.3 萬億 tokens 的數據上進行,這些數據涵蓋通用文本、代碼、數學以及多語言內容。對于每個訓練序列 ,先隨機采樣 ,然后以相同概率 t 對每個 token 進行獨立掩碼得到 ,并通過蒙特卡羅方法估計目標函數進行優化。為增強對變長數據的處理能力,部分數據采用了隨機長度。LLaDA 采用 Warmup-Stable-Decay 學習率調度器和 AdamW 優化器,設置總批量大小為 1280(每 GPU 4)。

監督微調(SFT)。為了提升模型的指令遵循能力,LLaDA 在監督微調階段使用成對數據進行訓練,其中為提示,為響應。在 SFT 中保持提示  不變,對響應  進行獨立掩碼生成 ,然后計算如下損失:

其中為響應的動態長度。整個過程與預訓練一致,只是所有被掩碼的 token 均來自響應部分。SFT 在 450 萬對數據上進行,使用類似預訓練的學習率調度和優化器設置。

推斷。給定提示  ,模型從完全掩碼的響應開始,通過離散化的反向過程逐步恢復文本。在每一步,模型預測所有被掩碼 token 后,會按一定比例對部分預測結果進行再掩碼,以保證反向過程與前向過程一致。對于條件似然評估,LLaDA 使用了下面這個和等價但是方差更小的目標函數:

其中 l 是從 中均勻采樣得到,是通過從 中不放回地均勻采樣 l  個 token 進行掩碼得到。

總結

擴散語言模型 LLaDA 首次展示了通過前向掩碼加噪與反向去噪機制,同樣可以實現大語言模型的核心能力。實驗表明,LLaDA 在可擴展性、上下文學習和指令遵循等方面表現優異,具備與傳統自回歸模型相媲美甚至更優的性能,同時其雙向生成與增強的魯棒性有效突破了自回歸建模的固有限制,從而挑戰了「大語言模型的智能必然依賴自回歸生成」的傳統觀念。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-17 11:35:36

LLaDALLM大型語言模型

2023-03-14 13:45:14

模型AI

2024-10-17 18:52:41

2024-07-23 10:20:57

2024-06-17 18:04:38

2024-03-19 13:12:36

自動駕駛模型

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2024-02-19 14:09:00

模型Eagle 7BRNN

2023-10-28 13:29:27

2025-06-09 08:47:00

2023-09-11 15:57:16

人工智能模型GPT-4

2025-01-20 07:58:51

2025-03-10 07:00:00

阿里開源QwQ-32B

2024-01-12 17:25:45

MoE模型開源人工智能

2023-05-17 10:05:56

2024-07-18 12:53:13

2023-10-11 12:32:53

AI模型

2023-06-09 07:29:03

模型文本document
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩在线中文 | 久久免费国产视频 | 免费观看一级特黄欧美大片 | 欧美不卡在线 | 久久久久久网站 | 亚洲综合国产精品 | 麻豆精品一区二区三区在线观看 | 最新日韩精品 | 亚洲男人网| 福利久久| 精品国产乱码久久久久久闺蜜 | 久久国产精品-久久精品 | 亚洲日本一区二区 | 免费特级黄毛片 | 福利在线观看 | 精品美女在线观看视频在线观看 | 亚洲国产成人av好男人在线观看 | 欧产日产国产精品视频 | 夜夜摸天天操 | 伊人一区| 一区二区三区四区国产 | 久久人人爽人人爽人人片av免费 | 欧美在线一区二区三区 | 久久久激情 | av官网在线 | 欧美综合国产精品久久丁香 | 九九久久久久久 | 国产综合视频 | 天天射天天干 | 国产精品亚洲一区二区三区在线 | 国产成在线观看免费视频 | 国产精品久久a | 黄色一级大片在线免费看产 | 国产高清精品一区二区三区 | 久久99精品久久久久久秒播九色 | av在线播放一区二区 | 精品一区精品二区 | 国产一二三区在线 | 久久精品国产亚洲夜色av网站 | 国产中文字幕亚洲 | 久久综合av |