成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解 原創(chuàng) 精華

發(fā)布于 2025-4-17 11:14
瀏覽
0收藏

編者按: 當(dāng)你面對(duì)需要高質(zhì)量逆向推理能力的應(yīng)用場(chǎng)景時(shí),傳統(tǒng)大語言模型是否讓你感到力不從心?在詩歌逆向補(bǔ)全、邏輯逆向推導(dǎo)等任務(wù)中,為什么即使是 GPT-4o 這樣的強(qiáng)大模型也會(huì)表現(xiàn)失常?

文章深入介紹了 LLaDA(Large Language Diffusion with mAsking) 這一創(chuàng)新模型的工作原理、訓(xùn)練過程與性能表現(xiàn)。與傳統(tǒng)自回歸模型不同,LLaDA 借鑒了計(jì)算機(jī)視覺領(lǐng)域的擴(kuò)散模型思想,通過逐步去除掩碼來生成文本,而非從左到右逐個(gè)生成 token。

性能測(cè)試顯示,8B 參數(shù)的 LLaDA 基礎(chǔ)模型明顯優(yōu)于同等規(guī)模的 LLaMA 2,并與 LLaMA 3 表現(xiàn)相當(dāng)。更令人驚喜的是,LLaDA 在逆向推理任務(wù)中表現(xiàn)出色,有效解決了自回歸模型在“逆向詛咒”上的局限性,甚至在詩歌逆向補(bǔ)全任務(wù)中超越了 GPT-4o 和 Qwen 2.5。

作者 | AI Papers Academy

編譯 | 岳揚(yáng)

在這篇文章,我們將對(duì)《Large Language Diffusion Models》這篇論文進(jìn)行解析,介紹首個(gè)基于擴(kuò)散模型的 LLM,該模型可與強(qiáng)大的 LLM 相媲美。

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

Paper authors (Source[1])

01 引言

近年來,大語言模型(LLMs)變得極其強(qiáng)大,為通向通用人工智能(AGI)鋪平了道路。這些模型本質(zhì)上是自回歸的,即根據(jù)給定的 token 序列預(yù)測(cè)下一個(gè) token。我們可以把這個(gè)過程想象成它們?cè)谝粋€(gè)詞一個(gè)詞地生成回答內(nèi)容,其中的每個(gè)新詞都基于前面已有的詞匯。事實(shí)證明,這種方法非常強(qiáng)大,讓我們?nèi)〉昧私裉斓某删汀?/p>

然而,這種方法也面臨著一些挑戰(zhàn)。例如,按順序逐個(gè)生成 token 的計(jì)算成本很高。此外,固有的從左到右的建模方式限制了模型在逆向推理(reversal reasoning)任務(wù)中的有效性。 后文將提到一個(gè)案例 —— 逆向詩歌補(bǔ)全任務(wù),即給定詩歌中的一句話,模型需要預(yù)測(cè)詩中這句話前一句的內(nèi)容。無論如何,有一點(diǎn)值得探討:自回歸建模是否唯一可行的方式?

《Large Language Diffusion Models》對(duì)這一假設(shè)提出了挑戰(zhàn)。正如 LLMs 是自然語言處理的基石一樣,擴(kuò)散模型則是計(jì)算機(jī)視覺領(lǐng)域的王者,是頂級(jí)文生圖模型的核心技術(shù)。在本文中,我們將解讀研究人員如何將擴(kuò)散模型應(yīng)用于語言建模領(lǐng)域。

02 什么是擴(kuò)散模型?

讓我們先快速回顧一下計(jì)算機(jī)視覺中的擴(kuò)散模型,這將有助于我們理解本文的核心思想。

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

擴(kuò)散模型逐步去除圖像中的噪聲(Cat images source[2])

擴(kuò)散模型以提示詞作為輸入,例如“一只貓坐在一臺(tái)筆記本電腦上”。模型通過學(xué)習(xí)逐步去除圖像中的噪聲來生成清晰的圖像。模型從最左側(cè)所示的隨機(jī)噪聲圖像開始,每一步都去除部分噪聲。去噪過程是以輸入提示詞為條件的,因此最終生成的圖像會(huì)匹配提示詞內(nèi)容。上圖中的三個(gè)點(diǎn)(...)表示本例中我們跳過了一些中間步驟。最終我們得到一張清晰的貓圖像,這就是擴(kuò)散模型根據(jù)給定提示詞生成的最終輸出。

在訓(xùn)練過程中,為了學(xué)習(xí)如何去除噪聲,我們會(huì)逐步向清晰圖像添加噪聲,這個(gè)過程稱為擴(kuò)散過程。該領(lǐng)域已取得一系列進(jìn)展,但這不是本文的重點(diǎn)。

03 大型語言擴(kuò)散模型的直觀理解

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

LLaDA 逐步去除 token 序列中的掩碼

本文介紹的模型名為 LLaDA,全稱是 Large Language Diffusion with mAsking。我們從最左側(cè)的 token 序列開始,其中黑色部分表示被掩碼的 token。黃色的未掩碼 token 代表提示詞,黑色的被掩碼 token 代表待生成的響應(yīng)。請(qǐng)注意,這里的被掩碼的 token 由特殊符號(hào)表示,不同于我們之前提到的圖像中疊加的噪聲。

我們逐步去除 token 序列中的掩碼,藍(lán)色代表已解除掩碼的 token。最終,我們移除所有掩碼,得到針對(duì)輸入提示詞的完整響應(yīng)。在本例中,清晰的響應(yīng) token 序列對(duì)應(yīng)文字為:"從前,在一個(gè)小村莊里,住著一只聰明的老貓頭鷹(Once upon a time, in a small village, there lived a wise old owl)"。

04 LLaDA 訓(xùn)練與推理過程概述

讓我們來深入探討大型語言擴(kuò)散模型的更多細(xì)節(jié)。下圖展示了該模型的兩個(gè)訓(xùn)練階段(預(yù)訓(xùn)練與監(jiān)督式微調(diào))以及推理過程。

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

LLaDA 訓(xùn)練過程與推理示意圖(Source[1])

4.1 LLaDA 訓(xùn)練階段1 —— 預(yù)訓(xùn)練階段

我們從預(yù)訓(xùn)練階段開始,如上圖最左側(cè)所示。

頂部是訓(xùn)練集中的一個(gè)樣本序列。我們隨機(jī)選擇掩碼比例 t(0 到 1 之間的值),隨后獨(dú)立地為每個(gè) token 隨機(jī)決定是否掩碼,概率為 t。這一步會(huì)產(chǎn)生部分被掩碼的 token 序列。該序列被輸入模型的核心組件 —— mask predictor(這是一個(gè)基于 Transformer 的模型),該模型通過計(jì)算掩碼 token 上的交叉熵?fù)p失,訓(xùn)練其還原被掩碼的 token。預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模為 2.3 萬億 token。

4.2 LLaDA 訓(xùn)練階段2 —— 監(jiān)督式微調(diào)

第二個(gè)訓(xùn)練階段是監(jiān)督式微調(diào),如上圖中間部分所示。此階段的目的是增強(qiáng) LLaDA 遵循指令的能力。

頂部是包含提示詞和響應(yīng)的樣本。我們希望訓(xùn)練模型根據(jù)提示詞生成響應(yīng)。與預(yù)訓(xùn)練類似,我們隨機(jī)掩碼樣本中的部分 token,但此次僅掩碼響應(yīng)部分的 token,保留提示詞完整。隨后,我們將提示詞和部分被掩碼的響應(yīng)輸入 mask predictor,以恢復(fù)響應(yīng)中被掩碼的 token。此過程與預(yù)訓(xùn)練階段非常相似,區(qū)別在于此過程僅掩碼樣本的響應(yīng)部分。

訓(xùn)練過程的掩碼比例(決定多少 token 被掩碼)對(duì)每個(gè)樣本都是隨機(jī)的。這意味著在訓(xùn)練過程中,模型會(huì)接觸到幾乎未掩碼的樣本和高度掩碼的樣本。

在這一階段,研究人員使用了 450 萬樣本訓(xùn)練 LLaDA。由于樣本長度不一致,因此研究人員使用特殊的序列結(jié)束 tokens 填充樣本。通過這種方式,模型就能在人類設(shè)置的固定長度的(artificial fixed-length)輸入上進(jìn)行訓(xùn)練,并能預(yù)測(cè)序列結(jié)束 tokens,從而終止生成過程。

4.3 推理階段:LLaDA 如何生成文本

了解完 LLaDA 的訓(xùn)練方式后,接下來讓我們回顧一下上圖右側(cè)所示的推理過程。

給定提示詞后,會(huì)創(chuàng)建包含完整提示詞和被完全掩碼的響應(yīng)的樣本。然后通過稱為逆向擴(kuò)散過程(reverse diffusion process)的迭代流程,逐步解除響應(yīng)部分的掩碼。每次迭代開始時(shí),我們會(huì)得到一個(gè)包含完整提示詞和被部分掩碼的響應(yīng)的序列。將其輸入 mask predictor 后,它會(huì)預(yù)測(cè)出所有被掩碼的 token。然而,部分預(yù)測(cè)出的 token 會(huì)被重新掩碼,因此響應(yīng)仍保持部分掩碼狀態(tài),直到最后一次迭代,我們才會(huì)獲得完整響應(yīng)。

4.4 推理期間的重新掩碼策略

迭代次數(shù)是模型的超參數(shù),需要在計(jì)算成本與生成質(zhì)量間權(quán)衡(更多迭代次數(shù)可提升生成質(zhì)量)。在每次迭代中,重新掩碼的 token 數(shù)量基于總迭代次數(shù)。但如何決定哪些 token 需要重新掩碼?研究者未采用隨機(jī)方法,而是使用了兩種更有效的策略:

  1. 低置信度重新掩碼(Low-confidence remasking)—— 此方法中,預(yù)測(cè)置信度最低的 token 會(huì)被重新掩碼。對(duì)于每個(gè) token,mask predictor 都會(huì)從詞表中選擇概率最高的 token 作為預(yù)測(cè)結(jié)果。此處的最高概率代表 token 預(yù)測(cè)的置信度,反映模型對(duì)此 token 相較于其他選項(xiàng)的正確性確定程度。
  2. 半自回歸重新掩碼(Semi-autoregressive remasking)—— 響應(yīng)長度可能因提示詞而異。對(duì)于需要簡短回答的提示詞,大部分響應(yīng)內(nèi)容可能是序列結(jié)束標(biāo)記。為避免生成過多高置信度的序列結(jié)束標(biāo)記,會(huì)將待生成的響應(yīng)劃分為多個(gè)區(qū)塊,并按從左到右順序依次處理。在每個(gè)區(qū)塊內(nèi)部應(yīng)用逆向擴(kuò)散過程進(jìn)行采樣。

05 LLaDA Results

5.1 Benchmark Results

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

LLaDA 與 LLaMA 模型對(duì)比(Source[1])

在上圖中,我們對(duì)比了 8B 參數(shù)的 LLaDA 基礎(chǔ)模型與規(guī)模相近的 LLaMA 3 和 LLaMA 2 在多項(xiàng)任務(wù)上的表現(xiàn)。使用紅色標(biāo)注的 LLaDA 明顯優(yōu)于使用藍(lán)色標(biāo)注的 LLaMA 2,并與使用紫色標(biāo)注的 LLaMA 3 表現(xiàn)相當(dāng),甚至在部分任務(wù)上優(yōu)于 LLaMA 3。

圖中結(jié)果為各模型基礎(chǔ)版本的測(cè)試結(jié)果。未在此圖表展示的經(jīng)過指令調(diào)優(yōu)的模型性能對(duì)比中,LLaMA 3 更具優(yōu)勢(shì)。但需注意,指令調(diào)優(yōu)版 LLaMA 3 在預(yù)訓(xùn)練階段后既進(jìn)行了監(jiān)督式微調(diào)也進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練,而指令調(diào)優(yōu)版 LLaDA 僅在預(yù)訓(xùn)練階段后進(jìn)行了監(jiān)督式微調(diào)。

5.2 LLaDA 在不同規(guī)模下的性能擴(kuò)展規(guī)律(LLaDA Scaling Trends)

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

LLaDA 在語言任務(wù)上的性能擴(kuò)展規(guī)律(Source[1])

論文中另一張有趣的圖表展示了 LLaDA 在語言任務(wù)上的擴(kuò)展能力。研究人員以不同訓(xùn)練計(jì)算資源(x 軸顯示)訓(xùn)練了規(guī)模相近的 LLaDA 和自回歸基線模型(autoregressive baselines)。每張子圖代表不同任務(wù),y 軸顯示模型性能。LLaDA 展現(xiàn)出強(qiáng)大的擴(kuò)展能力,與自回歸基線模型競(jìng)爭(zhēng)力相當(dāng)。 在數(shù)學(xué)數(shù)據(jù)集 GSM8K 上,LLaDA 的擴(kuò)展優(yōu)勢(shì)尤為顯著;而在推理數(shù)據(jù)集 PIQA 上,LLaDA 稍落后于自回歸模型,但隨著浮點(diǎn)運(yùn)算量(FLOPs)的增加,差距逐漸縮小。

5.3 打破「逆向詛咒」

能否將擴(kuò)散模型思想應(yīng)用于 LLMs 領(lǐng)域?大型語言擴(kuò)散模型(LLDM)詳解-AI.x社區(qū)

詩歌補(bǔ)全任務(wù)上的模型性能對(duì)比(Source[1])

上表展示了詩歌補(bǔ)全任務(wù)上的模型性能對(duì)比。該任務(wù)要求模型根據(jù)給定詩句生成下一句(正向任務(wù))或前一句(逆向任務(wù))。觀察 GPT-4o 的表現(xiàn),其在正向任務(wù)中的性能顯著優(yōu)于逆向任務(wù),這是自回歸訓(xùn)練固有的局限性。LLaDA 則在此取得突破,在正向和逆向任務(wù)中表現(xiàn)更均衡,并在逆向任務(wù)中超越 GPT-4o 和 Qwen 2.5。大型語言擴(kuò)散模型在更大規(guī)模的模型訓(xùn)練中表現(xiàn)如何,讓我們拭目以待!

06 結(jié)語:語言模型迎來新時(shí)代?

LLaDA 通過將擴(kuò)散模型應(yīng)用于文本生成任務(wù),掀起了語言建模的范式轉(zhuǎn)變。其雙向推理能力與強(qiáng)大的擴(kuò)展性,向傳統(tǒng)的自回歸模型發(fā)起了挑戰(zhàn)。雖然該模型尚處探索初期,但這場(chǎng)技術(shù)躍遷或?qū)⒍x AI 發(fā)展的下一程,未來可期。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

About the author

AI Papers Academy

At AI Papers Academy, we simplify AI research papers and concepts, making AI more accessible.
Our goal is to save you time by breaking down complex ideas into clear, digestible insights.

END

本期互動(dòng)內(nèi)容 ??

?有人認(rèn)為擴(kuò)散模型對(duì)文本生成是‘殺雞用牛刀’,你同意嗎?為什么?

??文中鏈接??

[1]??https://arxiv.org/abs/2502.09992??

[2]??https://developer.nvidia.com/blog/improving-diffusion-models-as-an-alternative-to-gans-part-1/??

原文鏈接:

??https://aipapersacademy.com/large-language-diffusion-models/??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 久久精品一区二区三区四区 | 网络毛片| 欧美福利 | 日韩精品一区在线观看 | 黄色国产大片 | 天天干,夜夜操 | 可以在线看的黄色网址 | 成人免费视频网站在线看 | 天堂一区在线观看 | 国产高清在线精品一区二区三区 | 免费视频二区 | 日韩欧美一区二区三区免费观看 | 久久久久国产精品一区二区 | 日韩欧美在线不卡 | a级大毛片 | 亚洲国产精品99久久久久久久久 | 成人亚洲 | 91精品久久久 | 国产精品综合视频 | 久久精品aaa | 国产精品久久久 | 一区二区三区中文字幕 | 在线免费看黄 | 一级片av | 日韩av啪啪网站大全免费观看 | 国产色婷婷精品综合在线手机播放 | 日本不卡一区 | 国产精品1区| 国产精品综合一区二区 | 91tv在线观看 | 欧美福利网站 | www.国产精 | xx性欧美肥妇精品久久久久久 | 久久久久中文字幕 | 国产精品久久在线 | 天天干夜夜操 | 国外成人在线视频网站 | 大乳boobs巨大吃奶挤奶 | 综合二区 | 91精品国产乱码久久久久久久久 | 精品日韩一区二区 |