擴散語言模型扛把子LLaDA迎來新版本,數(shù)學(xué)、代碼、對齊能力均提升
本文介紹的工作由中國人民大學(xué)高瓴人工智能學(xué)院李崇軒、文繼榮教授團隊與螞蟻集團共同完成。朱峰琪、王榕甄、聶燊是中國人民大學(xué)高瓴人工智能學(xué)院的博士生,導(dǎo)師為李崇軒副教授。
該研究基于團隊前期發(fā)布的 8B 擴散語言模型 LLaDA(國內(nèi)率先做到真正可用的擴散語言模型,是后續(xù)很多研究的主干基礎(chǔ)模型),探索了擴散語言模型的偏好對齊方法,提出了方差縮減的偏好優(yōu)化方法 VRPO,并利用 VRPO 對 LLaDA 進行了強化對齊,推出了 LLaDA 1.5。與 LLaDA 相比,LLaDA 1.5 在數(shù)學(xué)、代碼和對齊任務(wù)上取得了一致性的提升。同時,VRPO 為后續(xù)擴散語言模型的對齊提供了統(tǒng)一的框架。
近期,擴散語言模型受到廣泛關(guān)注,催生了一系列針對該領(lǐng)域的探索性研究,隨著 Gemini Diffusion 的發(fā)布,這一趨勢進一步加速。
然而,現(xiàn)有的大型擴散語言模型多采用「預(yù)訓(xùn)練 + 有監(jiān)督微調(diào)」的范式,針對擴散語言模型的強化對齊進行深入研究的工作較為有限。
強化對齊對于大語言模型的指令遵循和通用任務(wù)能力至關(guān)重要。研究團隊以直接偏好優(yōu)化(DPO)為切入點,剖析了擴散語言模型在強化對齊時面臨的關(guān)鍵問題,提出了方差縮減的偏好優(yōu)化方法,使擴散語言模型能夠?qū)崿F(xiàn)穩(wěn)定的強化對齊訓(xùn)練,這一原則也為后續(xù)擴散語言模型的對齊工作提供了理論基礎(chǔ)和實踐指南。
- 論文標(biāo)題:LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models
- 論文鏈接:https://arxiv.org/abs/2505.19223
- 項目地址:https://ml-gsai.github.io/LLaDA-1.5-Demo/
性能表現(xiàn):數(shù)學(xué)、代碼、對齊任務(wù)相比 LLaDA 取得一致性提升
相比于 LLaDA,LLaDA 1.5 在數(shù)學(xué)、代碼生成、對齊任務(wù)上取得了一致性的提升。
此外,LLaDA 1.5 是當(dāng)前最具有競爭力的擴散語言模型。與其他擴散語言模型相比,在數(shù)學(xué)任務(wù)(如 GSM8K,Math)上具有競爭性優(yōu)勢。
相比于 LLaDA,LLaDA 1.5 在指令遵循能力上的提升顯著:
上述指令給出了對模型的一系列要求:提出兩種新型補品的名字并包含關(guān)鍵詞「brand」,名稱以雙尖括號標(biāo)注,先逐詞復(fù)述請求,再給出答案。相比 LLaDA,LLaDA 1.5 遵循了全部指令。
方法介紹
該研究以直接偏好優(yōu)化(DPO)為切入點,原始 DPO 損失基于模型對給定偏好數(shù)據(jù)對的對數(shù)似然。對于掩碼擴散語言模型,難以計算精確的對數(shù)似然,使用證據(jù)下界(ELBO)近似。需要通過對時間步 t 和掩碼數(shù)據(jù) y_t 進行雙重采樣進行估計:
將 ELBO 帶入 DPO 損失的對數(shù)似然項,可以得到基于 ELBO 的 DPO 損失估計器:
其中,紅色部分為偏好估計。
在實際應(yīng)用中,采用蒙特卡洛方法近似對數(shù)似然會引入 DPO 損失的偏差和方差,影響模型的梯度估計,進而導(dǎo)致訓(xùn)練過程不穩(wěn)定,甚至影響模型對齊后的最終性能表現(xiàn)。
本研究首先證明了:蒙特卡洛估計引入的偏差和方差,可以被偏好估計器的方差限制;降低偏好估計器的方差可以分解為降低 ELBO 估計的方差,以及提高 π_θ 和 π_ref 的 ELBO 估計之間的相關(guān)性。據(jù)此,本研究提出并證明了以下方差縮減策略的有效性:
- 提高蒙特卡洛估計的采樣預(yù)算;提高采樣預(yù)算能夠降低 ELBO 估計的方差。
- 給定總采樣預(yù)算的最優(yōu)分配策略;在給定總采樣預(yù)算 n=n_t×n_(y_t) 下,當(dāng)采樣預(yù)算分配為采樣 n 個時間步、每個時間步采樣一個加噪樣本時,ELBO 估計的方差達(dá)到最小。
- 對偶采樣策略。通過增加 π_θ 和 π_ref 所使用噪聲樣本之間的相關(guān)性,能夠進一步降低梯度估計的方差。具體而言,在 ELBO 估計中,對于 π_θ 和 π_ref,應(yīng)當(dāng)共享相同的偏好數(shù)據(jù)的噪聲樣本和拒絕數(shù)據(jù)的噪聲樣本。
綜合上述策略,最終得到的方差縮減的偏好優(yōu)化方法如下右圖。對于每一個偏好數(shù)據(jù)對,在給定的采樣預(yù)算 n 下,采樣 n_t=n 個時間步,對于每個時間步采樣 1 個噪聲樣本,并在 π_θ 和 π_ref 間共享噪聲樣本,以進行高效偏好估計。
總結(jié)與展望
本研究圍繞擴散語言模型的偏好對齊任務(wù),提出了方差縮減的偏好優(yōu)化方法 VRPO,并從理論分析與實際實驗兩方面系統(tǒng)論證了該方法在有效降低梯度估計方差、提升模型對齊效果上的優(yōu)越性。基于 VRPO 優(yōu)化的 LLaDA 1.5 模型,在數(shù)學(xué)推理、代碼生成、模型對齊等多個任務(wù)上均實現(xiàn)了全面且穩(wěn)定的性能提升,驗證了方法的通用性和有效性。
本研究提出的方差縮減算法 VRPO 主要以 DPO 為分析對象,但所提出的方法具有普適性,可被推廣應(yīng)用到其他涉及 ELBO 估算或強化對齊的算法中,為擴散語言模型在強化對齊領(lǐng)域構(gòu)建了統(tǒng)一的理論與方法框架。