與Gemini Diffusion共振！首個擴散式「發(fā)散思維鏈」來了

2025-05-27 09:00:00

這篇文章介紹了由西湖大學 MAPLE 實驗室提出的一種全新的大模型推理范式，擴散式「發(fā)散思維鏈」。

近年來，思維鏈在大模型訓練和推理中愈發(fā)重要。近日，西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式「發(fā)散思維鏈」—— 一種面向擴散語言模型的新型大模型推理范式。該方法將反向擴散過程中的每一步中間結果都看作大模型的一個「思考」步驟，然后利用基于結果的強化學習去優(yōu)化整個生成軌跡，最大化模型最終答案的正確率。不同于始終單向推理、線性生成的傳統(tǒng)思維鏈（CoT），擴散式「發(fā)散思維鏈」允許模型以任意順序非線性生成，且在生成過程中無需嚴格遵從語法結構和可讀性要求，能夠鼓勵模型以更加發(fā)散、創(chuàng)造性的方法開展推理。

擴散式「發(fā)散思維鏈」目前已成功應用于兩種具有代表性的擴散語言模型中。在連續(xù)時間擴散語言模型中，該方法可以直接優(yōu)化由模型輸出的得分函數所確定的策略分布；而在離散時間擴散語言模型中，團隊將預測不同掩碼 Token 的順序當作模型決策的一部分，并基于 Plackett-Luce 模型設計去掩碼策略。據此，團隊成功訓練有序掩碼生成擴散語言模型（Large Language Diffusion with Ordered Unmasking, LLaDOU）。實驗表明，僅用公開數據集和 16 張 H800，經擴散式「發(fā)散思維鏈」增強后的模型即可在數學推理和代碼生成任務上超越現有擴散語言模型。

擴散式「發(fā)散思維鏈」對基礎大模型的訓練與推理給出了重要啟示：傳統(tǒng)的自回歸思維鏈語言模型通過線性預測下一個 token 生成答案并非唯一的選擇范式。團隊的研究揭示了通過優(yōu)化 token 生成的順序進行非線性語言生成是發(fā)散式思維的重要特點，對于在生成過程中逐步構建從早期概念要素的形成、到最終連接成具有完整想法和語法結構的回答起到了關鍵作用。

相關研究成果已于 5 月 15 日公開。團隊注意在此后谷歌發(fā)布了 Gemini Diffusion 語言模型，因而期待強化「發(fā)散思維鏈」可以應用到更多的擴散語言模型上成為標準訓練過程的一部分。

論文標題：Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models
arXiv 地址：https://arxiv.org/abs/2505.10446
GitHub 地址：https://github.com/maple-research-lab/LLaDOU

背景

近期，大型語言模型的推理能力引發(fā)了學術界的高度關注。一般而言，「推理」通常是指模型在生成最終應答前所經歷的系統(tǒng)性思考過程。當前主流的大型語言模型普遍采用分步拆解問題的方法，構建一種具有因果順序的線性思維鏈條，形成所謂的「思維鏈」推理范式。

值得注意的是，人類認知過程中的思維構建機制與此存在本質差異。在構思階段，人類思維往往呈現非線性的發(fā)散特征，能夠突破既有語言框架的約束，通過非線性、跳躍性的方式自發(fā)生成概念原型、詞匯單元及初始設想。隨著認知加工的持續(xù)深化，這些離散的思維片段經歷系統(tǒng)性整合與結構化重組，最終形成邏輯連貫的完整表達體系。認知科學領域將此類思維模式定義為「發(fā)散思維」（Lateral Thinking），顯著區(qū)別于傳統(tǒng)思維鏈所采用的線性推理模式。

為模擬這一思考過程，西湖大學 MAPLE 實驗室齊國君教授團隊首次提出擴散式「發(fā)散思維鏈」這一概念。如圖所示，模型的思考過程從一段不包含任何信息的掩碼序列開始，在思考過程中，模型會逐步生成推理所需要的關鍵信息，將掩碼轉換為具有實際語義內涵的文字內容，如數字和計算過程。最終，在整個擴散去噪流程結束后，模型將生成具有連貫語義內涵且包含正確答案的文字回復。通過僅基于結果的強化學習訓練，團隊鼓勵模型探索多樣化的、創(chuàng)造性的和非線性的思維路徑，最終得出正確的答案。

擴散式「發(fā)散思維鏈」

為了建模真實文本數據的分布，擴散語言模型構建了一個從 t=0 到 t=T 的離散擴散過程，描述了在 t=0 處的一個未知的真實數據分布 p_data，是如何逐步演化為 t=T 時的一個已知的先驗分布 p_prior。而生成一段文本則通過反轉這一擴散過程來實現：首先從先驗分布 p_prior 中采樣 x_0，然后在一系列去噪時間 t_0:N 迭代去噪。在每一個去噪步驟 n 中，模型 θ 會估計時間 t_n 對應的擴散分布，并從中采樣一個中間結果 x_n。隨著 n 的增加，擴散時間 t_n 逐漸減小，直到 t_N=0 時得到最終生成結果 x_N。

在這一過程中，為了得到最終的輸出 x_N，模型天然需要生成一系列中間結果 x_1:N-1。這一過程與「思維鏈」（Chain-of-Thought, CoT）技術相似。然而，與 CoT 采用線性因果推理不同，擴散過程中的模型能夠在思考過程中自由地生成任何有助于達到正確答案的中間內容，更符合發(fā)散思維的概念 —— 即通過間接、具有探索性的方法解決問題。正因如此，團隊將由去噪過程中所有的中間結果組成的序列稱為擴散式「發(fā)散思維鏈」（Diffusion Chain of Lateral Thoughts, DCoLT），并通過強化學習算法優(yōu)化模型的這些中間擴散「推理」過程。

團隊采用基于最終結果監(jiān)督的強化學習方法：如果一條思維鏈推導出的最終答案 x_N 正確，就會予以激勵。具體而言，團隊生成整個思維鏈 x_1:N 的過程視為一個多步動作序列進行優(yōu)化。在第 n 步時，擴散模型會在所有可能的結果上定義一個輸出分布，即是模型用于采樣 x_n 的策略分布。獎勵信號 r 可以簡單地通過驗證最終生成結果的正確性得到。值得注意的是，團隊不會對推理過程的中間步驟設置任何顯式監(jiān)督，從而鼓勵模型探索多樣化、非線性的推理策略。

在下圖中，團隊以 GRPO 為例詳細闡述了算法訓練框架。類似地，其他強化學習算法也可應用于所提出的框架中。

連續(xù)時間擴散語言模型：DCoLT 強化的 SEDD

首先團隊考慮以 SEDD 為代表的連續(xù)時間擴散語言模型。這類模型通過如下線性常微分方程描述該演化過程。

其中，表示擴散過程中的瞬時轉移率矩陣，不妨首先考慮單個 token 的簡單情形。為了生成樣本，這一擴散過程存在一個對應的反向過程，其中包括一個反向轉移率矩陣。

通過歐拉法數值求解，可以計算每一步的轉移概率，進而得到用于多步生成的迭代公式。此處團隊將簡化為 x_n 以避免標記過于冗余。

在經典的離散擴散模型 SEDD 模型中，SEDD 模型通過預測，來表示各個 token 的轉移概率。因此，團隊可以將公式中的替換為模型估計的，從而確定轉移概率。

擴展到整個序列時，其轉移概率可以看作所有 token 轉移概率的累乘，即可通過以下公式計算 DCoLT 生成過程中每一步動作對應的采樣概率。

離散時間擴散語言模型：DCoLT 強化的 LLaDA

一些擴散語言模型直接在離散的時間步上執(zhí)行多步生成過程。對于這些模型，需要為每個離散步驟定義其輸出策略分布。在這其中，考慮最為常見的掩碼擴散語言模型。

以 LLaDA 模型為例：生成過程從一個完全掩碼序列開始，逐步去除掩碼直至生成最終文本。在每個生成步驟中，模型接收一個帶有掩碼的序列作為輸入，將其中部分掩碼預測為有實際含義的文本內容。在整個生成過程進行時，掩碼的數量會逐漸減少，直到模型最終輸出完整的生成序列。

據此，團隊基于 LLaDA 設計了一種有序掩碼生成擴散語言模型，LLaDOU。他們將模型在每一步的動作拆解為兩部分：首先，確定本步中需要去除的掩碼集合，記為；其次，為這一部分中的每一個掩碼預測新的值，以獲得新的序列。

要確定為哪些掩碼 token 執(zhí)行去掩碼操作，我們可以用一個得分函數對所有掩碼 token 排序。為此，團隊設計了一個「去掩碼策略模塊」（Unmask Policy Module，UPM），該模塊在當前擴散步驟 n 下，為第 i 個掩碼字符預測一個得分值。基于這些得分，團隊采用 Plackett–Luce 模型定義了一個策略，從中采樣一個由 K 個掩碼字符的列表。

具體而言，團隊首先根據預測的得分構建一個多項分布，隨后以無放回的方式依次采樣出 K 個掩碼 token，這樣，得分較高的 token 有更大的可能性被首先取出，從而使序列中的掩碼得分值更傾向滿足非遞增排序關系，即：。

令表示第 n 步之后仍然保持掩碼的 token 集合，即滿足：。那么，采樣得到某個特定的去掩碼列表的概率可由下式計算所得。

具體而言，在第 n 步去噪過程中，UPM 會取 LLaDA 中最后一層的輸出特征作為模塊輸入，為每一個 token i 預測一個得分。UPM 僅包含一層 transformer，因此對模型計算量影響很小。此外，考慮到當前的去噪步數 n 和每個 token 的掩碼狀態(tài)同樣也對去掩碼策略十分重要，團隊將這些信息作為自適應歸一化層編碼在 UPM 模塊中。為簡單起見，團隊將經 DCoLT 訓練后，包含 UPM 的整個擴散語言模型記為 LLaDOU（LLaDA with Ordered Unmasking）。整體模型結構如下圖所示：

而去掩碼的 token 集合一經確定，模型就會根據詞匯表上的輸出分布預測它們相應的 token 值，此即第二階段動作。在給定以及的情況下，生成的概率為：

綜上，從到的完整策略由這兩部分乘積共同決定：

從以上推導可以看出，某種意義上，LLaDOU 模型和基于 next token 預測的自回歸（auto-regressive) 語言模型并沒有本質區(qū)別。兩者都是在給定了 prompt 和 context 作為前綴后，去預測后續(xù)的 token。區(qū)別僅在于，自回歸模型要求預測的是緊鄰的下一個 token；而 LLaDOU 模型允許通過一個 UPM 模塊，從所有可能的后續(xù)位置，選擇一個或多個 token 進行預測。后者相對于前者更加靈活，可以根據當前生成的結果，打破語言自左到右的自然順序，在中間步驟，跳躍式地選擇合適的 token 進行生成。當然，最終生成的完整結果，仍然滿足各種語言語法結構的要求。

在同一時期，業(yè)界也推出了一些其他面向 diffusion model 的強化訓練方法，如 d1 和 MMaDA。這些方法首先采樣得到生成結果以及對應的獎勵值，然后對生成結果或問題部分再次進行隨機掩碼處理，以估算每個 token 的生成概率，用于強化訓練。這種情況下，實際采樣生成的中間過程和計算概率時的再掩碼過程并不一致，可能導致所強化的再掩碼采樣過程并不是模型真正的采樣過程。不同于這些方法，團隊直接基于采樣過程中每一步所選中的 unmask token 計算概率，據此進行強化訓練，保持訓練和采樣過程一致。同時，更重要的是，團隊注意到每步如何選擇要 unmask 的 token 也是擴散語言模型采樣的關鍵步驟。基于此，本方法將 unmask token 生成的順序也作為強化學習所優(yōu)化策略的一部分，進一步提升擴散語言模型采樣的性能。

實驗結果

團隊基于兩個具有代表性的擴散語言模型 ——SEDD 和 LLaDA 開展實驗進行驗證。

首先，團隊基于 SEDD 模型，在數獨解題和數學推理兩個任務上與其他方法展開了公平對比。DCoLT 取得了比 CoT 和 DoT 更好的實驗結果。比如在 GSM8K-Aug 數據集上，同樣是使用 SEDD 模型，DCoLT 取得了 57.0% 準確率，超越了 DoT，即使后者使用的訓練數據中帶有逐步驟的詳細 CoT 標注。

而后，團隊在 LLaDA 8B 權重的基礎上訓練 LLaDOU 模型，充分驗證了這一思考技術在數學推理和代碼生成任務上的能力。結果顯示，該技術顯著提升了模型對復雜數學邏輯問題的推理準確率，和生成代碼的測試通過率。在相關的評測基準上，LLaDOU 超越了其他擴散語言模型，取得了最好的性能。

在下圖中，團隊用不同顏色展示了同一回答中不同 token 的先后生成順序 —— 越淺的顏色代表 token 在更早的步數生成。可以看出，整個推理過程傾向于首先生成關鍵數字和計算符號，然后填充其他相關的文本內容，逐漸滿足語法約束。

在這里，團隊也以視頻形式展示了 LLaDOU 在解決數學問題的完整生成過程。

總結

這篇文章介紹了由西湖大學 MAPLE 實驗室提出的一種全新的大模型推理范式，擴散式「發(fā)散思維鏈」。該框架將反向擴散過程中的中間結果看作模型的推理過程，并將模型最終輸出結果的正確性作為獎勵開展強化學習訓練，大幅提升了大模型的推理能力，在數學推理、代碼生成等任務上取得了超越其他擴散語言模型的性能。擴散式「發(fā)散思維鏈」這一理論打破了大模型推理過程的固有范式，為復雜推理問題提供了創(chuàng)新性的方法解決方案，值得我們進一步挖掘。

責任編輯：張燕妮來源：機器之心

模型推理 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

與Gemini Diffusion共振！首個擴散式「發(fā)散思維鏈」來了

背景

擴散式「發(fā)散思維鏈」

連續(xù)時間擴散語言模型：DCoLT 強化的 SEDD

離散時間擴散語言模型：DCoLT 強化的 LLaDA

實驗結果

總結