人大劉勇團隊「慢思考」機理分析：從雪球誤差到正確推理概率

作者：機器之心 2025-02-10 14:10:00

本文主要關注外部慢思考。在面對復雜問題時，人類往往會花費額外的時間思考和完善推理的中間過程，以提高準確性。

在大語言模型（LLMs）的發展歷程中， Scaling Laws [1] 一直是推動性能提升的核心策略。研究表明，隨著模型規模和訓練數據的增長，LLMs 的表現會不斷優化 [2]。然而，隨著訓練階段規模的進一步擴大，性能提升的邊際收益逐漸減小，訓練更強大的模型需要巨額投入。因此，研究重點逐漸從訓練階段的擴展轉向推理階段的擴展 [3]，探索在不增加模型參數量的情況下，如何提升推理質量。

「慢思考」（Slow-Thinking），也被稱為測試時擴展（Test-Time Scaling），成為提升 LLM 推理能力的新方向。近年來，OpenAI 的 o1 [4]、DeepSeek 的 R1 [5] 以及 Qwen 的 QwQ [6] 等頂尖推理大模型的發布，進一步印證了推理過程的擴展是優化 LLM 邏輯能力的有效路徑。研究發現，增加推理時間能夠顯著提升 LLM 的推理質量 [7]，這一發現推動了對「慢思考」方法的深入研究。

「慢思考」主要可以分為內部慢思考（Internal Slow-Thinking）和外部慢思考（External Slow-Thinking）兩種方式：

內部慢思考：通過額外的訓練，使模型在專門的推理任務上優化參數，提升自身的推理深度和輸出質量。
外部慢思考：不改變模型本身，而是增加計算開銷，例如通過多次采樣、重新生成答案等方式延長推理過程，從而提高推理的準確性和可靠性。

本文主要關注外部慢思考。在面對復雜問題時，人類往往會花費額外的時間思考和完善推理的中間過程，以提高準確性。外部慢思考受這一認知過程的啟發，通過增加推理步驟來提升大語言模型的推理質量 [8]。例如，BoN（Best-of-N）方法會生成多個答案，并通過多數投票或排序等策略選出最優解 [9]。此外，更前沿的框架如思維鏈（CoT）[10]、思維樹（ToT）[11] 以及借鑒 AlphaGo [12] 蒙特卡洛樹搜索（MCTS）的方法，能夠在樹狀結構中探索解答空間，尋找更優的答案 [13-14]。

然而，盡管外部慢思考方法展現出提升推理質量的潛力，但仍面臨兩大核心挑戰：

缺乏理論支撐：目前，我們對這些方法為何有效的理解仍然有限，這阻礙了更先進策略的設計。
計算資源需求高：復雜的慢思考技術往往需要大量計算資源，且優化設計參數的難度較大，導致實際應用中的表現不盡如人意。

針對這些挑戰，研究者提出了一種基于信息論的系統性框架，建立外部慢思考方法與 LLM 生成正確推理的概率之間的聯系。隨著「慢思考」方法的深入探索，LLM 發展新的轉折點正在到來。未來，大模型的推理能力優化不再局限于擴大模型規模，而是通過優化推理過程，實現更智能、更精準的邏輯推理。本研究將深入剖析外部慢思考策略的理論基礎、機制解析以及其對 LLM 推理能力的影響，為人工智能推理能力的進一步突破提供新的方向。

論文標題：Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
論文鏈接：http://arxiv.org/abs/2501.15602

此工作主要作出了如下貢獻：

分析了 LLM 推理過程中的雪球誤差效應，并證明該效應會導致推理錯誤概率隨推理路徑的增長而上升，強調了慢思考策略在減少錯誤中的關鍵作用。
提出了一種基于信息論的系統性框架，建立外部慢思考方法與推理正確概率之間的數學聯系，為理解慢思考策略的有效性提供理論支撐。
對比了不同的外部慢思考方法，包括 BoN 和 MCTS 等，揭示它們在推理能力提升方面的差異與內在聯系。

1 大模型推理過程中的「雪球誤差」

想象一下，在冬天的雪地上滾動一個雪球。隨著滾動的距離增加，雪球會以越來越快的速度變大，這就是雪球效應（Snowball Effect）—— 小的變化會隨著時間推移不斷累積，最終帶來顯著影響。

在大規模語言模型（LLMs）中，這一效應最初體現在自回歸式（Auto-Regressive）的 Next-Token Prediction（NTP）任務中，微小的 token 級錯誤會不斷累積，最終導致模型生成的答案偏離預期的正確答案 [15]。然而，在更復雜的推理任務中，這種錯誤不再僅限于 token 級，而是擴展到句子級，使得推理偏差更加難以衡量和控制。

為什么推理偏差會逐步放大？

研究表明，LLM 的推理過程可以看作是逐步執行一系列原始任務（Primitive Tasks）[16]，每一步的推理結果都依賴于前面的輸出。因此，任何早期的微小誤差都會在推理鏈條中不斷放大，最終導致模型偏離正確答案。

為了更直觀地理解這一現象，研究者借助柏拉圖的「洞穴寓言」（Plato’s Allegory of the Cave）。在這個寓言中，人們只能看到投射在墻上的影子，而無法直接感知真實世界，類似于 LLM 只能從訓練數據中學習世界的「投影」。如圖 1 (a) 所示，訓練數據只是現實世界的映射，而 LLM 生成的推理結果正如圖 1 (b) 所示，僅是其內部推理過程的「影子」。

圖表 1: 大模型推理過程的柏拉圖假設

換句話說，模型的推理輸出并非直接反映其思維過程，而是受限于它從訓練數據中學到的模式和誤差，導致滾雪球效應的持續累積。

例如：在 LLM 執行數學推理任務時，例如解答「計算 3x + 2y」，模型并不是直接給出答案，而是隱式地執行一系列推理步驟：

t?: 計算 3x → t?: 計算 2y → t?: 將 3x 和 2y 相加。

然而，這些推理步驟是抽象的、不可直接觀察的，模型的最終輸出是這些推理過程的不同表達方式。例如，輸出序列 r? → r? → r? 可能有多種不同的表達形式，但它們并不一定能完全還原對應的推理步驟 t? → t? → t?。

由于單個輸出 r_l 無法完全表達對應的推理步驟 t_l，即使初始誤差微小，也會隨著推理鏈條的延續逐步放大，最終導致嚴重的推理偏差。這種誤差的積累，正是雪球效應在推理任務中的典型體現。

在 LLM 推理過程中，雪球誤差會導致模型的推理結果逐步偏離正確答案。為了精準衡量這一誤差，本研究引入互信息（Mutual Information, MI）這一數學工具，來量化隱式推理序列 t 與最終生成的回復序列 r 之間的共享信息量，記作 I (t; r)。這一度量幫助評估模型在推理過程中能夠保留多少關鍵信息。

具體而言，在每個推理步驟中，模型的輸出可能存在細微偏差，這些誤差會逐步累積并導致信息損失。研究者將信息損失定義為互信息 I (t; r) 與隱式推理過程的信息熵 H (t) 之間的差值：

而最終的雪球誤差則可以定義為在所有推理步驟上信息損失的累積：

2 從「雪球誤差」到推理錯誤的概率

在 LLM 的推理過程中，推理路徑越長，雪球誤差就會不斷累積，最終導致嚴重的事實偏差，研究者將其定義為推理錯誤（Reasoning Errors）。

如何衡量推理錯誤？

為了準確評估推理錯誤，研究者首先需要清晰地定義它。由于每個輸出 r_l 代表隱式推理步驟 t_l，研究者通過檢查是否存在一個足夠強大的映射函數 f 來從 r_l 還原 t_l。如果這種還原能力較弱，說明推理過程中信息損失較大，進而導致了推理錯誤的發生。具體而言，研究者將「推理錯誤」這一事件刻畫如下：

為了更準確地估計 LLM 發生推理錯誤的概率，本研究提出使用信息論方法，建立雪球誤差與推理錯誤發生概率之間的數學聯系。研究者從一個關鍵引理出發，通過理論推導揭示滾雪球誤差如何逐步積累，并最終影響模型的推理準確性。

基于此引理，研究者可以推導出推理錯誤發生概率的下界：

此定理表明，在推理的第 l 步，錯誤概率的下界受累積信息損失 H_(<l) (t|r) 影響，由于其累加的定義，這一損失至少會隨推理步數 l 線性增長。

當雪球效應出現時，累積信息損失可能超過線性增長，導致推理錯誤概率隨推理路徑的增加而快速上升。換句話說，推理鏈條越長，模型出錯的可能性越大，這解釋了 LLM 在長鏈推理任務中為何容易出現偏差。

圖表 2: 不同 LLM 在 GSM8k 數據集上生成回復的估計互信息（MI）和獎勵分數

為了實證驗證 LLM 推理中的雪球誤差效應，本研究基于 GSM8k 數據集進行實驗，并測試了三款先進的推理 LLMs：Llama3.1-8B-Instruct、Qwen2.5-7B-Instruct以及 Skywork-o1-Open-Llama-3.1-8B。

研究者計算了互信息 I (t; r) 在所有 token 上的平均值，并分析其隨推理路徑長度 L 的變化，同時評估生成結果的獎勵分數（reward），結果如圖表 2 所示。實驗結果表明：

互信息呈負指數級下降，比線性衰減更快，隨著推理步數 L 的增長，信息損失迅速累積；
由于計算的是平均互信息，推理鏈條靠后的 token 可能損失更多關鍵信息；
獎勵分數隨推理長度增加而下降，進一步驗證了雪球誤差對 LLM 生成質量的影響。

這一實驗結果不僅驗證了雪球誤差的存在，也表明信息損失的累積速度遠超線性衰減，直接影響 LLM 生成的推理質量。這一發現與研究者的理論分析一致。

3 外部慢思考中的正確推理概率

先前的分析表明，推理錯誤概率 P (e_l) 隨著推理步數 l 的增加而上升。然而，在實際應用中，推理錯誤通常體現在模型生成結果的獎勵分數（reward） 上。因此，本文進一步擴展至現實場景，探討外部慢思考方法為何有效。

3.1 何為正確推理

研究者首先定義 LLM 在現實場景中的推理過程。對于一個問題 r_0，模型會通過自回歸方式生成一個包含 L 個推理步驟的響應序列：R = [r_1,r_2,…,r_L]。

為了評估每一步推理 r_l 的質量，研究者引入一個價值函數 φ，用于衡量每個步驟的正確性 φ(r_l) 。在實際應用中，這一評估可以通過人類反饋或獎勵模型來實現。此外，研究者假設每個推理步驟都有一個標準答案 r_l^*，代表 LLM 應該生成的最準確答案，與人類理想推理方式保持一致。

基于上述設定，研究者利用價值函數 φ 評估推理步驟的正確性，并據此量化 LLM 生成回復的質量。具體而言，研究者分別將單步推理和整個推理過程的正確性定義如下：

3.2 正確推理的概率

實驗結果（圖表 2）表明，平均互信息會隨推理步數呈近似指數級下降，這意味著雪球誤差隨著推理長度的增加呈指數級增長。然而，由于概率值不能超過 1，研究者基于定理 3.3 提出一個假設：在實際應用中，推理錯誤的概率可能遵循指數衰減函數，即：P (e_l) = 1 -λe^(-l)，這一假設使得后續分析更加直觀，并進一步幫助推導在第 l 層生成正確推理步驟的概率：

由此假設，研究者推導出在雪球誤差存在時，最終得到一個正確的完整推理過程的概率：

3.3 外部慢思考提升推理質量的機理

基于前面的分析，研究者首先直觀上得出這樣的結論：由于 LLM 生成的隨機性，外部慢思考方法的核心目標是引入額外的推理步驟并結合多次重新采樣策略，從而對沖雪球誤差，進而提高模型生成結果的正確性。

接下來，研究者利用理論分析進一步詳細闡述這一觀點。首先，外部慢思考方法從根本上來說主要具有兩個特點：

寬度擴展（Width-Expansion）：
對于長度一定的推理序列，大多數外部慢思考方法都試圖擴展推理空間的寬度。
這可以通過簡單的重新生成（BoN、CoT-SC）或更復雜的樹搜索方法（ToT、MCTS）來實現。
生成 & 選擇（Generation & Selection）：
擴展推理空間后，還需要從多個候選推理路徑中選出最優解。
設 Pr (τ_generate) 為生成正確推理的概率，Pr (τ_select) 為從候選路徑中選出正確推理的概率，則最終獲得正確推理結果的概率可表示為：Pr [ψ(R)≤τ ]= Pr (τ_generate )× Pr (τ_select )。

外部慢思考通過擴展推理空間來提升 LLM 生成正確答案的概率 Pr (τ_generate)，但與此同時，額外的推理步驟也會增加選擇最優推理路徑的難度，從而降低 Pr (τ_select)。這意味著，在提升推理正確性的同時，也帶來了更復雜的決策挑戰。

如何量化這種權衡？

為了更直觀地分析這一現象，研究者以 Beam Search 作為基準的寬度擴展策略。Beam Search 廣泛應用于樹搜索算法，其核心機制如下：

在每一層推理，生成 k 個子節點以擴展搜索樹的寬度；
僅保留 b 個最優候選解，以減少計算復雜度。

研究者將分析結果形式化為一個數學引理，進一步揭示了推理空間擴展與最優路徑選擇之間的平衡關系。

基于推理過程的基本假設，這一概率上界可以被進一步簡化為：

引理 4.5 和定理 4.6 闡述了外部慢思考技術的本質機理并支撐了如下結論：

獲得正確推理的概率主要受以下三個關鍵因素影響：

每層生成的候選數 k ：決定了推理空間的擴展寬度；
每層篩選的最優候選數 b ：影響正確推理路徑的選擇精度；
正確性閾值 τ ：衡量推理結果的質量要求。

寬度擴展 vs. 選擇可靠性：如何找到平衡？

Pr (τ_select) （選擇正確推理的概率）依賴于價值函數的可靠性，即 ?_b 相關的參數。
Pr (τ_generate) （生成正確推理的概率）受推理路徑長度 L 和擴展寬度 k 影響。
通過增加推理步驟，可以提升生成正確推理的概率，但同時會引入額外的選擇代價，增加錯誤概率。

慢思考方法的關鍵優化條件

對比引理 4.4 和定理 4.6 發現，慢思考方法是否有效，還取決于價值函數的可靠性。為了保證推理準確率的上限得到提升，價值函數的可靠性必須滿足：。

通過上述分析，研究者總結了外部慢思考方法的核心機制。通過增加推理路徑的搜索范圍，這些方法提高了生成正確答案的概率，有效減少雪球誤差的累積。同時其效果極大依賴于所使用的價值函數的可靠性，這一因素直接影響整個方法的最終表現。

4 外部慢思考方法間的對比

接下來，研究者將對比簡單和復雜的外部慢思考框架之間的核心區別，并以著名的 BoN 和 MCTS 為例進行分析。

4.1 BoN 與 MCTS 框架下的正確推理概率

對于 BoN 來說，研究者很方便地將其建模為進行 N 次長度為 L 的推理，并最終在 N 個答案中選擇一次的過程。因此，BoN 的正確推理概率上界為：

對于 MCTS（RAP 模式），由于其機制較為復雜，研究者考慮其最好和最壞的情況。在最好的情況下，MCTS 的每次節點擴展時都發生在最深的葉子節點上，則它退化成了一個采樣寬度和保留寬度都為 b 的 Beam Search。

而在最差情況，MCTS 需要遍歷所有可能的節點，從而形成一棵完全 b - 叉樹。

4.2 對比 BoN 與 MCTS 的總推理代價

可以看出，MCTS 由于需要調用更多次的選擇過程，一般會比 BoN 對于價值函數有更高的敏感性。除此之外，在假設價值函數完美（?_b=1）的情況下，研究者對齊概率上界中的其余部分，可以計算出當 BoN 和 MCTS 具有相當的正確推理概率上界時，所需要具備的總推理代價的規模，如圖表 3 所示。

圖表 3: 相同推理正確概率下 BoN 與 MCTS 總推理代價規模對比

結果表明，當 BoN 與 MCTS 在推理正確率上相當時，BoN 的總推理成本與 MCTS 接近。

最優情況下：BoN 與 MCTS 的推理成本趨近相等；
最差情況下：當推理步數 L 較小時，BoN 的成本可能略高于 MCTS，但仍保持在合理范圍內。當 L 增加，BoN 的推理成本甚至可能低于 MCTS。

這一結論表明，推理成本是決定減少雪球誤差效果的關鍵因素，而具體采用哪種慢思考框架（如 BoN 或 MCTS）對最終結果的影響理論上可能是較小的。

4.3 實驗驗證

在 GSM8k 和 PrOntoQA 兩個推理任務上，實證對比了 BoN 和 MCTS 的推理準確性。研究者采用 [14] 推薦的 MCTS 優化配置，并計算相應的 N 值，使 BoN 的推理成本與 MCTS 盡可能接近。由于兩種方法生成推理路徑的方式不同，完全對齊并不現實，因此研究者定義合理的 N 值區間：

N 合理范圍的下界與上界：

N ?_res ：對齊推理步數的 N 值
N ?_call ：對齊 LLM 調用次數的 N 值

研究者測試了 BoN 的三種選擇策略：

Self-Consistency（自洽性選擇）
ORM Vote（基于獎勵模型的投票選擇）
ORM Max（基于獎勵模型的最大值選擇）

實驗結果如圖表 4 所示。

圖表 4: GSM8k 和 PrOntoQA 上 BoN 與 MCTS 的準確性對比

研究者可以得出如下結論：

不同任務下的 BoN 表現

PrOntoQA（二分類任務：True/False）：
由于答案固定，增加 N 并不會提升 Self-Consistency 策略下的 BoN 性能，除非引入獎勵模型。
GSM8k（多步推理任務）：
由于答案多樣，增加 N 即使在沒有獎勵模型的情況下，也能提升 BoN 的性能。

BoN 與 MCTS 的關鍵對比

ORM Vote & ORM Max 策略（結合獎勵模型）：當 N 在 N ?_res 和 N ?_call 之間時，BoN 能夠達到與 MCTS 相當的推理性能；
N 接近 N ?_res 時，BoN 略低于 MCTS，但差距不大；
N 取更大值時，BoN 能夠匹敵甚至超越 MCTS，進一步驗證了 MCTS 在 LLM 推理中的局限性，并支持研究者的理論分析。

本實驗表明，在合理的 N 值范圍內，BoN 通過適當調整推理寬度，可以達到甚至超越 MCTS 的推理效果，這與研究者的理論分析一致。

5 小結

本研究分析了外部慢思考方法的有效性機制，并通過信息論建立了 LLM 推理中的雪球誤差與推理錯誤之間的聯系。研究表明，外部慢思考方法通過擴展推理空間可以減少推理錯誤，但同時增加了推理成本，需要在正確性和計算開銷之間權衡。

對比 BoN 和 MCTS 等方法后，研究者發現影響其有效性的核心因素是獎勵函數的能力和推理總成本，而具體的搜索框架影響較小。因此，優化獎勵函數和提升策略模型的推理能力是未來改進外部慢思考方法的關鍵方向。

責任編輯：張燕妮來源：機器之心

模型數據訓練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看