當異常獎勵遇上 AI 推理：一場意料之外的智力提升

作者：肆零柒 2025-06-27 02:00:00

當隨意的獎勵信號仍可以大幅提升模型性能，就得重新思考：到底RL是在學習，還是在放大某種“先驗”行為。

大家好，我是肆〇柒。今天，我們來聊 AI 領域里一個特別有意思的現象。在強化學習（RL）時，尤其是具有可驗證獎勵的強化學習（RLVR）這一分支，通常我們認為模型的獎勵信號必須和正確答案緊密相關，這樣才能有效地提升模型的推理能力。然而，最近由華盛頓大學、艾倫人工智能研究所（Allen Institute for Artificial Intelligence）和加州大學伯克利分校聯合發布的論文《Spurious Rewards: Rethinking Training Signals in RLVR》卻揭示了一個令人意外的事實：某些模型，比如 Qwen2.5-Math，在面對和正確答案相關性極低甚至呈負相關的異常獎勵信號時，其數學推理能力卻能實現顯著提升。這一發現，不僅挑戰了我們對 RLVR 的傳統認知，還為模型訓練策略的創新開辟了全新的路徑，引發了我們對 RLVR 機制的重新思考。

RLVR 在提升 LLM 數學推理能力方面已展現出顯著成效。眾多研究表明，通過 RLVR，模型能夠基于正確答案的反饋不斷優化自身推理過程，從而在諸如 MATH-500 等基準測試中取得優異成績。然而，異常獎勵現象的出現為我們提供了一個全新的視角，促使我們重新審視 RLVR 的內部運作機制。深入探究這一現象，不僅有助于我們更精準地把握模型訓練過程，還可能催生出更高效、更經濟的模型訓練方法。下面我們一起來看看。

異常獎勵的定義與分類

在 RLVR 的語境下，異常獎勵特指那些與正確答案相關性極低或呈負相關的獎勵信號。這些獎勵信號無法直接反映模型輸出的正確性，卻在某些特定條件下對模型性能的提升產生了意想不到的影響。

分類及特點

隨機獎勵 ：此類獎勵完全獨立于模型輸出，以隨機的方式賦予模型 rollout。例如，設定一個固定概率 γ，模型的每個 rollout 隨機獲得獎勵 1（概率 γ）或 0（概率 1-γ）。這種獎勵機制完全忽視模型輸出的質量與內容，僅僅依靠概率來決定獎勵的賦予。
錯誤標簽獎勵 ：基于錯誤答案的獎勵信號。可能是由于數據標注錯誤，或者故意設計的錯誤標簽，模型在訓練過程中被錯誤地引導，卻在這種 “誤導” 下意外地提升了推理能力。
格式獎勵 ：僅關注模型輸出的格式是否符合要求，而不考慮輸出內容的正確性。例如，只要模型輸出中包含至少一個非空的 \boxed{} 表達式，無論其中的答案是否正確，模型都將獲得獎勵。這種獎勵機制旨在激勵模型遵循特定的輸出格式規范。

不同類型異常獎勵對模型性能的影響

短期與長期影響 ：部分異常獎勵在訓練初期能迅速激發模型性能的顯著提升，但隨著訓練的推進，其效果可能逐漸趨于平穩；而另一些異常獎勵則可能在長期訓練過程中持續發揮作用，逐步引導模型性能的穩步提升。例如，隨機獎勵在訓練初期可能通過引入多樣性來拓寬模型的探索空間，從而快速提升性能；而在后期，模型可能會逐漸適應這種隨機性，并在此基礎上進一步優化自身的推理策略。
不同問題類型的差異 ：不同類型數學問題對模型推理能力的要求各異，異常獎勵對模型在不同類型問題上的性能影響也呈現出明顯差異。以代數問題為例，模型可能更依賴于對數學公式和規則的靈活運用，隨機獎勵在這種情況下可能有助于模型發現新的解題思路和方法；而在幾何問題中，模型可能更注重圖形的理解與空間關系的分析，格式獎勵則可能通過引導模型規范輸出幾何圖形的描述方式，從而提升其在幾何問題上的表現。

關鍵發現與實驗結果

Qwen2.5-Math 模型在異常獎勵下的卓越表現

Qwen2.5-Math-7B 模型在多種異常獎勵下的表現堪稱驚艷。在 MATH-500 基準測試中，隨機獎勵使其性能提升了 21.4%，錯誤標簽獎勵帶來了 24.6% 的提升，格式獎勵也貢獻了 16.4% 的增益，與基于真實正確答案的獎勵信號效果幾乎持平。這一結果表明，Qwen2.5-Math 模型在面對異常獎勵時，能夠積極探索并利用自身的預訓練知識和推理能力，從而實現性能的顯著提升。

在各種訓練信號下，經過150步RLVR后的MATH-500準確率從訓練過程來看，Qwen2.5-Math 模型在不同階段對異常獎勵的響應也各不相同。在訓練初期，模型可能對異常獎勵的適應性較強，能夠迅速調整自身的推理策略以獲取更高的獎勵；隨著訓練的深入，模型逐漸趨于穩定，異常獎勵的影響力相對減弱，但模型在此過程中所形成的優化后的推理策略得以保留并進一步鞏固。

模型在MATH和AMC上的表現，其訓練獎勵變化在10的窗口大小下進行了平滑處理

其他模型在異常獎勵下的表現差異

與 Qwen 模型家族相比，其他模型在相同異常獎勵下的表現則相形見絀。例如，OLMo2-7B 在隨機獎勵下的性能幾乎持平，而 Llama3.1-8B-Instruct 在錯誤標簽獎勵下性能甚至出現了下降。這主要是由于這些模型在預訓練階段所接觸的數據分布和形成的推理策略與 Qwen2.5-Math 模型存在顯著差異。

在額外的模型類別中變化的獎勵

以 Llama3 模型為例，其預訓練數據可能更側重于自然語言生成和對話任務，較少涉及數學推理相關的訓練內容。這使得 Llama3 模型在面對異常獎勵時，難以像 Qwen2.5-Math 模型那樣有效地利用獎勵信號來引導自身推理策略的優化。其在預訓練階段形成的推理策略，如基于模式匹配和模板生成的文本生產能力，在異常獎勵的作用下，無法得到有效的強化和調整，從而導致在數學推理任務上的性能提升受限甚至出現下降。

深入分析：模型預訓練差異與推理模式

Qwen2.5-Math 模型的獨特推理模式 —— 代碼推理

Qwen2.5-Math 模型具備一種獨特的推理能力 —— 代碼推理。在解決數學問題的過程中，該模型頻繁地生成 Python 代碼來輔助思考，即便在沒有實際代碼執行環境的情況下，也能通過這種方式來模擬數學運算和邏輯推理過程。這一特性使其在數學推理任務中展現出強大的優勢。

Qwen2.5-Math-7B代碼推理示例代碼推理與模型性能之間存在著緊密的關聯。實驗數據顯示，Qwen2.5-Math 模型的代碼推理頻率從 66.7% 顯著提升至 90% 以上，且在代碼推理模式下，模型答案的準確率遠高于僅使用自然語言推理的準確率。這表明，代碼推理作為一種更精確、更具邏輯性的推理方式，能夠有效地提升模型在數學問題求解中的表現。

跟蹤模型生成的包含Python代碼的MATH-500回答的百分比

為了更直觀地展示這種關系，我們可以通過下圖來觀察模型在不同獎勵信號下的推理策略轉換和細粒度性能變化。這張圖詳細展示了 Qwen2.5-Math-7B 模型在 MATH-500 測試集上，在不同訓練信號下的推理策略轉換情況。從圖中可以看到，無論是使用哪種獎勵信號，模型在訓練后都傾向于更多地使用代碼推理策略。特別是那些原本僅使用自然語言推理的問題，在訓練后大部分轉換為使用代碼推理，且這些轉換后的子集在性能上有了顯著提升。這進一步證明了代碼推理頻率的增加對模型性能提升的重要作用。

在不同訓練信號下，Qwen2.5-Math-7B 在 MATH-500 測試集上強化學習價值回歸（RLVR）前后推理策略切換及細粒度性能

通過具體的代碼示例，我們可以更直觀地理解模型的代碼推理過程。例如，在解決一個坐標轉換問題時，Qwen2.5-Math 模型首先對問題進行分析，明確轉換的目標和方法，然后逐步編寫 Python 代碼來實現坐標轉換的計算過程。最終，模型依據代碼的輸出結果得出最終答案，并以清晰的格式呈現出來。這種代碼推理過程不僅體現了模型對數學知識的深入理解和運用能力，還展示了其在邏輯推理和問題解決方面的強大潛力。

Qwen2.5-Math-7B在從MATH-500中隨機挑選的一個問題上的定性輸出示例

預訓練數據與模型推理行為的關系

模型在預訓練階段所接觸的數據分布對其推理模式和對獎勵信號的響應具有決定性的影響。Qwen2.5-Math 模型可能在預訓練過程中接觸了大量的帶有代碼輔助的數學推理示例，如數學公式推導、代碼化的數學問題解決方案等。這些數據使得模型在預訓練階段就逐漸形成了對代碼推理的偏好和能力。

追蹤MATH-500的性能以及生成答案中包含Python代碼塊的比例

Qwen2.5-Math 模型的預訓練數據可能涵蓋了豐富的數學問題類型和相應的代碼解決方案，這些數據不僅包括了數學問題的描述和正確答案，還詳細展示了如何通過編寫代碼來逐步解決這些問題的過程。在預訓練過程中，模型通過學習這些數據，逐漸掌握了代碼推理的模式和技巧，形成了將數學問題轉化為代碼邏輯并進行求解的能力。因此，在 RLVR 訓練中，即便面對異常獎勵信號，模型也能夠憑借其在預訓練階段所形成的代碼推理能力，有效地利用獎勵信號來優化自身的推理策略，從而在數學推理任務中取得優異的性能表現。

RLVR 機制的重新審視

異常獎勵信號激發模型潛在能力的假設與分析

基于實驗觀察，我們提出假設：在 RLVR 訓練過程中，當缺乏有效的獎勵信號時，模型可能會通過某種機制激發并利用其在預訓練階段習得的潛在推理表示。對于 Qwen2.5-Math 模型而言，異常獎勵信號可能促使模型更加頻繁地探索和利用其預訓練階段形成的高概率行為模式，例如代碼推理，從而間接提升其性能。

從模型訓練動態的角度來看，獎勵信號在很大程度上影響著模型對不同推理策略的選擇和強化。在正常情況下，基于正確答案的獎勵信號會引導模型朝著更接近正確解的方向優化自身的推理策略。然而，在異常獎勵的情況下，模型無法依賴于準確的獎勵反饋來判斷自身輸出的正確性。此時，模型可能會更多地依賴于其預訓練階段所形成的內部知識和推理模式，通過不斷嘗試不同的推理策略來探索能夠獲取更高獎勵的路徑。對于 Qwen2.5-Math 模型來說，其在預訓練階段形成的代碼推理能力在這種情況下成為了其探索的優勢所在，模型會傾向于更頻繁地使用代碼推理來解決問題，即使這些代碼推理的答案并非完全正確，但在某些情況下卻能夠意外地獲得較高的獎勵，從而促使模型進一步強化這種推理策略。

優化算法在異常獎勵中的作用 —— 以 GRPO 為例

GRPO 算法作為 RLVR 中的關鍵優化方法，在模型訓練過程中發揮著至關重要的作用。其核心思想是通過對策略模型的更新，最大化模型在長期收益上的表現。在 GRPO 算法中，裁剪機制是一項關鍵的技術手段，它通過限制策略更新的范圍，防止模型參數過度偏離初始分布，從而保證了訓練過程的穩定性和模型性能的逐步提升。

在隨機獎勵等異常情況下，GRPO 算法的裁剪機制依然能夠為模型提供有意義的訓練信號。具體來說，當模型的 rollout 獲得獎勵時，無論是基于正確答案還是隨機賦予的獎勵，GRPO 算法都會根據當前策略模型的參數和 rollout 的優勢函數來計算梯度更新。裁剪機制在此過程中起到了限制梯度更新幅度的作用，確保模型參數在每次更新時不會發生劇烈變化。這種穩定的更新方式使得模型能夠在隨機獎勵的環境下，依然沿著一定的方向逐步調整自身參數，從而在一定程度上利用其預訓練階段形成的潛在能力。

使用不同概率γ ∈ {0.7, 0.5, 0.3, 0.001, 0}的隨機獎勵的GRPO來訓練Qwen2.5-Math-7B

為了更直觀地展示裁剪機制的作用，我們可以通過下圖來觀察在 RLVR 訓練中，使用復合獎勵（即原始獎勵與禁止 Python 代碼的獎勵相結合）時，模型在 MATH 和 AMC 基準測試中的表現。這張圖詳細展示了當原始獎勵與禁止 Python 代碼的獎勵相結合時，模型在不同基準測試中的性能變化。從圖中可以看到，裁剪機制在復合獎勵的情況下對模型性能有顯著影響。當裁剪機制被禁用時，模型的性能提升不明顯，甚至在某些情況下會出現下降；而當裁剪機制被啟用時，模型的性能顯著提升，尤其是在 MATH 基準測試中。這進一步證明了裁剪機制在異常獎勵中的重要作用。

RLVR采用復合獎勵機制，將（i）原有的獎勵與（ii）無Python獎勵相結合。無Python獎勵僅對不含Python代碼的回答給予獎勵

GRPO 算法的梯度更新公式及其在隨機獎勵下的表現

GRPO 算法的梯度更新公式如下：

在Qwen2.5-Math-7B中，移除剪枝項后GRPO的性能和代碼推理頻率

簡化的 GRPO 算法偽代碼示例

以下是簡化的 GRPO 算法偽代碼片段，用于幫助讀者更直觀地理解其在隨機獎勵情況下的訓練過程：

# 簡化的 GRPO 算法偽代碼片段
for epoch in range(num_epochs):
    for prompt in prompts:
        # 生成模型輸出
        outputs = model.generate(prompt)
        # 計算隨機獎勵
        rewards = np.random.choice([0, 1], size=len(outputs))
        # 計算優勢函數
        advantages = compute_advantages(rewards)
        # 更新模型參數
        model.update_with_grpo(outputs, advantages, clip_range=epsilon_clip)

在這個偽代碼中，模型首先根據給定的提示生成輸出，然后為每個輸出賦予隨機獎勵。接著，計算每個輸出的優勢函數值，該值反映了輸出在當前策略下的相對優勢。最后，模型根據這些獎勵和優勢函數值，結合裁剪機制來更新自身的參數。盡管獎勵是隨機的，但裁剪機制確保了模型參數的更新不會過于劇烈，從而使模型能夠在一定程度上利用其預訓練階段形成的能力。

實驗驗證與進一步探討

針對代碼推理的干預實驗

提示工程的具體操作與效果

為了驗證代碼推理頻率提升對 Qwen2.5-Math 模型性能的提升作用，研究人員設計了提示工程實驗。在實驗中，通過在問題提示中添加 “讓我們用 Python 來解決這個問題” 等引導性語句，激發模型的代碼推理能力。

具體來說，實驗人員精心設計了一系列包含引導性語句的提示模板。例如，在一個數學問題提示前加上 “為了準確求解這個問題，我們可以借助 Python 代碼來逐步計算，首先我們需要……”，以此引導模型在思考過程中主動運用 Python 代碼進行推理。這些提示模板被應用于模型輸入，使模型在處理問題時更容易進入代碼推理模式。

實驗結果顯示，這一提示工程對 Qwen2.5-Math 模型的性能提升效果顯著。以 Qwen2.5-Math-7B 為例，其性能從 52.6% 提升至 64.4%，提升了 11.8%。這一結果有力地證明了代碼推理頻率的增加與模型性能提升之間存在著密切的因果關系。

在將提示詞擴展以激勵代碼推理后，模型在MATH-500上的表現。在本實驗中，強制模型生成的第一句話為“讓我們用Python來解決這個問題。”當應用于具有強大代碼推理先驗的Qwen2.5-Math模型時，使用“代碼引導”提示策略顯著提高了測試準確率。

基于 RL 的干預方法

研究人員還采用了基于 RL 的干預方法來刻意增加 Qwen2.5-Math 模型的代碼推理頻率。在這一方法中，設計了一個專門獎勵代碼生成行為的獎勵函數，即當模型輸出中包含 Python 代碼時，無論代碼的正確性如何，都將給予一定的獎勵。

基于 PPO 算法，研究人員對模型進行了強化學習訓練。在訓練過程中，模型的參數更新策略和獎勵反饋機制都經過了精心設計。具體來說，模型在每次生成輸出后，會根據是否包含 Python 代碼來獲得相應的獎勵。通過這種方式，模型逐漸學會了在更多的輸出中生成代碼推理，以獲取更高的獎勵。

實驗結果表明，經過 20 步的訓練，Qwen2.5-Math 模型生成代碼推理解決方案的比例超過了 99%，并且模型性能也隨之得到了顯著提升。這進一步驗證了代碼推理對模型性能的積極影響。

使用Python獎勵機制來明確鼓勵模型進行代碼推理時的表現

對其他有益推理模式的探索

無重復推理模式的發現與驗證

除了代碼推理，研究人員還發現 RLVR 可能能夠激發其他與正確答案相關性高的推理模式，例如無重復推理模式。這種模式旨在避免模型生成重復冗余的內容，從而提高回答的質量和可讀性。

為了驗證這一假設，研究人員設計了無重復獎勵函數，專門獎勵模型避免重復生成內容的行為。在實驗中，模型的輸出會經過檢測，若未出現明顯的重復字符串，則給予獎勵；反之則不給予獎勵。通過這種方式，引導模型在推理過程中注重內容的獨特性和創新性。

實驗結果表明，這種無重復獎勵對 Qwen2.5-Math 模型的性能有一定的提升作用。這表明，RLVR 具有激發多種有益推理模式的潛力，而不僅僅局限于代碼推理。

設計了一種新型獎勵機制——無重復獎勵，對于不包含明顯重復內容的回答賦予1分，對于包含明顯字符串重復的回答賦予0分

其他推理模式的潛在價值與應用前景

無重復推理模式的提升機制主要體現在避免信息冗余、提高回答質量和可讀性等方面。通過引導模型生成更加精煉、獨特的回答，無重復推理模式能夠使模型在文本生成任務中更好地滿足用戶對高質量內容的需求。

此外，研究人員還探討了其他可能的有益推理模式，如分步推理、假設驗證等。分步推理模式要求模型在解決復雜問題時按照清晰的步驟逐步展開思考，這樣可以使推理過程更加透明和易于理解；假設驗證模式則鼓勵模型在生成答案之前先提出假設，并通過驗證假設的正確性來逐步逼近最終答案。這些模式在不同的任務和應用場景中具有廣闊的潛在價值和應用前景。

對現有 RLVR 研究的啟示與建議

模型選擇對 RLVR 研究結論的影響

目前，許多 RLVR 研究僅基于單一模型（如 Qwen2.5-Math）進行實驗驗證，這可能導致研究結論的局限性和片面性。例如，近期的一些 RLVR 研究方法在 Qwen 模型上表現出色，但在其他模型上的有效性卻未能得到充分驗證。

以測試時訓練（TTRL）和單次 RL 方法為例，這些方法在 Qwen 模型上的實驗結果顯示出了良好的性能提升。然而，當將這些方法應用于其他模型（如 Llama3、OLMo2 等）時，實驗結果卻顯示性能提升微弱甚至出現下降。這說明，不同模型對 RLVR 訓練策略的響應存在顯著差異，僅基于單一模型得出的結論難以適用于更廣泛的模型群體。

在多種基礎模型上評估了兩種最近的弱監督強化學習方法——TTRL 和單樣本強化學習

因此，在 RLVR 研究中，應當更加注重使用多種不同預訓練背景的模型進行實驗驗證。這樣可以更全面地評估訓練策略的有效性和普適性，確保研究結論的可靠性和可信度。例如，在開展新的 RLVR 研究時，可以選取包括 Qwen、Llama、OLMo 等多個模型家族的代表性模型進行實驗對比，分析不同模型在相同訓練策略下的性能表現和變化趨勢，從而得出更具普適性的研究結論。

未來 RLVR 研究的方向與改進

注重模型預訓練階段推理策略的分析

未來的研究應更加深入地分析模型預訓練階段所形成的推理策略。通過研究模型預訓練數據的特點、架構設計以及訓練過程中的行為模式，我們可以更好地理解模型在 RLVR 訓練中的表現，并據此設計更有效的獎勵信號和訓練方法。

例如，可以對 Qwen2.5-Math 模型的預訓練數據進行深入挖掘，分析其中數學問題的類型分布、代碼示例的多樣性以及數學推理過程的呈現方式等。同時，對比其他模型的預訓練數據特點，找出導致模型在面對異常獎勵時不同表現的關鍵因素。此外，還可以研究模型架構中的特定組件（如注意力機制、前饋神經網絡等）在數學推理任務中的作用，以及這些組件在 RLVR 訓練中的變化情況，為優化模型架構和訓練策略提供依據。

開發新的評估指標和方法

為了更準確地衡量和比較不同模型在 RLVR 訓練過程中推理模式的變化及其對性能的影響，我們需要開發新的評估指標和方法。例如，可以設計用于量化推理策略多樣性和質量的指標，通過分析模型輸出的推理步驟、邏輯連貫性、創新性等方面來評估其推理能力的發展。

同時，開發動態監測模型推理能力發展的工具也具有重要意義。這些工具可以實時跟蹤模型在訓練過程中的性能變化、推理策略的演變以及對不同獎勵信號的響應情況，為研究人員提供更全面、細致的實驗數據，從而更深入地理解 RLVR 訓練機制，并及時調整訓練策略以優化模型性能。

結論

綜上所述，RLVR 中的異常獎勵現象為我們展示了模型預訓練差異在其中所起的關鍵作用，以及異常獎勵信號如何通過激發模型潛在推理能力或利用優化算法特性來影響模型性能。這一現象不僅拓寬了我們對 RLVR 機制的理解，也為提升 LLM 推理能力提供了新的思路和方法。

然而，我們也應清醒地認識到，當前的研究還存在諸多局限性。例如，異常獎勵現象在不同語言模型架構和任務領域中的適用性仍有待進一步探索；對于模型在 RLVR 訓練過程中推理模式變化的微觀機制，我們還需要更深入的研究來揭示其本質。另外，當隨意的獎勵信號仍可以大幅提升模型性能，就得重新思考：到底RL是在學習，還是在放大某種“先驗”行為？

各位，看過此文有什么感想？如有其他想法可以在評論區留言，我們聊聊。或者加入“覺察流”社區群，與群里的小伙伴一起學習、交流。加入方法，私信回復“入群”“加群”即可。

參考資料

Spurious Rewards: Rethinking Training Signals in RLVR

https://github.com/ruixin31/Rethink_RLVR/blob/main/paper/rethink-rlvr.pdf

GitHub - Rethink_RLVR

https://github.com/ruixin31/Rethink_RLVR

責任編輯：龐桂玉來源：覺察流

AI 推理異常獎勵人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看