清華大學 | 強化學習是否激勵LLM中超越基本模型的推理能力?
論文
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?2504.13837
TL;DR:
- 雖然強化學習(RL)訓練的模型在較小的 k 值(例如,k = 1)下優于其基本模型,但基本模型可以在較大的 k 值下獲得與 RL 對應物相比的可比甚至更高的 pass@k 分數。
- 進一步分析表明,RL 訓練模型生成的推理路徑已經包含在基礎模型的抽樣分布中,表明 RL 訓練模型中表現出的大部分推理能力已經由基礎模型獲得。
- RL 訓練通過將模型的輸出分布偏向更有可能產生獎勵的路徑來提高性能,從而更有效地采樣正確的響應。
- 然而,這也限制了它們的探索能力,導致與基本模型相比推理能力邊界更窄。
- 在使用 RLVR 訓練的視覺推理任務中觀察到類似的結果。
- 此外,發現蒸餾可以真正將新知識引入模型。
RLVR對推理能力邊界的影響
分析按任務類別組織,涵蓋三個代表性領域:數學、代碼生成和視覺推理。對于所有涉及基礎和 RL 訓練模型的采樣過程,使用 0.6 的溫度和 0.95 的 top-p 值,最多可生成 16,384 個令牌。
用于評估 RLVR 對不同任務中 LLM 推理邊界的影響的實驗裝置
用于數學推理的RLVR
- 將基本大語言模型(LLM)(Qwen-2.5 和 LLaMA-3.1–8B)的性能與其 RLVR 訓練的對應物(在 GSM8K 和數學數據集上使用 GRPO 訓練)進行比較。
- 在各種數學基準(GSM8K、MATH500、Minerva、奧林匹克、AIME24、AMC23)上使用 pass@k(在 k 次嘗試內生成正確答案的概率)評估模型。
- 包括與Oat-Zero-7B的額外比較,這是一個使用Oat-Zero框架訓練的 RL 模型。
- 當 k 較小時(例如,k = 1,相當于平均情況精度),RLVR 增加了采樣正確答案的可能性。
- RLVR 縮小了模型的整體問題解決范圍,基本模型在更大的 k 值下優于 RL 模型就證明了這一點。
用于代碼生成的RLVR
- 模型:Code-R1(特別是 CodeR1-Zero-Qwen2.5–7B)使用基于預定義測試用例的二進制正確性獎勵,通過 RLVR 進行訓練。該模型基于 Qwen2.5-7B-Instruct-1M 并在 12K LeetCode 和 TACO 樣本上進行訓練。
- 評估:性能在三個代碼生成基準上進行評估:LiveCodeBench v5(880 個問題)、HumanEval+ 和 MBPP+。
- RLVR 提高了代碼生成任務中的單樣本性能(pass@1),類似于它對數學推理任務的影響。
- RLVR 對模型的推理邊界或覆蓋范圍產生負面影響。雖然原始模型顯示出通過增加采樣(k)解決更多問題的潛力,但 RLVR 訓練的模型停滯不前。具體來說,在 k = 128 時,原始模型解決了約 50% 的問題,而 RLVR 模型在 LiveCodeBench 上僅解決了約 42.8% 的問題。
- 盡管 RLVR 提高了初始性能,但與原始模型相比,當允許多次解決嘗試時,它限制了模型解決更廣泛問題的潛力。這表明在單樣本精度和探索能力之間存在權衡。
用于視覺推理的RLVR
- 模型:Qwen-2.5-VL-7B(一種視覺語言模型)在幾何 3K(Geometry3K)數據集上使用 EasyR1 框架進行訓練。
- 評估數據:MathVista-TestMini 和 MathVision-TestMini 的過濾版本,排除選擇題以避免猜測偏差。過濾導致 MathVista 出現 460 個問題,MathVision 出現 114 個問題。
- RLVR 不斷提高 LLM 的視覺推理性能,類似于它對數學和編碼基準的影響。
- 這一改進歸因于可解決問題的更廣泛覆蓋,這意味著該模型可以在 RLVR 訓練后解決更廣泛的問題。
- 在挑戰性問題中對思維鏈(CoT)的手動檢查表明,性能的提高是由于模型學習有效的推理路徑,而不是隨機猜測。具體來說,對于原始和 RL 模型,8 個被檢查的問題中有 7 個至少有一個正確的 CoT 導致正確的答案。這驗證了 CoT 方法在提高推理能力方面的有效性。
深度分析
基本模型中已經存在的推理模式
比較基本模型的可解問題集及其在 AIME24(數學問題)和編碼任務上的相應 RL 訓練版本。
執行的困惑分析:測量由 RL 訓練模型(YRL)和基礎模型本身(YBase)生成的響應的基礎模型(PPLBase)生成的響應的困惑,并將它們與來自更強模型(OpenAI-o1,YGT)的響應進行比較。
由基礎和 RL 模型評估的不同來源響應的困惑分布
- RLVR 沒有引入新的推理能力:RL 訓練的模型沒有表現出超出基本模型中已經存在的推理能力。RL 模型利用的推理路徑已經存在于基本模型的輸出分布中。這得到了困惑分析的支持,表明 RL 模型的響應很可能是由基本模型產生的。
- RLVR 提高了采樣效率:雖然沒有引入新功能,但 RLVR 提高了對基本模型中已經存在的正確推理路徑進行采樣的可能性,從而在 pass@1 方面獲得更好的性能。
- RLVR 縮小了推理邊界:采樣效率的提高是以減少探索和生成響應的多樣性為代價的,這導致更大的 k 值降低 pass@k(在 k 次嘗試中解決問題)。這歸因于 RL 傾向于減少輸出熵。
蒸餾擴展推理邊界
將大型推理模型(DeepSeek-R1)蒸餾為較小的基本模型(Qwen-2.5-Math-7B)。蒸餾模型(DeepSeek-R1-Distill-Qwen-7B)的性能與:
- 基本模型(Qwen-2.5-Math-7B)
- 它的 RL 訓練對應物(Qwen-2.5-Math-7B-Oat-Zero)
- 指令調整模型(Qwen-2.5-Math-7B-Instruct)
base、Instruct、RL 和蒸餾模型的覆蓋率比較
- 蒸餾顯著提高了基礎模型的推理能力。
- 與 RL 受到基礎模型推理能力的限制不同,蒸餾引入了從更強的教師模型中學到的新推理模式,允許蒸餾模型超越基礎模型的限制。
不同RL算法的影響
- 算法:幾種流行的 RL 算法(近端策略優化算法(PPO)、通用相對策略優化算法(GRPO)、強化學習++(Reinforce++)、RLOO、ReMax、DAPO)使用 VeRL 框架重新實現。
- 數據集:Omni-MATH-規則數據集分為訓練集和域內測試集。MATH500 用作域外基準測試。
- 指標:采樣效率差距(ΔSE)定義為 RL 訓練模型的 pass@1 和基本模型的 pass@256 之間的差異。較低的 ΔSE 表示更好的采樣效率。
不同的 RL 算法
- 一般性能:不同的 RL 算法在 pass@1 和 pass@256 上表現出微小的差異,但沒有一個明顯縮小采樣效率差距(ΔSE)。所有算法的 ΔSE 都保持在 40 點以上。
- DAPO:pass@1 分數略高,但在訓練期間每批需要更多的樣本(3-6 倍),pass@256 表現大幅下降。
- RLOO 和 Reinforce++:在不同的 k 值(1 到 256)上始終表現良好,具有高效的培訓成本,在有效性和效率之間提供了良好的平衡。
- ReMax:表現出較低的性能,可能是由于作為優勢基線的二元和高度可變的獎勵造成的不穩定。
RL訓練的漸近效應
使用不同數量的訓練步驟(例如,150、450)使用 RL 訓練的模型。使用訓練、域內測試和域外測試集上的 pass@1(精確匹配準確度)和 pass@256(前 256 個候選者內的準確度)指標來評估性能。
不同的 RL 訓練步驟
- 增加 RL 訓練步驟顯著提高了訓練集上的 pass@1(從 26.1 到 42.5)。
- 然而,在域內和域外測試集上 pass@1 的改進超過 150 步是微不足道的,這表明訓練集可能過度擬合。
- 增加訓練步驟會導致所有數據集的 pass@256 下降,最低性能為 450 步。這表明隨著訓練的進行,推理邊界和探索能力會降低,這可能是由于輸出熵的減少。
- 更長的 RL 訓練(超過 150 步)可能不會提供實質性的好處,甚至可能由于過度擬合和減少探索而阻礙性能。
本文轉載自??柏企閱文??,作者:柏企
已于2025-4-27 10:44:06修改
贊
收藏
回復
分享
微博
QQ
微信
舉報

回復
相關推薦