震驚！強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性

發布于 2025-5-6 07:12

瀏覽

0收藏

大家好，我是HxShine

今天分享一篇來自清華的文章，標題為：“Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?” (強化學習真的能激勵大型語言模型(LLM)產生超越基礎模型本身的推理能力嗎？)。

這篇文章研究的問題：可驗證獎勵的強化學習（RLVR）真能夠使LLM持續自我改進，獲得超越其對應基礎模型的新推理能力嗎？（即強化學習能提高base基座模型的天花板嗎？）。研究者通過使用pass@k指標（在k次嘗試中通過的比例）并采用非常大的k值，來探索模型在多種模型家族、RL算法和數學/編程基準上的推理能力邊界。

結論令人驚訝：

1. RLVR訓練并未引發根本上新的推理模式。雖然RL訓練的模型在較小的k值（如k=1）下表現優于基礎模型，但在足夠大的k值下，基礎模型能夠達到甚至超過其RL對應模型的pass@k分數。這表明RL訓練出的模型所使用的推理路徑實際上已經存在于基礎模型的采樣分布中。

2. RL訓練通過將模型輸出分布偏向于更有可能獲得獎勵的路徑來提高性能（提升采樣效率），但這同時也限制了模型的探索能力，導致其推理能力邊界相較于基礎模型反而更窄。

3. 與RLVR不同，蒸餾（distillation）能夠真正地為模型引入新知識。

這些發現揭示了RLVR在提升LLM推理能力方面的關鍵局限性，提示我們需要重新思考RL訓練在推理LLM中的作用，并可能需要尋找更好的訓練范式。

一、概述

?Title:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

?URL: https://arxiv.org/abs/2504.13837

?Authors:Yang Yue, Zhiqi Chen, Rui Lu, Andrew Zhao, Zhaokai Wang, Yang Yue, Shiji Song, Gao Huang (清華大學 LeapLab, 上海交通大學)

?Project Page: https://limit-of-RLVR.github.io

1 Motivation

?挑戰普遍認知：當前普遍認為RLVR能讓LLM獲得超越基礎模型的新推理能力。本文旨在嚴格驗證這一假設是否成立。

?評估方法局限：傳統的評估指標（如pass@1或小k值的平均成功率）可能只反映了模型的平均表現，而低估了基礎模型在更多嘗試下的潛在推理能力上限。

?探究能力邊界：需要一種更嚴格的方法來評估和比較基礎模型與RL訓練后模型的推理能力邊界，即模型理論上能解決的問題范圍。

2 Methods

省流版總結:

本文通過在數學、代碼生成、視覺推理等多個任務上，使用大k值的pass@k指標，系統比較了多種基礎LLM（如Qwen-2.5, LLaMA-3.1）與其經過RLVR（使用PPO、GRPO等算法）訓練后的版本。核心發現是：基礎模型只要采樣次數足夠多（k足夠大），就能解決那些之前被認為只有RL模型能解決的問題。RLVR的主要作用是提高采樣效率（更容易采樣到正確答案，pass@1更高），但代價是犧牲了探索性，導致其能解決的問題集合（推理邊界）反而小于基礎模型（pass@大k值更低）。研究還利用困惑度分析證明RL模型的推理路徑很可能已包含在基礎模型的分布中，并對比了RLVR與蒸餾，發現蒸餾更能引入新知識。

詳細方法和步驟:

為了深入探究強化學習（RLVR）對大型語言模型（LLM）推理能力的確切影響，其設計了一套嚴謹的實驗方法。

1）核心在于使用大k值的pass@k指標來評估模型的推理能力邊界，即模型在多次嘗試下解決問題的理論上限，而非僅看單次嘗試的平均表現。實驗覆蓋了多種主流LLM基礎模型及其對應的RLVR訓練版本，涉及數學、代碼生成和視覺推理等多個任務領域。為確保結果的可靠性，研究不僅采用了統一的評估流程，

2）進行了思維鏈（CoT）的有效性驗證以排除偶然猜對答案的情況，并運用困惑度分析來探究RL訓練后模型與基礎模型輸出分布的關系。

3）研究還系統比較了不同RL算法的效果、RL訓練步數的影響，并將RLVR與模型蒸餾的效果進行了直接對比。

詳細內容整理如下：

方法論要素	詳細說明
核心評估指標	Pass@k (at large k): 使用極大的嘗試次數k（如256, 1024+）來衡量模型解決問題的能力上限或覆蓋范圍，而非平均性能。采用無偏估計法計算。
實驗對象與范圍	模型: Qwen-2.5系列 (7B/14B/32B Base), LLaMA-3.1-8B Base及其對應的RL訓練版本。 RL算法: GRPO, PPO, Reinforce++, RLOO, ReMax, DAPO等。任務: 數學推理 (GSM8K, MATH, AIME24等), 代碼生成 (LiveCodeBench, HumanEval+), 視覺推理 (MathVista)。
評估流程	統一使用Zero-shot prompt進行評估，采樣溫度0.6，top-p 0.95，避免few-shot提示干擾。
結果有效性驗證	CoT檢查: 對高難度問題（如AIME24），手動檢查多次采樣得到的正確答案其思維鏈（CoT）是否合理有效。問題過濾: 移除容易通過直接猜測解決的問題。
機理分析工具	困惑度分析 (Perplexity Analysis): 比較RL模型生成內容在基礎模型下的困惑度，與基礎模型自身生成內容的困惑度分布，以判斷推理路徑是否源于基礎模型。
對比實驗	RL算法比較: 在統一框架下比較不同RL算法的性能，并引入采樣效率差距(ΔSE)指標。訓練步數影響: 分析不同訓練時長對pass@1和pass@k(大k)的影響。 RL vs 蒸餾: 對比RLVR和模型蒸餾（Distillation）在擴展模型推理邊界上的效果差異。

3 Conclusion

1.RLVR未引入新推理能力:RLVR訓練的模型所能解決的問題的推理路徑，基本上都已存在于原始基礎模型的潛在輸出中。RLVR沒有激發根本性的新推理模式。

2.RLVR提升效率但犧牲邊界:RLVR通過偏置采樣分布，提高了采樣到正確答案的效率（表現為pass@k在小k值時更高），但這種優化是以犧牲探索性為代價的，導致模型的推理能力邊界（能解決的問題集合上限，表現為pass@k在大k值時更低）相較于基礎模型反而縮小了。

3.基礎模型潛力被低估:只要給予足夠多的嘗試次數（大k值），基礎模型在解決復雜推理問題上的上限可能與甚至超過經過RLVR訓練的模型。

4.RL算法局限與蒸餾的優勢:當前主流RLVR算法在該問題上表現類似，距離理論最優采樣效率（由基礎模型邊界定義）仍有較大差距。相比之下，蒸餾可以將更強教師模型的知識注入基礎模型，從而真正擴展其推理能力邊界。

4 Limitation

1.任務范圍:研究主要集中在具有可驗證獎勵的任務（數學、代碼）。其結論是否能推廣到基于偏好模型進行對齊的RLHF任務（如提升無害性、遵循指令等）尚需進一步研究。

2.CoT檢查:手動檢查CoT的有效性雖然進行了，但僅限于問題子集和樣本子集，并非完全覆蓋。

3.解決方案探索不足:論文指出了當前RLVR的局限性，并暗示需要新的范式（如更好的探索機制），但并未提出具體的解決方案來克服這種邊界限制。

4.評估成本:使用極大k值的pass@k進行評估計算成本非常高，這限制了能夠在實驗中測試的模型和數據集的規模。

5.基礎模型依賴:既然RL效果受限于基礎模型，那么如何提升基礎模型本身的潛能（pretraining階段）變得更加重要。

二、詳細內容 (圖表總結)

1 RL與Base模型推理效果對比

?問題A：RL提升了找到正確路徑的效率；

?問題B：RL可能丟失基礎模型中存在的正確路徑，導致探索范圍縮小。

? 右圖：隨著RL訓練進行，pass@1（平均性能）提升，但pass@256（能力邊界）下降。

2 多個數學基準上不同模型Base與RL效果對比

震驚！強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性-AI.x社區

結論：一致顯示：RL在低k時占優，Base在高k時追上甚至反超RL。

3 Base模型與RL推理模式對比 & 蒸餾模型與RL以及Base模型對比

震驚！強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性-AI.x社區

?(左)困惑度分析: RL模型生成的響應(Y_RL)在Base模型下的困惑度分布，與Base模型自身生成響應(Y_Base)的分布中低困惑度的部分重合，說明Y_RL是Base模型本就“傾向于”生成的路徑，RL并沒有給Base模型帶來新的推理Pattern。

?(右)Base, Instruct, RL, Distilled模型在AIME24和Minerva上的pass@k對比: Distilled模型曲線顯著高于Base模型，而RL模型在高k時低于或接近Base模型。證明蒸餾能擴展邊界，RLVR不能。

4 不同RL算法以及不同step的影響

震驚！強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性-AI.x社區

?(上)不同RL算法 (GRPO, PPO等) 的pass@k對比及采樣效率差距(ΔSE)。顯示各算法效果差異不大，且ΔSE普遍較大，表明離基礎模型的理論上限還很遠。

?(下)不同RL訓練步數 (150 vs 300 vs 450) 的影響。pass@1隨步數增加而提升（尤其在訓練集上），但pass@256下降，表明推理邊界在縮小，可能存在過擬合。

三、總結

本文核心觀點：當前廣泛應用的RLVR（帶可驗證獎勵的強化學習）方法，并不能真正賦予LLM超越其基礎模型固有的、新的推理能力。它的主要作用是提高模型采樣到其本身就能生成的正確推理路徑的效率，但這往往以犧牲探索性、縮小推理能力邊界為代價。

結論1： RLVR 訓練主要提高了 LLM 的采樣效率，使其更容易在少量嘗試內找到正確答案，但并未帶來超越基礎模型的新的推理能力或擴展可解決問題的范圍。論文通過 pass@k 指標在大 k 值下的評估，以及對生成的思維鏈和困惑度的分析，有力地支持了這一發現，挑戰了 RLVR 能夠持續提升 LLM 推理上限的普遍觀點。

結論2：現有的 RL 算法在提高 LLM 采樣效率方面仍有很大提升空間，且不同的主流 RL 算法（如 PPO, GRPO 等）在效果上差異不大。研究通過在統一框架下對比多種算法，并量化了采樣效率差距，指出了當前 RL 方法的局限性。同時，增加訓練步數可能導致模型過擬合訓練集并進一步限制其探索能力和推理邊界。

結論3：與 RLVR 不同，蒸餾是一種能夠引入新知識并有效擴展 LLM 推理能力邊界的訓練范式。論文通過對比蒸餾模型與基礎模型和 RLVR 模型的 pass@k 曲線，展示了蒸餾模型能夠解決基礎模型無法解決的問題，這提示未來的研究可能需要探索 RL 與其他方法的結合，或者尋找全新的訓練范式來真正推動 LLM 推理能力的發展。

本文轉載自?????NLP PaperWeekly?????，作者：NLP PaperWeekly

標簽

大模型

RLVR

局限性

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

震驚！強化學習訓練后，大模型推理“天花板”反而降低了？清華研究揭示RLVR局限性

一、概述

1 Motivation

2 Methods

省流版總結:

詳細方法和步驟:

3 Conclusion

4 Limitation

二、詳細內容 (圖表總結)

1 RL與Base模型推理效果對比

2 多個數學基準上不同模型Base與RL效果對比

3 Base模型與RL推理模式對比 & 蒸餾模型與RL以及Base模型對比

4 不同RL算法以及不同step的影響

三、總結

目錄