RL真讓大模型更會推理?清華新研究:其能力邊界或仍被基座「鎖死」
近年來,RLVR(可驗證獎勵的強化學習)訓練大模型在數學、代碼等各項任務中表現驚艷,大模型的推理能力快速提升,強化學習因而被視為重要的推手。然而,其中直指核心的重要問題卻懸而未決:強化學習真的能讓大模型獲得超越基礎模型的新推理能力嗎?
清華大學LeapLab團隊聯合上海交通大學開展的最新實證研究,通過實驗現象揭示了一個值得關注的問題:當前的 RLVR 方法似乎尚未突破基座模型的能力上限。
通過數學、代碼、視覺推理三大領域的系統性實驗,他們發現了這一出人意料的現象 —— 引入強化學習的模型在某些任務中的表現,竟然不如未使用強化學習的基座模型。RLVR 只是將采樣做得更有效率,而其輸出的正確答案,早已藏在基座模型的「基因」里。
- 論文標題:Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
- 論文鏈接:https://arxiv.org/abs/2504.13837
- 展示頁面:https://limit-of-RLVR.github.io
針對給定問題,通過從基礎模型和 RLVR 訓練模型中重復采樣生成搜索樹。灰色表示模型不太可能采樣的路徑,黑色表示模型更可能采樣的路徑,綠色表示能獲得正向獎勵的正確路徑。
論文的核心發現是:RLVR 模型中的所有推理路徑均已存在于基礎模型中。
對于某些問題(如問題 A),RLVR 訓練會偏向獎勵路徑的分布,從而提升采樣效率;但代價是推理范圍的縮減:對于其他問題(如問題 B),基礎模型包含正確路徑,而 RLVR 模型卻可能丟失該路徑。)
這篇工作刷新了 AI 圈里的「普遍認知」:此前各類基于 RLVR 做后訓練的大模型,如 OpenAI 的 o1、DeepSeek-R1 等,在各項評測中成績顯著,似乎它就能讓大模型實現「自我進化」,賦予模型超越其基座模型的能力。然而,此項研究指出,RLVR 的潛力并不像之前認為的那樣強大 —— 它并不能使模型解決基礎模型無法解決的問題。論文一經發出,就獲得國內外學者的廣泛關注,發布首日即登頂 Hugging Face 日榜和 alphaxiv 榜首,在 Twitter 上累計接近 30 萬次瀏覽,引起大量討論。
當技術社區關注于 RL 帶來的短期收益時,或許需要此類研究提醒我們:大模型的真正突破,永遠始于對本質問題的追問。
實驗設計:用 pass@k 揭開模型的「能力邊界」
一個很重要的問題是:如何界定模型所能觸及的能力邊界?
傳統評測聚焦單次回答準確率(pass@1)或多次回答平均準確率。然而,模型在幾次采樣下未能解決問題、采樣更多次后最終成功解決的現象并非個例,對這種情況的忽視將會極大低估模型的真實潛力。因而,它們都不適合作為所謂「能力邊界」的參照指標。
為找到更合適的指標,研究團隊提出了一個更本質的問題:當允許多次嘗試時,模型究竟能解決多少問題? 為此,他們引入 pass@k 指標:若模型在 k 次采樣中至少生成一次正確答案,則認為其具備解決該問題的能力。若 RL 訓練真能擴展推理能力,我們應看到 RL 模型比基座模型解決更多此類問題。為減小直接采樣計算 pass@k 值可能導致的高方差,他們采用無偏估計的方法,使用嚴格定義來確保 pass@k 的可靠性。
多個數學基準測試中的基礎模型及其經強化學習訓練的對應模型的 pass@k 曲線,橫軸為采樣次數 k,縱軸為 pass@k 準確率
研究團隊強調,使用 pass@k 而非大多數研究采用的多數表決(majority voting)—— 這并不會導致結果無效。他們使用 pass@k 并非為了衡量實際效率,而是為了探索大語言模型的推理能力邊界。
所謂「能力邊界」是指模型是否具有正確解決某類問題的潛質,而「效率」是在給定時間和資源成本下模型的表現,因而不能將大模型的「能力邊界」和「效率」混為一談。這項研究從未否定 RL 帶來的「效率」上的提升,而是更深入地發起對其能力邊界的探討。
跨領域的一致性:與 RL 相比,基座模型表現出更廣泛的覆蓋能力
實驗中,研究團隊在三個具有代表性的領域進行實驗,對比評估 RLVR 模型和基座模型的能力邊界。在所有的實驗中,都獲得了以下的核心發現:
- RL 模型在小 k 時占優,然而基座模型在大 k 時逆襲:在數學題、代碼生成和視覺推理等任務中,RL 模型在 pass@1 上的表現顯著優于基座模型。而當采樣次數增至數十或數百時,在所有基準測試和 LLM 模型家族中,基礎模型的表現會無一例外地逐漸追平強化學習訓練的模型,并最終實現反超。
- 答案同源性:驗證 RL 模型的正確答案均存在于基座模型的輸出分布中,RL 僅通過調整概率分布「篩選」高獎勵路徑。
數學推理
在數學推理任務中,研究團隊在 AIME24、AMC23、MATH500 等多個基準上評估多個 LLM 系列(如 Qwen-2.5 和 LLaMA-3.1)及其經過 RL 后訓練的變體。
實驗結果顯示,在兩大 LLM 系列、6 個數據集的總共 24 個對比實驗中,基礎模型的能力表現均在采樣次數增大后追平并反超對應的 RL 模型。
人工檢查推理鏈。數學解題,存在著「蒙對」的可能。為此,研究團隊人工檢查了基座模型正確答案的 CoT 推理過程,發現對于大部分題目,基座模型在多次采樣中至少存在一個 CoT 推理過程是正確的,從而確認了答案的得出符合邏輯而非隨機蒙對。同時團隊觀察到,基座模型輸出的 CoT 也能很復雜但邏輯完整,例如通過多次試錯調整解題方法和方程參數,說明基座模型也有輸出長 CoT 和自我反思的能力。
此外,團隊還研究了另一款在 AIME24 上表現優異的 RL 模型 Oat-zero。結果同樣表明,盡管 RL 在初始階段提高了準確性,但基礎模型仍保持更廣泛的推理覆蓋能力。
代碼生成
值得注意的是,生成的代碼必須通過所有測試樣例,幾乎不可能蒙對正確答案,模型必須真正寫出符合邏輯的代碼才能得分。代碼生成任務的實驗結果同樣支持前述的核心發現:RLVR 強化學習模型 CodeR1-Zero-Qwen2.5-7B 提升了單樣本 pass@1 得分,但在更高采樣次數(k=128)時降低了覆蓋范圍。原始模型在更大的 k 值下仍展現出持續改進的潛力,而 RLVR 的性能則趨于穩定。
視覺推理
在視覺數學推理數據集 MathVista 中,RL 訓練后的模型在單次回答準確率上提升顯著,但當 k 增至 64 次時,基座模型仍展現出更廣的問題覆蓋能力。RLVR 在視覺推理上的改進與數學和代碼基準中的表現一致,表明原始模型已涵蓋廣泛的可解決問題范圍,即使在多模態任務中也是如此。
以上跨領域的一致性表明,與 RL 相比,基座模型表現出更廣泛的覆蓋能力。RLVR 并未從根本上改變模型的問題解決方式。
深度探索:RL 無法突破基座天花板
通過以上的實驗,研究團隊發現,強化學習提高了采樣效率,但縮小了推理能力邊界。
更進一步的困惑度(perplexity)分析表明,RLVR 訓練模型生成的推理路徑本就存在于基礎模型的輸出分布中,這意味著 RLVR 只是讓模型更偏向高獎勵解決方案,而非創造新的推理能力。然而,這種對獎勵路徑的聚焦削弱了模型的探索能力,限制了其在大規模采樣時對可解問題的覆蓋范圍。這些發現說明 RLVR 并未從根本上突破基礎模型的推理能力,而是以犧牲解決問題的多樣性為代價來優化現有路徑。
那么,不同的 RLVR 算法在此問題上是否表現出差異?對比實驗發現,各 RLVR 算法表現相似且均遠未達最優。
研究比較了多種 RL 算法(PPO、GRPO、Reinforce++,RLOO,DAPO, ReMax),發現它們的采樣效率差距(?SE)衡量的性能差異很小。盡管算法間?SE 存在細微差別,但所有方法都與最優效率存在顯著差距。這表明當前以提高采樣效率為目標的 RL 方法仍遠未達到最優性能。
研究團隊還發現,RLVR 與蒸餾訓練存在本質區別。RL 僅能提升采樣效率,而蒸餾訓練能真正為模型注入新知識。因此蒸餾模型通過學習蒸餾數據往往能拓展基礎模型的推理能力邊界,這與能力始終受限于基礎模型的 RLVR 訓練模型形成鮮明對比。
作者答疑
針對 AI 圈對這項工作的廣泛關注和困惑,研究團隊在論文網站上精選具有代表性的問題并給出答復,希望能夠更好地闡釋他們的工作。
Q1: 既然隨機采樣在 k 極大時也能命中答案,你們關于「RL 提升 pass@k」的結論豈非毫無意義?
A1: 并非如此。「量變引發質變」。理論上隨機打字確實有非零概率生成正確答案(約 1/V^L,V 為詞表大小約 3 萬,L 為輸出長度超 200),但實際搜索空間堪比天文數字。關鍵在于概率量級:若基座模型正確概率為 1/10?-10?,RL 或需百萬次采樣才能找到;但若概率低于 1/101?,RL 幾乎無法突破局部最優。我們的實驗顯示,多數問題在 k=128 或 1024 時就能觀測到正確輸出(當代算力可及),因此 pass@k 恰恰證明基座模型已具備必要推理路徑。
Q2: RL 將 pass@k 提升為 pass@1 不是常識嗎?
A2: RLVR 將 pass@k 轉為 pass@1 并不意外 —— 這本就是 RL 的設計目標。但更值得關注的是:RLVR 在實驗中并未展現出超越性。若基座模型無法解決的問題,RL 訓練后依然無解。這清晰揭示了 RL 在推理任務中的能力上限。此現象與傳統 RL(如 Atari 或圍棋)形成鮮明對比 —— 傳統 RL 能通過自我對弈不斷發現新策略,而 LLM 的 RL 微調卻受限于基座模型原有能力。實際上,RL 微調模型在 pass@k 上表現反而不如基座模型,這一現象令許多研究者驚訝。
Q3: 論文是否宣稱 RL 完全無法激勵超越基座模型的推理?
A3:不,我們并未做出如此絕對論斷。本研究旨在通過系統實驗探討「RL 能否真正擴展 LLM 的推理能力」,并為學界提供新視角。
我們不排除模型規模與訓練數據擴展可能改變結果的可能性。事實上,我們正在基于 DeepSeek-V3-base 與 R1-zero 開展進一步研究。
Q4: DeepSeek-Math 已報道類似結果,你們的工作有何不同?
A4: DS-Math 確實觀察到相似趨勢,但其研究僅針對單一指令微調模型和兩個數學基準。我們的工作系統性地考察了零 RL 設置的純基座模型,覆蓋更多 LLM 家族和多樣化基準測試。我們還通過人工分析思維鏈、困惑度分析、不同 RL 算法對比、蒸餾模型評估等提供了更全面的 RLVR 能力邊界分析。我們認為「RLVR 的推理范圍受限于基座模型」這一現象值得研究社區深入關注。
結語:超越「精耕細作」,探索「開疆拓土」
清華和上交的這項研究為當前火熱的 RL 訓練熱潮提供了冷思考:若將 base 模型比作一棵樹,RLVR 只能修剪枝葉使其更整齊,卻無法讓樹長出新的枝干。RLVR 在實現大模型能力提升的進程中究竟能夠扮演怎樣的角色,是我們不得不思考的問題。
該研究可能暗示著,可驗證獎勵的強化學習更像是一位精于調律的樂師,而非譜寫新曲的作曲家。它能將模型已有的潛能雕琢得更加純熟,卻難以賦予其全新的能力維度。能否將當前的 RLVR 視作開啟通用智能的萬能密鑰需要我們重新思考。
未來的探索之路,或許更需聚焦于基礎模型自身的架構革新 —— 在知識表征的廣度、認知結構的深度以及推理脈絡的構建等方面潛心耕耘,而非僅僅寄望于下游策略的微調潤色。基座模型的「原始智慧」很可能被低估,知識蒸餾的思路很可能有更大的用武之地。
真正的「進化」,或許需要更根本的范式變革 —— 讓模型不僅能高效利用既有知識,更能主動跳出先驗去探索未知領域。
作者信息
該論文的一作是清華大學自動化系三年級博士生 Yue Yang(樂洋),他專注于強化學習、世界模型、多模態大模型和具身智能的研究。他的導師是黃高教授。此前他作為兩位一作之一的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國內外眾多大佬 Yan Lecun,Xie Saining,Kevin Murphy 等轉發。此外他也是 DeeR-VLA 的一作。
另一位一作是清華大學自動化系本科生 Chen Zhiqi(陳之琪),目前在黃高教授團隊 LeapLab 實習。