爆火論文顛覆RL認知！「錯誤獎勵」讓LLM推理暴漲24.6%，學界驚了

2025-05-29 09:14:17

錯誤獎勵，也能讓AI推理開掛！最新研究證明，偽獎勵讓LLM推理性能暴漲24.6%，一舉顛覆傳統(tǒng)的RL訓練認知。

今早的一篇爆火論文，徹底顛覆了人們對「強化學習」的傳統(tǒng)認知。

僅用隨機獎勵，甚至是錯誤答案，也能讓AI在數(shù)學推理中性能暴漲！

來自華盛頓大學、AI2、UC伯克利研究團隊證實，「偽獎勵」（Spurious Rewards）也能帶來LLM推理能力提升的驚喜。

地址：https://rethink-rlvr.notion.site/Spurious-Rewards-Rethinking-Training-Signals-in-RLVR-1f4df34dac1880948858f95aeb88872f

實驗中，他們用偽獎勵訓練了Qwen2.5-Math-7B，在MATH-500數(shù)據(jù)集中發(fā)現(xiàn)：

格式獎勵性能提升16.4%；錯誤獎勵提升24.6%；隨機獎勵提升21.4%。

可見，偽獎勵如同黑魔法，能夠讓Qwen的數(shù)學能力整體實現(xiàn)15-20%的飆升。

然而，對Qwen有效的偽獎勵在其他模型中，如Llama3、OLMo2，突然失效。

值得一提的是，他們還發(fā)現(xiàn)RLVR可以激勵Qwen2.5-Math的獨特行為，其在代碼推理上，性能從66.7%飆升至90%。

即便是使用偽獎勵，結果也是如此。

當隨機獎勵可以大幅提升模型性能，就得重新思考：到底是RL在學習，還是在放大「先驗」行為？

谷歌DeepMind研究科學家Xidong Feng表示，這篇論文會讓一大堆LLM+RL的研究受到質疑。

另一位DeepMind科學家Andrew Lampinen稱贊道，這確實是一個反常識典型案例。

隨機獎勵，竟破解了RLVR

在大模型訓練中，可驗證獎勵強化學習（RLVR）是一種提升推理能力常見的策略。

傳統(tǒng)觀念認為，RLVR的成功離不開「高質量」的獎勵信號。

就好比，老師給學生的正確答案，或評分一樣，只有「教得對」，才能「學得好」。

而這項新研究，直接挑戰(zhàn)了RLVR這一觀念。

如上所見，即使獎勵信號完全隨機，甚至給出誤導性的信號，Qwen-Math依然能在數(shù)學推理上取得驚人的進步。

這到底是怎么回事？對此，研究人員發(fā)起了疑問——

單樣本或無監(jiān)督RLVR的訓練信號從何而來？獎勵提供有意義的RLVR訓練信號的最低要求是什么？

實驗設置

針對Qwen-Math、Llama 3.1、OLMo2模型，研究人員為其設置了三種有趣的偽獎勵形式：

· 格式獎勵：僅回答包含 \boxed{} 就給予獎勵。這種格式在模型系統(tǒng)中已指定，類似指令遵循的概念。

· 隨機獎勵：完全隨機的反饋。簡單來說，如果 random.random() < rate 則 1，否則 0

· 錯誤獎勵：故意提供錯誤的監(jiān)督信號。

在錯誤獎勵中，人為構造錯誤且具有迷惑性答案的步驟：

按頻率對模型的輸出進行排序；選取最常見的回答；如果該回答正確，則丟棄該樣本；在模型最常見回答錯誤的子集上進行訓練，并使用該特定回答作為訓練標簽。

此外，在比較過程中，研究團隊還引入了弱獎勵：

· 多數(shù)投票獎勵：以多數(shù)投票的答案作為標簽

· 單樣本RL：在單個樣本上進行標準RLVR

針對數(shù)學優(yōu)化的Qwen模型，不論是在MATH、AMC，還是AIME基準上，數(shù)學推理性能都有大幅提升。

劇情反轉

偽獎勵并非對所有模型都有效

然而，對于那些未針對數(shù)學推理優(yōu)化模型，研究人員觀察到了有趣的現(xiàn)象。

與其他模型不同，Qwen-Math在「偽獎勵」下表現(xiàn)提升甚微。具體來說，Qwen 2.5-7B在錯誤獎勵下的性能28.5%，接近于真實獎勵的33.3%。

而在Llama3.1、OLMo2這兩款模型上，劇情更是出現(xiàn)了大反轉。

Llama3.1-8B-Instruct在錯誤獎勵在提升僅1.3%，而隨機獎勵性能暴減4.9%。

與此同時，OLMo2-7B在偽獎勵情況下，把性能衰退更是展現(xiàn)地淋漓盡致。

此外，研究團隊還發(fā)現(xiàn)，對真實標簽（ground truth labels）進行簡單的GRPO訓練時，可以提升所有模型的性能。

其中，Qwen和Qwen-Math模型，相比Llama和OLMo模型提升更為顯著。

在多數(shù)投票獎勵中，此前已有研究提出用其來提升模型的一致性。實驗中，作者發(fā)現(xiàn)它確實對大多數(shù)模型都有幫助，但對OLMo無效。

針對格式獎勵，他們還發(fā)現(xiàn)，僅教模型生成可解析的結果，就能在Qwen模型上獲得「巨大」的性能提升。

結果顯示，Qwen2.5-1.5B絕對性能提升高達49.9%。

但這種獎勵，卻讓Llama3.2-3B-Instruct和OLMo2-SFT-7B的性能，分別降低了7.3%和5.3%。

有趣的是，模型的性能在達到峰值后，逐漸下降。

這里，研究人員推測這是因為模型已「學會」該格式，進一步訓練不再提供更多信息。

在錯誤獎勵的實驗中，Qwen模型性能仍顯著提升，但其對Llama無影響，并損害了OLMo-Base和OLMo-SFT的性能。

接下來，如果完全不看回答內容，隨機分配0或1的獎勵，會有效嗎？

答案是——對于Qwen是有效的，但對其他模型無效。

值得注意的是，隨機獎勵對Qwen2.5-1.5B無效，且對Qwen2.5-7B需訓練約120步后，才開始生效。

因此，研究人員訓練了更長時間（300 步），發(fā)現(xiàn)模型在隨機獎勵下的收斂水平低于其他有信號的獎勵。

這種依賴于模型架構的行為表明，RLVR的有效性更多取決于模型預訓練時的能力，而非監(jiān)督信號的質量。

如今，Qwen因強大推理性能，已成為開源社區(qū)RLVR研究的默認選擇。

針對以上「偽獎勵」的實驗結果，研究人員對未來的研究給出了一些建議。

近期兩項研究表明，RLVR僅在「弱監(jiān)督」下對Qwen模型有效，但這些結論無法推廣到其他模型系列：

1. 測試時強化學習（TTRL）：在測試階段，實時收集多個輸出答案，用多數(shù)投票結果作為獎勵信號

2. 單樣本強化學習（1-shot RL）：僅用單個樣本的RLVR訓練，就能達到傳統(tǒng)大規(guī)模訓練集的效果

因此，未來的RLVR研究，還應在其他模型上進行驗證。

偽獎勵，為何在RLVR中有效？

現(xiàn)在，你可能會好奇——這到底是怎么回事？為什么這些偽獎勵在Qwen-Math上有效？

研究人員假設，RLVR訓練結果的差異源于各模型在預訓練期間，學習的特定推理策略的不同。

特別是，某些策略可能更容易被RLVR激發(fā)，而其他策略可能更難以顯現(xiàn)或完全缺乏。

案例研究：代碼推理

通過仔細分析，研究者發(fā)現(xiàn)了一個關鍵洞察：

Qwen-Math在RLVR訓練前，就有65.0%的概率使用Python代碼來解決數(shù)學問題。

更令人印象深刻的是，即使沒有代碼執(zhí)行器，它也常常能生成正確的代碼輸出以及問題的正確答案。

然而，這種頻繁且高質量的代碼推理能力在其他模型中并不存在。在應用RLVR后，無論獎勵質量如何，Qwen-Math 的代碼推理頻率平均增加到超過90%。

如下示例中，展示了Qwen-Math-7B如何精確預測3√13到小數(shù)點后15位。

令作者驚訝的是，這比iPhone計算器還多出一位精度。

這種推理策略的轉變，而非獲得新的推理技能，似乎是性能提升的一種驅動力。

Qwen模型通過RLVR訓練學會更多地使用代碼推理——從語言推理到代碼推理的轉變有效地提升了性能。

對于Qwen-Math和Qwen模型，代碼使用頻率與性能高度相關。

代碼越多，正確答案越多，反之亦然。

然而，在那些能生成代碼但無法生成高質量代碼的模型，如OLMo2-7B-SFT，這種相關性是相反的。

由此，研究人員得出——生成代碼以輔助數(shù)學推理訓練策略，Qwen-Math能加以有效利用，而其他模型家族則不然。

正確的推理策略，性能提升比？

更有趣的是，研究人員還追蹤了RLVR前后推理策略發(fā)生切換的問題，并分析性能提升的具體來源。

如下圖所示，「偽獎勵」在將模型行為切換到代碼推理方面更為激進，且很少將原本的代碼推理行為轉為自然語言推理。

令人印象深刻的是，偽獎勵下的RLVR似乎做出了正確的選擇——從自然語言推理切換到代碼推理的問題，性能提升了約55%。

另一方面，真實獎勵則將自然語言推理的性能提升了60.2%！

接下來，研究人員進一步量化了每種策略切換行為，對各模型性能提升的貢獻。

有趣的是，如果模型擅長代碼推理（代碼準確率>語言準確率），RLVR性能提升主要來自從語言推理到代碼推理的切換；反之亦然。

成功引導模型推理策略的獎勵對總體性能提升的部分貢獻平均值

基于這些初步觀察中的強相關性，他們假設代碼推理是Qwen模型在數(shù)學任務中表現(xiàn)優(yōu)異的一種推理行為。

為了驗證這一假設，研究人員通過提示和RL明確約束模型生成代碼推理。

結果觀察到，所有測試模型的代碼推理頻率與基準測試性能之間存在強相關性。（相關性的方向取決于特定模型的代碼質量）。

· 通過提示誘導代碼推理

簡單提示模型以「讓我們用Python解決這個問題」開始回答，這顯著提升了 Qwen-Math 模型的性能，但降低了Llama和OLMo模型的性能。

· 通過強化學習誘導代碼推理

在提示實驗成功后，研究者設計了一個額外的偽獎勵，只要回答中包含字符串「python」，就給予獎勵。

這強烈鼓勵所有模型使用代碼推理，在第50步后代碼推理占比>99%。

在下圖中，展示了類似趨勢，但通過RL訓練模型使用更多Python代碼時，效果更加顯著。Qwen-Math和Qwen2.5-7B的性能提升，而其他模型的性能下降。

但，為什么是隨機的？

當研究人員看到使用 random.random() < 0.5 生成的獎勵，使得訓練曲線上升時，感到非常困惑。

完全無意義的獎勵——不提供任何信息的獎勵——怎么可能幫助模型學習？

這個悖論讓我們開始尋找 AI 的「倫敦色散力」（London dispersion force of AI）——就像電中性原子之間仍然神秘地相互吸引一樣。

在深入研究GRPO后，作者發(fā)現(xiàn)裁剪（clipping）項可能是關鍵。他們通過以下三種方法對裁剪因子進行了消融實驗：

(a) 直接在損失計算中禁用裁剪，

(b) 調整訓練和rollout批大小，使展開模型與策略模型保持一致，

方法 (b) 和 (c) 確保每次展開步驟僅進行一次梯度更新，自然避免了裁剪約束。

在 Qwen2.5-Math-7B 上消融 GRPO 中裁剪項時的性能和代碼推理頻率。使用隨機獎勵并啟用裁剪的訓練增加了代碼推理模式并提升了性能。

總體而言，所有無裁剪運行的方差都很大，尤其是那些進行8次梯度更新，且物理關閉裁剪功能的運行（綠色）。

這些無裁剪運行的平均值與啟用裁剪和隨機獎勵的標準GRPO損失相比，呈現(xiàn)出平坦的曲線。

在標準GRPO裁剪下，隨機獎勵讓Qwen2.5-Math-7B性能提升21%，并增加了代碼推理模式。

但當研究人員通過上述三種方法消除裁剪效果時，隨機獎勵沒有帶來任何改進。他們推測，這是由于GRPO公式本身的偏見。

在裁剪下，隨機獎勵并不會教授任務質量，而是觸發(fā)了一種集中效應，使模型專注于其現(xiàn)有的推理模式分布。

當裁剪被禁用時，這種集中機制完全消失。

作者介紹

Rulin Shao

Rulin Shao是華盛頓大學的二年級博士生，師從Pang Wei Koh教授和Luke Zettlemoyer教授。同時，她還是Meta的訪問研究員，與Scott Yih及Mike Lewis共事。

她在卡內基梅隆大學獲得機器學習碩士學位，師從Eric Xing教授；本科畢業(yè)于西安交通大學，獲數(shù)學學士學位。

她的研究興趣主要集中在信息檢索與生成模型之間的協(xié)同增效作用。此外，也關注視覺語言多模態(tài)學習以及長上下文建模等領域。

Stella Li

Stella Li是華盛頓大學艾倫計算機科學與工程學院的二年級博士生，師從Yulia Tsvetkov教授。

此前，她在約翰斯·霍普金斯大學獲得了計算機科學、認知科學（側重語言學）及應用數(shù)學（側重統(tǒng)計學）專業(yè)的學士和碩士學位。期間，她曾在學校的語言與語音處理中心擔任研究助理，師從Philipp Koehn教授和Kenton Murray教授。

她的研究領域是自然語言處理，尤其是對運用計算方法建模乃至揭示認知過程深感興趣。此外，研究興趣還包括臨床推理、社會推理、以人為本的NLP、多語言處理等諸多方向。

Rui Xin

Rui Xin是華盛頓大學的一名博士生，師從Pang Wei Koh教授和Sewoong Oh教授。

此前，他在杜克大學獲得數(shù)學與計算機科學專業(yè)的學士學位，師從Cynthia Rudin教授和Margo Seltzer教授。

他的研究興趣是隱私保護機器學習。

Scott K. Geng

Scott K. Geng是華盛頓大學的博士生，師從Pang Wei Koh教授和Ranjay Krishna教授。

此前，他在哥倫比亞大學獲得數(shù)學與計算機科學專業(yè)的學士學位，師從Carl Vondrick教授和Junfeng Yang教授。

他對計算機視覺和自然語言處理等領域有著廣泛的興趣。

責任編輯：張燕妮來源：新智元

AI 推理模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看