為什么用錯獎勵,模型也能提分?新研究:模型學的不是新知識,是思維
本文主要作者是呂昂和謝若冰。呂昂,中國人民大學博士生,研究方向為語言模型結構優化,導師為嚴睿教授;謝若冰,騰訊高級研究員,研究方向為大語言模型、推薦系統。
最近的一篇論文中,來自人大和騰訊的研究者們的研究表明,語言模型對強化學習中的獎勵噪音具有魯棒性,即使翻轉相當一部分的獎勵(例如,正確答案得 0 分,錯誤答案得 1 分),也不會顯著影響下游任務的表現。
研究者解釋道,強化學習對下游任務的提升,關鍵不僅在于獎勵的準確性,而更在于模型是否能夠產生高質量的思考過程。僅通過獎勵模型輸出中關鍵思考詞的出現頻率,而非基于答案正確性的獎勵,語言模型依然能夠在下游任務中取得非常高的峰值表現。這表明,強化學習對下游任務的提升,更多來源于讓模型學會采用恰當的思考路徑接近正確答案。而相關的解題基礎能力,模型已在預訓練階段獲得。因此,預訓練階段的能力提升依然至關重要。
研究者還展示了基于思考模式的極簡獎勵如何有效校準獎勵模型,從而在開放性 NLP 任務中增強語言模型的表現,并使較小的模型也能通過強化學習成功獲得思考能力。
- 論文地址:https://huggingface.co/papers/2505.22653
- 代碼鏈接:https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason
論文概覽
作者們首先研究了數學任務中獎勵噪音對語言模型的影響,因為數學任務使用簡單的規則校驗,根據答案的正確性進行獎勵,這使得人為控制獎勵噪音變得非常簡單(例如,通過將基于答案正確性的獎勵函數結果進行 p% 的反轉,正確答案得 0 分,錯誤答案得 1 分),從而便于研究。在訓練 Qwen-2.5-7B 模型時,實驗發現即使 p 值非常高,模型在下游任務中的表現幾乎沒有下降。只有當 p 值達到 50%(即完全隨機獎勵)時,訓練效果才開始崩潰。這一現象引發了一個重要問題:為何即便模型給出錯誤答案并且得到獎勵,訓練效果依然保持不變?
圖 1:使用不同程度獎勵反轉后的 Qwen-2.5-7B 在 MATH-500 數據集上的準確率變化,橫軸為訓練步數。
針對這一現象,作者提出了一種可能的解釋:盡管答案錯誤,輸出中的某些信息依然為模型的輸出提供了獎勵的價值。研究者認為,這些有價值的信息反映在模型的思考過程上。當模型生成諸如「First, I need to」,「second, I will」,「given these factors」,「finally」等思考模式時,無論最終答案是否正確,這一思考過程本身值得獎勵。
為了驗證這一假設,作者統計了在沒有噪聲獎勵訓練(即 p=0)的情況下,Qwen-2.5-7B 在數學任務中輸出的高頻思考關鍵詞,并設計了一種非常簡單的獎勵機制 ——Reasoning Pattern Reward(RPR)。每當模型輸出包含這些高頻思考關鍵詞時,便根據出現頻次給予相應獎勵,頻次越高,獎勵越大。
圖 2: RPR 示意
僅使用 RPR 機制,完全不考慮答案的正確性,Qwen-2.5-7B 仍然能夠在 MATH-500 數據集上將準確率從 5% 提升至 70% 以上。盡管在后續訓練中準確率有所下降,作者通過案例研究指出,這一下降源于 RPR 使得模型在獲得正確答案后「過度思考」,從而導致輸出超長無法提取正確答案。作者承認,僅使用 RPR 而不使用其他答案校驗獎勵可能會被模型「hack」并產生問題,但他們強調,此實驗的目的是證明思考模式在能力提升中的重要性,而非為了獲得最好的結果。
這一實驗表明,強化學習中,語言模型的提升主要源自輸出格式的轉變而非新知識的獲?。耗P驮?RL 期間采樣到具有良好思維模式的輸出,而這種思維模式能夠提高模型逐 token 接近正確答案的概率。
以上基于獎勵函數的實驗結果讓作者們意識到,這一發現也許對于基于獎勵模型(reward model)的強化學習后訓練具有重要啟示:由于獎勵模型通常并不完美,輸出中往往會包含噪聲。如果語言模型能夠在開放性任務中保持對獎勵模型輸出噪聲的魯棒性,那么我們或許不必過于追求極度精準的獎勵模型,確保其「足夠好」即可。
為驗證這一點,作者在 Nvidia-HelpSteer3 數據集(一個多領域 AI 幫助性回復生成任務)上進行了實驗。通過控制訓練步數,訓練了不同準確率的獎勵模型,并用這些模型訓練 Qwen-2.5-7B。作者認為獎勵模型的準確率與其提供的獎勵噪聲呈負相關關系,即獎勵模型準確率越高,獎勵噪聲越低。模型在測試集上輸出的回復由人類 + GPT-4o 判斷幫助性、信息度、與綜合質量。
圖 3: 獎勵模型在 HelpSteer3 訓練過程中,在驗證集上的準確率,作者選取不同訓練步數的 checkpoint 作為獎勵模型進行訓練。
實驗結果顯示,當獎勵模型準確率超過 75% 時,不同獎勵模型訓練得到的語言模型在下游任務中的主觀評測得分相似。這一現象與在數學任務中的觀察相符,表明語言模型能夠容忍一定程度的獎勵噪聲。然而,當獎勵模型準確率低于 75% 時,訓練效果顯著下降;當準確率降至 65% 時,模型的表現大幅不如使用高準確率獎勵模型訓練得到的結果。這也許指出了 Qwen-2.5-7B 在該任務上的噪聲耐受限度。
圖 4: 不同獎勵模型訓練得到的語言模型在 HelpSteer3 任務中的主觀評測表現
這一發現或許對許多研究人員而言提供了慰藉:在很多應用場景中,我們不必過分追求獎勵模型的高準確率,因為超過某個臨界點后,進一步提高獎勵模型的準確率對任務性能的提升將變得有限。
作者們進一步思考,如果真的無法獲得「足夠好」的獎勵模型,如何增強現有獎勵模型以提升下游任務表現?
為此,作者提出通過 RPR 對獎勵模型進行校準:如果某個輸出被獎勵模型評為低分,但其思考模式較好(即 RPR 得分較高),那么這個低分可能是一個假陰性,應該根據其思考模式通過 RPR 機制對獎勵模型的輸出進行補償。通過這種方式,作者在 HelpSteer3 任務中驗證了,即使獎勵模型的準確率為 65%,經過 RPR 校準后,模型表現接近原本 85% 準確率的獎勵模型訓練出的效果。同時,85% 準確率獎勵模型經過校準后,模型在下游任務中的表現進一步增強,突破了作者們所擁有的獎勵模型質量的限制。
圖 5: 經過 RPR 校準后,所有獎勵模型訓得的語言模型質量都有提升。
作者們的另一個重要發現是,即便使用作者所擁有的最精確的獎勵模型(準確率 85%),Qwen-2.5-3B 在 HelpSteer3 任務上發生了訓練崩潰,表現為輸出長度急劇下降,僅剩數十個 token。但經過 RPR 校準后,3B 模型成功完成了訓練,避免了崩潰并獲得了良好的效果,并且在很多復雜的開放任務中,比如根據指令做 PPT,呈現出良好的解題思路。
圖 6: 經過 RPR 校準獎勵模型后,3B 的模型也可以在 HelpSteer 任務上成功訓練;而使用未校準的獎勵模型,RL 發生了崩潰。
研究者們希望通過展示語言模型對基于結果的獎勵噪聲的魯棒性,以及單獨使用 RPR 獲得下游任務提升的結果,來強調強化學習對語言模型的影響更在于改變其輸出風格,形成良好的思考模式,而非教授新知識。
此外,思考模式的重要性在使用獎勵模型進行訓練的開放性任務中得到了驗證,也為強化學習后訓練算法的改進提供了新思路。
作者指出,模型預訓練技術的增強仍然值得持續投入,因為如果強化學習只專注于思考模式的培養,語言模型預訓練階段的能力依然會對下游任務構成瓶頸(例如文中對 Llama3 的實驗表明,由于 Llama3 預訓練模型難以生成較高質量的思考路徑,導致其在各個任務中的表現和抗噪音能力遠遜色于 Qwen 模型)。