大語言模型的全新預訓練范式-強化預訓練
論文通過強化學習激勵有效的下一個token推理,僅使用原始文本和內在強化學習信號就能解鎖更豐富的推理能力。
圖片
論文簡介
論文提出了強化預訓練(RPT),這是一種創新范式,通過將下一個詞元預測重新解釋為可通過正確性驗證獲得獎勵的推理任務,架起了大語言模型預訓練與強化學習之間的橋梁。
圖片
RPT沒有使用人工精心策劃的昂貴標注或人類反饋,而是在大規模無標注文本語料庫上應用強化學習,根據預測詞元是否匹配真實答案來分配內在獎勵。這種重新構框支持通用強化學習擴展,同時增強了預訓練和微調效果。
核心方法
在文本序列的每個詞元位置,模型首先生成推理軌跡(思維鏈),然后預測下一個詞元。如果預測結果是真實后續內容的有效前綴,就會獲得獎勵。每個上下文使用多次推演,模型通過在線策略強化學習進行訓練。
圖片
優于標準預訓練
RPT顯著超越了標準的下一個詞元預測和思維鏈推理基線(無強化學習),在不同難度的詞元上都取得了更高的準確率,甚至在性能上可與更大規模的模型媲美。例如,RPT-14B在OmniMATH基準測試中達到或超越了R1-Qwen-32B的準確率。
圖片
強勁的擴展定律
RPT在各個難度級別上都展現出了關于訓練計算量的清晰冪律擴展,預測準確率隨著計算量增加而持續提升,與理論曲線高度吻合。
圖片
改善下游強化學習和泛化能力
在具有可驗證答案的任務(如Skywork-OR1)上使用強化學習微調RPT模型,相比使用標準目標訓練的模型,展現出更快更強的提升。在SuperGPQA和MMLU-Pro基準測試的零樣本評估中,推理模式下的RPT-14B大幅超越了R1-Distill-Qwen-32B。
圖片
促進結構化思維
對推理軌跡的分析表明,相比傳統問題解決模型,RPT-14B采用了更多的假設生成、演繹推理和反思模式,這支持了RPT在訓練過程中培養更深層推理習慣的觀點。
圖片
論文標題:Reinforcement Pre-Training
論文鏈接:https://arxiv.org/abs/2506.08007
本文轉載自??AI帝國??,作者:無影寺
