當大語言模型遇上強化學習:一文讀懂強化預訓練(RPT)如何重塑LLM的推理基因
在大語言模型(LLMs)的發展歷程中,「規模效應」始終是性能提升的核心驅動力。從GPT-3的1750億參數到GPT-4的萬億級架構,模型通過海量文本 的「下一個token預測」任務(NTP)學習語言規律,但這種純粹的自監督訓練逐漸暴露出局限性:模型更擅長「記憶」而非「推理」,面對復雜問題時容易陷入「模式匹配」而非邏輯推導。
與此同時,強化學習(RL)在對齊人類偏好(如RLHF)和提升推理能力上展現潛力,但傳統RL依賴昂貴的人工標注或領域特定獎勵函數,難以在大規模預訓練中應用。如何讓RL突破數據瓶頸,與自監督預訓練的 scalability 結合?微軟研究院聯合北大、清華提出的強化預訓練(Reinforcement Pre-Training, RPT) 給出了全新答案。
一、RPT的核心思想:從「預測」到「推理」的范式升級
1. 重構任務:讓token預測成為推理過程
RPT的核心創新在于將標準的下一個token預測轉化為「推理任務」:模型在預測token前,需要生成一段「思維鏈」(chain-of-thought, CoT),通過邏輯推導驗證預測的合理性。例如,當輸入上下文為「Electric force grows with charge」時,傳統NTP直接預測「size」,而RPT要求模型先思考「庫侖定律中電荷與力的關系」,再得出結論。
這種轉化的關鍵在于可驗證的獎勵機制:模型每生成一個預測,若與語料庫中的真實token完全匹配(基于字節級前綴匹配),則獲得獎勵1,否則0。這種「對錯分明」的規則式獎勵,避免了RLHF中人工標注的主觀性,也杜絕了獎勵黑客(reward hacking)問題。
2. 規模化RL的秘密:讓未標注文本成為RL訓練集
傳統RLVR(帶可驗證獎勵的強化學習)依賴問答對標注數據,而RPT巧妙地將海量未標注文本轉化為RL訓練數據。具體而言:
這種設計讓RPT突破了RL的標注瓶頸——互聯網級別的未標注文本(如網頁、書籍)都能成為RL訓練數據,實現了「自監督預訓練的規模」與「RL的推理誘導能力」的融合。
二、RPT的技術實現:從數學框架到訓練細節
1. 數學定義:從NTP到RPT的目標函數升級
2. 訓練流程:從「單路徑預測」到「多軌跡搜索」
RPT的訓練過程類似「推理軌跡的蒙特卡洛采樣」:
- 給定上下文 $x_{?
- 驗證預測是否與真實token匹配,分配二元獎勵(0或1)
- 使用GRPO算法更新模型參數,強化高獎勵軌跡的生成概率
以OmniMATH數學數據集為例,RPT通過熵過濾策略(篩選高難度token),聚焦需要深度推理的預測任務。訓練中采用8k序列長度、(10^{-6}) 學習率,每次采樣8條軌跡(G=8),并通過動態采樣提升效率。
三、實驗驗證:RPT如何刷新LLM的「推理天花板」
1. 語言建模:準確率提升與規模效應
在OmniMATH驗證集上,RPT-14B在不同難度token上的預測準確率全面超越基線:
- 簡單token:45.11% vs 標準NTP的41.60%
- 困難token:23.75% vs 標準NTP的20.43%
更驚人的是,RPT-14B的性能竟能匹配規模兩倍的R1-Distill-Qwen-32B,證明其通過推理誘導實現了「參數效率」的突破。從訓練計算量(FLOPs)與準確率的關系看,RPT呈現顯著的冪律增長規律,且在困難數據上的擬合優度 (R^2) 高達0.989,說明其具備可持續的規模化潛力。
2. 下游任務:從「預訓練基礎」到「零樣本能力」
- 強化微調(RLFT):在Skywork-OR1數據集上,RPT-14B經RLFT后準確率達58.3%,遠超基線模型的52.7%;而傳統NTP繼續訓練反而導致性能暴跌至13.0%,證明RPT預訓練與RLFT的目標一致性。
- 零樣本推理:在SuperGPQA(285學科推理)和MMLU-Pro(多任務理解)基準上,RPT-14B的推理模式準確率比14B基線高7-22個百分點,甚至超越32B模型。
3. 推理模式分析:從「模式匹配」到「邏輯探索」
通過關鍵詞統計,RPT模型的推理軌跡中「假設生成」(hypothesis)模式使用量比傳統問題解決模型高161.8%,「演繹推理」(deduction)高26.2%。其推理過程兼具高層語義理解(如「向量模長計算」的上下文分析)和底層文本特征判斷(如Markdown格式線索),展現出「多維度推理」能力。
四、行業影響:RPT如何重塑LLM的訓練范式
1. 打破「預訓練-微調」的目標鴻溝
傳統LLM預訓練(NTP)與RL微調的目標存在天然割裂:前者優化token概率,后者優化任務獎勵。RPT通過將RL引入預訓練階段,使模型從底層學習「推理習慣」,大幅降低后續RLFT的適配成本。實驗顯示,RPT預訓練的模型在RLFT時僅需少量數據即可快速提升,而NTP模型則需要大量數據才能勉強適應。
2. 為「通用人工智能」鋪設推理基石
RPT的核心價值在于將「推理能力」注入預訓練階段,而非依賴下游微調。這種「從源頭培養思維」的方式,讓模型在零樣本場景下就能展現更強的泛化能力。例如,RPT-14B在MMLU-Pro的「法律」「醫學」等專業領域的零樣本準確率比基線高10%以上,證明其具備跨領域推理的潛力。
3. 推動RL與自監督學習的深度融合
RPT揭示了一個重要方向:RL不應僅作為微調工具,而應成為預訓練的核心組件。其通過「可驗證獎勵+大規模未標注數據」的組合,為RL的規模化應用提供了范式參考。未來,結合互聯網級文本與RPT框架,可能催生出推理能力逼近人類的通用模型。
五、挑戰與未來:RPT的下一站在哪里?
盡管RPT展現出強大潛力,當前研究仍存在局限:
- 數據偏差:實驗主要基于數學文本(OmniMATH),在通用領域(如自然語言理解、代碼生成)的效果有待驗證。
- 初始化依賴:RPT當前需從推理模型(如Deepseek-R1)初始化,若從標準LM直接訓練,其推理誘導能力是否能保持?
- 計算成本:多軌跡采樣(G=8)比標準NTP消耗更多算力,如何在效率與效果間平衡?
未來研究可能從以下方向突破:
- 擴大數據規模:將RPT應用于全網文本,構建跨領域推理能力
- 混合推理框架:結合「系統1-系統2」雙過程理論,動態觸發推理軌跡生成
- 理論建模:建立RPT的縮放定律(scaling laws),指導模型高效擴展
結語:推理,才是大模型的「智能內核」
從GPT-1到GPT-4,大模型的進化史本質是「從記憶到推理」的迭代史。RPT的出現,標志著LLM訓練從「參數堆砌」轉向「思維培養」的關鍵轉折——當模型在預訓練階段就被要求「講道理」,其在下游任務中的「智能表現」便不再是偶然的模式匹配,而是內在推理能力的自然流露。
正如論文中所言:「RPT通過重新定義預訓練目標,為LLM注入了更接近人類的思考方式。」在通用人工智能的征程上,這種讓模型「先思考再回答」的訓練范式,或許正是打開下一扇大門的鑰匙。
參考資料
論文原文:Reinforcement Pre-Training: A New Scaling Paradigm for Large Language
Models相關鏈接:微軟研究院通用AI主頁(https://aka.ms/GeneralAI)
本文轉載自??智駐未來??,作者:智駐未來
