強化預訓練（RPT）：LLM 預訓練新范式，當模型學會戰略思考

作者：肆零柒 2025-06-13 09:29:51

RPT 通過將傳統的 next-token-prediction 重構為 next-token-reasoning 任務，并引入強化學習機制，這種推理范式轉化，顯著提升了模型的推理能力和語言建模性能。讓模型不僅是在預測 token，而在自己定義“任務”，推理“任務”。這一過程賦予了模型類似人類的戰略思考模式。它不再只是機械地記憶和預測，而是在直接交付結果！

大家好，我是肆〇柒。在當下，大型語言模型（LLM）正以其卓越的能力在諸多任務中引人矚目。這些能力的提升，很大程度上得益于在大規模文本數據上的 next-token-prediction 自監督學習范式。通過預測文本中的下一個 token，LLM 能夠學習到語言的復雜模式和語義關系，從而在文本生成、問答系統、機器翻譯等任務中取得顯著成果。

然而，隨著對模型性能要求的不斷提高，強化學習（RL）逐漸成為微調 LLM 的關鍵技術。它能夠使模型更好地對齊人類偏好，或者提升特定技能，如復雜推理等。但 RL 在實際應用中面臨諸多挑戰：一方面，基于人類反饋的強化學習（RLHF）嚴重依賴昂貴的人類偏好數據，這不僅限制了其可擴展性，還可能導致獎勵劫持問題；另一方面，基于可驗證獎勵的強化學習（RLVR）雖能避免一些獎勵劫持問題，卻因標注數據的稀缺性，難以在通用預訓練場景中廣泛應用。

我曾在覺察流的社區群里提到過，o3 的一些能力非常強，甚至在跨領域知識的問答方面也很出彩。當時我有一個猜想，它怎么做到的？我的答案是，它可能在預測 CoT，而今天看到了這篇來自微軟研究院、北京大學和清華大學研究團隊的論文《Reinforcement Pre-Training》，讓我對這一點猜測又確信了幾分。

鑒于剛才所提到的挑戰，這篇論文所論述的強化預訓練（Reinforcement Pre-Training，RPT）被提出。RPT 為了彌合可擴展自監督預訓練與強化學習優勢之間的差距，創新性地將 next-token-prediction 任務重構為 next-token-reasoning 任務，利用大量無標注文本數據進行通用目的強化學習。這既能夠顯著提升語言建模的準確性，也為后續的強化微調奠定了堅實基礎，有望推動 LLM 向更智能、更通用的方向發展。

RPT 的核心概念：從預測到推理的認知進化

RPT 基本原理：next-token-prediction 的重構

RPT 的核心思想在于對傳統的 next-token-prediction 進行重構，將其轉變為一個推理任務。在常規的 next-token-prediction 中，模型僅僅是基于前面的文本信息直接預測下一個 token，這種方式主要側重于學習文本表面的模式和關聯。然而，RPT 引入了截然不同的機制，它要求模型必須先生成一個推理序列，再進行下一個 token 的預測。這一過程極具創新性，類似于人類在面對問題時的思考過程，即先分析已有的信息，進行一系列的推理和思考，然后再得出結論。

例如，當模型在處理一段關于物理定律的文本時，若要預測下一個 token，它并非直接根據已有的詞頻統計等簡單模式來進行預測，而是需要先理解前面文本中提到的物理概念、定律的適用條件等關鍵信息。然后，基于這些理解，生成諸如 “考慮到作用在物體上的力與質量的關系，接下來可能會提及加速度” 等推理序列，最終再確定下一個 token 是 “加速度” 或其他相關詞匯。通過這種方式，模型能夠深入挖掘文本背后的語義和知識，而不僅僅停留在表面的 token 級相關性上。

RPT 的多重優勢

可擴展性和通用性 ：RPT 實現了在無標注文本數據上的通用目的強化學習，這是一次重大的突破。傳統上，強化學習在 LLM 中的應用往往受限于數據的標注要求，無論是基于人類反饋的數據還是帶有可驗證答案的標注數據，都難以大規模獲取。然而，RPT 完全依賴于無標注的文本數據，這意味著它可以充分利用互聯網上海量的文本資源。無論是新聞報道、學術文獻，還是社交媒體上的帖子等各種文本數據，都可以成為 RPT 的訓練素材。這極大地拓展了模型訓練的數據來源，使其能夠涵蓋各種不同的領域、主題和語言風格，為 LLM 的通用性提供了堅實的數據基礎。例如，利用大量的文學作品訓練 RPT 模型，使其能夠更好地理解和生成具有文學風格的文本，如小說創作、詩歌生成等；在技術文檔領域的應用，則有助于模型準確地理解和生成復雜的代碼文檔、技術報告等內容。

降低獎勵劫持風險 ：在強化學習中，獎勵劫持一直是一個令人頭疼的問題。一些復雜的、基于學習的獎勵模型可能會出現漏洞，模型可能會利用這些漏洞來獲取高獎勵，而并非通過真正有價值的學習行為。RPT 則巧妙地避免了這一問題，它采用直接的規則獎勵信號，即根據預測的正確性給予獎勵。這種獎勵機制簡單而有效，只關心模型預測的下一個 token 是否與實際文本匹配，而不涉及復雜的、容易被操縱的獎勵模型。例如，在預測數學問題解答文本中的下一個 token 時，只有當模型準確地預測出正確的數學符號或概念詞匯時，才會獲得獎勵。這使得模型能夠專注于學習真正有價值的推理和預測能力，確保訓練過程的穩定性和目標的準確性。

促進泛化而非死記硬背 ：RPT 通過鼓勵模型生成推理序列，促使模型深入理解文本背后的邏輯和知識。這種方式使得模型能夠跳出單純的記憶模式，轉而培養起強大的泛化能力。在傳統的訓練方式下，模型可能會傾向于記憶訓練數據中的常見表達模式和 token 順序，從而在面對新的、未見過的文本時表現不佳。而 RPT 則引導模型在訓練過程中主動思考文本的內在邏輯和語義關系，探索多種可能的推理路徑。例如，在處理一段關于歷史事件的文本時，模型不會僅僅記住某個歷史事件的固定表述，而是會思考事件發生的原因、影響等相關因素。這樣一來，當遇到關于同一歷史時期但不同具體事件的文本時，模型也能夠基于已有的知識和推理能力進行準確的預測和理解，大大增強了其在不同文本場景下的適應性和泛化性能。

提升推理過程中的計算資源分配效率 ：RPT 在預訓練階段就巧妙地引入了推理過程，這相當于為模型分配了更多的 “思考” 時間。在傳統的訓練方式中，模型主要側重于對下一個 token 的直接預測，而在 RPT 中，模型需要先進行推理序列的生成，然后再進行預測。這個過程使得模型在訓練時就能夠充分地利用計算資源，對每個 token 的預測進行更深入的思考和分析。類似于在推理時擴展（inference-time scaling）中為每個預測分配更多的計算資源來提升準確性，RPT 將這種計算資源的高效利用提前到了訓練階段。例如，在訓練過程中，模型可能會花費更多的計算資源來分析上下文中的關鍵信息、探索多種可能的推理路徑等，從而在訓練完成后，能夠在推理過程中更快速、更準確地進行預測，提高整體的性能表現。

RPT 的方法論：構建智能模型的精巧架構

預訓練任務：next-token-reasoning

任務定義與推理序列生成算法

具體生成算法如下：

1. 初始化 ：以輸入序列為起點，模型首先對上下文進行編碼，提取關鍵語義信息。這一步驟就像人類在閱讀一篇文章時，先快速瀏覽開頭部分，對文章的主題和大致方向有一個初步的把握。例如，當輸入的上下文是關于物理定律的描述時，模型會識別出其中涉及的物理概念、定律的名稱等關鍵信息，為后續的推理和預測奠定基礎。

2. 迭代推理 ：在每一步推理中，模型基于當前上下文和已生成的推理序列，生成下一個推理 token。這一過程會考慮語義連貫性、語法正確性以及與最終預測目標的相關性。例如，在處理數學問題時，模型可能會生成諸如 “考慮變量之間的關系”“應用定理公式” 等推理 token。這就好比人類在解決數學問題時，會一步步地分析問題的條件、應用相關的數學定理和公式，逐步向答案靠近。每一個推理 token 都是模型思考過程中的一個 “腳印”，記錄著它對問題的逐步深入理解。

3. 預測生成 ：在完成推理序列后，模型基于推理序列和原始上下文，生成對下一個 token 的預測。預測過程會綜合推理序列中的信息，以確定最可能的 token。以數學問題為例，經過一系列的推理 token 后，模型可能會預測下一個 token 是某個數學符號或特定的數值，這個預測結果是基于前面的推理過程得出的，具有較高的可信度和準確性。

4. 算法終止 ：當達到預設的推理序列長度或滿足特定終止條件（如預測置信度超過閾值）時，算法終止，輸出推理序列和預測 token。終止條件的設置是為了在推理的充分性和計算效率之間取得平衡，確保模型能夠在合理的時間和計算資源內完成任務。

我們可以通過一個形象的比喻來理解 RPT 的這一創新過程：如果傳統的 next-token-prediction 是在黑暗中直接猜測下一步的位置，那么 RPT 的 next-token-reasoning 就像是在黑暗中先點亮一棵“樹形”的路徑，照亮周圍的環境，分析路徑的可能性，然后再邁出下一步。這種轉變，提升了模型預測的準確性，賦予了模型更接近人類思考方式的能力（戰略思考）。下圖所示，RPT 通過強化學習激勵模型進行推理并準確預測下一個 token，使得強化學習能夠擴展應用于大規模網絡文本語料庫。

強化預訓練（Reinforcement Pre-Training, RPT）將下一個token預測重新定義為一個推理任務，其中語言模型通過強化學習（Reinforcement Learning, RL）被激勵去推理并正確預測下一個token。所提出的這種方法使得強化學習能夠擴展到網絡文本語料庫。櫻桃蛋糕頂部的圖片取自LeCun的PPT

上圖展示了 RPT 如何將 next-token-prediction 重新定義為一個推理任務，通過強化學習激勵模型進行推理并正確預測下一個 token。這種設計使得 RPT 能夠擴展強化學習的應用范圍，使其適用于大規模網絡文本語料庫。

推理模式原理與實現機制

模型實現聯想、假設驗證等推理模式的關鍵在于其內部的算法設計和結構優化。以聯想模式為例，模型通過構建語義關聯圖譜，將上下文中的關鍵詞與知識庫中的相關信息進行鏈接。當處理一段關于 “氣候變化” 的文本時，模型會基于上下文中的關鍵詞 “溫室氣體”“全球變暖” 等，聯想出相關的概念如 “碳排放”“極地冰川融化” 等。這一過程通過模型內部的注意力機制和語義嵌入層實現，注意力機制能夠捕捉上下文中的關鍵信息，并將其與知識庫中的內容進行匹配，而語義嵌入層則將這些信息映射到同一語義空間，便于模型進行聯想和關聯。

假設驗證模式則依賴于模型的概率推理模塊。模型會根據當前上下文和推理序列，生成多個可能的假設，然后通過計算每個假設的置信度來驗證其合理性。例如，在處理一段歷史事件的文本時，模型可能會生成 “該事件的起因可能是經濟因素”“該事件的起因可能是政治因素” 等多個假設。通過對上下文信息的深度分析和對歷史知識的調用，模型計算每個假設成立的概率，從而篩選出最合理的假設作為后續推理的基礎。這一過程涉及到模型內部復雜的概率計算和邏輯判斷機制，確保假設驗證的準確性和有效性。

為了更直觀地理解標準 next-token-prediction 和 RPT 的 next-token-reasoning 之間的差異，我們可以參考下圖。

next-token prediction 與 next-token reasoning 的范式比較。標準的 next-token predict 直接估計預訓練語料庫中的下一個token，而next-token reasoning 則在進行預測之前會對多個token進行推理

標準 next-token-prediction 直接估計預訓練語料庫中的下一個 token，而 RPT 的 next-token-reasoning 則在進行預測之前，先在多個 token 上進行推理。這種差異使得 RPT 能夠更深入地理解文本的語義結構，從而提高預測的準確性。

推理序列長度與復雜度調整策略及量化關系

RPT 模型根據不同場景靈活調整推理序列的長度和復雜度，以適應各種不同的任務需求。這種調整并非隨意為之，而是基于嚴謹的量化關系和評估指標。

基于上述量化關系，提出了以下調整策略：

基于強化學習的預訓練（RPT：數據與模型的協同優化）

訓練過程與參數更新機制的數學解析

強化學習在 RPT 中的運用是提升模型性能的關鍵所在。對于給定的前綴 x<t，模型使用當前策略生成 G 個響應（包括推理序列和最終預測序列）。通過前綴匹配獎勵驗證預測的正確性，利用獎勵信號更新模型參數。這一過程就像一個導師在指導學生思考和回答問題，根據學生的回答是否正確給予反饋，并幫助學生不斷改進自己的思考方式和答案準確性。

模型在每個訓練步驟中會生成多個不同的思考軌跡，每個軌跡包含一個推理序列和對應的下一個 token 預測。然后，對比預測結果與真實值來計算獎勵，并根據獎勵值調整模型參數，鼓勵生成更準確的預測結果。參數更新采用 PPO 算法，其數學原理和參數更新機制如下：

強化預訓練（RPT）的示例說明

上圖直觀地展示了 RPT 的訓練過程。給定一個帶有缺失后續內容的上下文，LLM 執行策略性展開以生成 G 個不同的思考軌跡。每個軌跡包含一個中間推理步驟和一個對下一個 token 的最終預測。如果預測與真實 token 匹配，則賦予正向獎勵；否則，獎勵為零。這一獎勵信號用于更新 LLM，鼓勵生成更準確的延續內容。

獎勵機制優化方法與動態調整策略

獎勵機制在強化學習中起著至關重要的作用。在 RPT 中，獎勵的定義基于累計字節長度和有效邊界。對于預測結果與真實值完全匹配且字節長度符合有效邊界的情況，給予正向獎勵；否則給予零獎勵。這種設計確保獎勵的準確性和合理性。然而，為了進一步優化獎勵機制，可以采用以下方法：

預訓練設置：數據與模型的協同優化

數據集選擇與預處理優化 ：RPT 使用 OmniMATH 數據集進行訓練，該數據集包含 4,428 道競賽級數學問題和解決方案，來源于 AoPS Wiki 和 AoPS 論壇等。在預處理過程中，利用 DeepseekR1-Distill-Qwen-1.5B 小代理模型對 token 進行熵計算，設置熵閾值以過濾掉低熵位置，優先訓練具有挑戰性的 token。為了進一步優化數據預處理，可以采用以下方法：

多級熵過濾 ：除了基于單個 token 的熵過濾，還可以考慮上下文窗口內的 token 熵分布，進行多級過濾。例如，對于連續多個低熵 token 的區域，可能表示簡單的重復或常見短語，可以整體過濾掉，從而更高效地聚焦于具有挑戰性的文本部分。
數據增強 ：對過濾后的數據進行數據增強操作，如同義詞替換、語句重組等，增加數據的多樣性和模型的泛化能力。

模型與訓練參數優化 ：基礎模型選擇為 Deepseek-R1-Distill-Qwen-14B。訓練框架采用 verl 庫，推理使用 vllm 庫，訓練算法為 GRPO。關鍵訓練參數包括學習率 1e-6、批次大小 256、零 KL 懲罰等。詳細的超參數設置如下表所示：

用于強化預訓練的超參數

根據實際訓練需求和資源限制，可以對這些參數進行優化。例如，適當調整學習率可以平衡模型的收斂速度和穩定性；確定合適的批次大小可以充分利用計算資源，同時避免內存溢出等問題。此外，還可以探索以下優化方向：

自適應學習率調整 ：根據訓練過程中的損失變化和獎勵趨勢，動態調整學習率。當模型性能提升較快時，適當降低學習率以精細調整參數；當性能提升停滯時，適當提高學習率以跳出局部最優。
超參數搜索算法 ：采用貝葉斯優化等超參數搜索算法，在大規模參數空間中尋找更優的超參數組合，進一步提升模型性能。

實驗設計與評估：驗證 RPT 的強大性能

預訓練模型評估：語言建模與擴展性分析

語言建模性能評估與分析 ：利用 OmniMATH 驗證集，評估模型在不同難度 token 位置上的 next-token-prediction 準確率。結果表明，RPT 模型在所有難度級別上均優于 R1-Distill-Qwen-14B 的標準 next-token-prediction 和基于推理的預測。例如，在高難度 token 位置上，RPT 模型的準確率提升顯著，這可能是因為 RPT 更注重挖掘 token 之間的深層語義關系和推理邏輯，從而在復雜場景下表現出更強的預測能力。具體數值顯示，RPT-14B 在高難度 token 位置上的準確率達到 23.75%，相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升，這歸功于 RPT 在預訓練階段對推理能力的強化訓練，使得模型能夠更好地理解和預測復雜的文本內容。

準確率在三個不同難度的基準測試劃分中的 Next-token prediction 表現。RPT在標準的Next-token prediction基線和基于推理的預測基線方面均表現更優

上表提供了不同模型在三種不同難度測試集上的 next-token-prediction 準確率對比。從表中可以看出，RPT 在所有難度級別上都優于標準 next-token-prediction 基線和基于推理的預測基線，這進一步證明了 RPT 的有效性和優越性。

擴展性分析與大規模訓練策略 ：通過冪律衰減模型擬合 next - token - prediction 準確率與訓練計算的關系，發現 RPT 的性能隨著訓練計算量的增加而持續提升。這表明 RPT 具有良好的擴展性，能夠在增加訓練資源時獲得更優的性能。例如，在訓練計算量增加到 1000 步時，模型的準確率相較于初始階段有了顯著提高，且擬合曲線的高 R2 值（如易難度為 0.995，中等難度為 0.997，高難度為 0.989）表明模型對數據的擬合效果非常好。為了進一步優化擴展性，可以采用以下策略：

分布式訓練架構 ：構建高效的分布式訓練架構，將模型訓練任務分配到多個計算節點上并行執行。通過優化通信機制和數據分片策略，減少節點間通信開銷，提高訓練效率。
混合精度訓練 ：結合 FP16 和 FP32 精度，在保證模型精度的前提下，減少內存占用和計算量，加速訓練過程。同時，采用梯度累積等技術，確保在大規模并行訓練中的梯度更新穩定性。

不同難度水平數據上的 next-token prediction 準確率平均表現

上圖展示了 R1-Qwen-14B/32B 在不同難度數據上的平均 next-token-prediction 準確率。從圖中可以看出，RPT 模型在不同難度級別上均表現出較高的準確率，進一步證明了其在語言建模性能上的優勢。

下圖則展示了 RPT 的 next-token-prediction 準確率隨著訓練計算量的增加而一致提升的情況。擬合曲線的高決定系數表明預測值與觀測值之間的一致性較高，這表明 RPT 具有良好的擴展性，能夠隨著訓練資源的增加而持續提升性能。

在強化預訓練中，隨著訓練計算量的增加，Next-token prediction accuracy 在所有數據難度下均持續提高。擬合曲線顯示出較高的決定系數，表明預測值與觀測值之間的一致性

強化微調實驗：挖掘 RPT 的深層潛力

在對強化預訓練（RPT）進行全面評估的過程中，強化微調實驗扮演著至關重要的角色。這一實驗環節驗證了 RPT 模型在進一步強化學習微調中的表現，也深入揭示了 RPT 相較于傳統預訓練模型的優勢所在，為 RPT 在實際應用中的有效性提供了有力支撐。（擴展閱讀??《強化微調 ReFT：開啟大語言模型推理新范式》）

實驗設置：精準篩選與嚴謹配置

強化微調實驗的設置遵循科學嚴謹的原則，從數據采樣到參數配置，每一個步驟都經過精心設計。實驗數據源自 Skywork-OR1，從中隨機采樣 256 個問題用于訓練，200 個問題用于測試，確保數據樣本具有足夠的多樣性和代表性。數據篩選流程借鑒 SkyworkOR1 的數據過濾管道，利用 R1-Distill-Qwen-32B 模型識別具有挑戰性的實例，從而為模型訓練提供更具價值的數據素材。

在訓練參數方面，訓練批次大小和 PPO 小批次大小均設置為 64，訓練周期數為 15。這些參數的選擇基于對模型學習效率與資源消耗的綜合考量，這是為了實現模型性能提升與計算成本控制的平衡。評估設置中，驗證時的最大 token 數設定為 32,000，溫度參數設定為 0.6，這些參數配置為模型性能的準確評估提供了標準化的測試環境。

對比分析：顯著優勢與深層原因剖析

對比分析結果令人矚目。RPT 模型在僅使用 RLVR 進一步訓練前后的性能提升顯著，而持續使用標準 next-token-prediction 目標訓練后的性能提升則相對有限。RPT-14B 模型在進一步 RL 訓練后，性能從 56.3 提升到 58.3，而 R1-Distill-Qwen-14B 僅從 51.2 提升到 52.7。這一對比鮮明的結果有力地證明了 RPT 為后續 RL 訓練提供了更為堅實的基礎。

這一性能差異的背后，源于 RPT 在預訓練階段所培養的推理能力。RPT 通過強化學習激勵模型生成推理序列，使得模型在微調階段能夠更快地適應任務特定的邏輯要求。例如，在面對復雜的數學推理任務時，RPT 模型能夠在微調過程中迅速抓住問題的關鍵邏輯，基于預訓練階段形成的推理模式，高效地學習任務特定的解題策略。而傳統預訓練模型由于缺乏這種推理能力的培養，在微調階段需要花費更多的時間和計算資源來理解和適應任務邏輯，導致其性能提升較為緩慢。

不同模型的強化微調性能。“持續NTP訓練”指的是在與RPT-14B相同的語料庫上，使用標準的 next-token prediction 目標進行持續預訓練。RPT為后續的強化學習訓練提供了更強大的基礎

上表展示了不同模型的強化微調性能對比。可以看出，RPT 在進一步 RL 訓練后的性能提升明顯優于僅使用標準 next-token-prediction 目標訓練的模型，這進一步證明了 RPT 的優勢。

推理能力遷移：從預訓練到微調的橋梁

RPT 的強化微調實驗還深入探討了推理能力從預訓練到微調的遷移機制。在預訓練階段，RPT 模型通過生成推理序列來預測下一個 token，這一過程促使模型深入理解文本背后的邏輯結構和語義關系。當進入微調階段時，這種推理能力成為了模型快速適應新任務的有力武器。

以數學問題求解任務為例，在預訓練過程中，RPT 模型已經學會了如何分析數學概念之間的關系、如何應用數學定理進行推理等。在微調階段，面對具體的數學問題，模型能夠將預訓練階段形成的推理模式遷移到新任務中，迅速生成針對問題的推理路徑，如 “已知條件是什么”“需要求解的目標是什么”“可以應用哪些數學公式或定理” 等。這種推理能力的遷移使得模型在微調過程中能夠以更少的訓練數據和計算資源達到更高的性能水平，展現出更強的任務適應性和學習效率。

性能提升的多維度影響：泛化與穩定性的增強

強化微調實驗還從多個維度分析了 RPT 模型性能提升的影響。在泛化能力方面，RPT 模型在微調后展現出更強的泛化性能。它能夠在不同類型的數學問題上保持穩定的高準確率，無論是代數問題、幾何問題還是概率統計問題等。這表明 RPT 模型在預訓練階段所學習到的推理能力具有較強的通用性，能夠跨越具體任務的差異，為模型提供廣泛適用的推理框架。

在穩定性方面，RPT 模型在微調過程中的訓練曲線表現出更少的波動和更快的收斂速度。這得益于 RPT 在預訓練階段通過強化學習所形成的穩定推理機制。模型在微調過程中能夠更有效地利用訓練數據，避免因數據噪聲或任務特定偏差而導致的訓練不穩定問題。這種穩定性有助于提高模型的最終性能，使得模型在實際應用中的表現更加可靠和可預測。

零樣本任務性能評估：跨領域的強大泛化能力

評估基準與設置優化 ：選擇 MMLU - Pro 和 SuperGPQA 作為評估基準。下表展示了不同模型在 SuperGPQA 基準測試中的詳細零樣本性能表現：

在 SuperGPQA 上的零樣本性能

下表則展示了不同模型在 MMLU-Pro 基準測試中的詳細零樣本性能表現：

在 MMLU-Pro 上的零樣本性能

在評估時，MMLU - Pro 的 token 數量設置為 12,288，溫度為 0.8；SuperGPQA 的 token 數量設置為 12,288，溫度同樣為 0.8，并采用多選題格式進行評估。為了更全面地評估模型性能，可以增加評估基準的多樣性，涵蓋更多領域和任務類型，如邏輯推理、創意寫作等。

性能對比與原因分析 ：RPT-14B 在推理模式下的性能顯著優于 R1-Distill-Qwen-14B（標準 next-token-prediction 模式和推理模式）以及 R1-Distill-Qwen-32B（標準 next-token-prediction 模式）。例如，在 SuperGPQA 基準測試中，RPT-14B 的準確率為 39.0%，而 R1-Distill-Qwen-14B 為 32.0%，R1-Distill-Qwen-32B 為 37.2%。這表明 RPT 的推理模式能夠幫助模型更好地理解和生成復雜推理任務所需的邏輯連貫、語義準確的文本。其原因在于 RPT 的推理序列生成過程促使模型深入理解文本背后的邏輯結構和語義關系，使得模型在面對不同領域的零樣本任務時，能夠基于已有的知識和推理能力進行有效的預測和推理。

零樣本在通用領域終端任務上的表現。RPT-14B在推理模式下始終優于14B和32B基線模型

上表展示了不同模型在零樣本任務上的性能對比。可以看出，RPT-14B 在推理模式下在多個基準測試中均優于基線模型，這進一步證明了 RPT 的有效性和優勢。

next-token-reasoning 模式分析：推理背后的思維

為了更清晰地展示推理模式的差異，對推理模式進行了分類，并提取了相應的關鍵詞，具體分類和關鍵詞如下表所示：

模式組和關鍵詞

下表展示了七種提示模板的具體內容：

七個針對 next-token 任務推理的提示模板

推理模式差異統計與解讀 ：對 R1-Distill-Qwen-14B 和 RPT-14B 的推理響應進行分類統計發現，RPT-14B 在假設模式和演繹推理模式上的使用比例顯著更高。假設模式幫助模型探索多種可能的預測路徑，而演繹推理模式基于已知信息進行邏輯推導，得出更準確的預測結果。例如，在處理一段關于物理現象的文本時，RPT-14B 會生成多種假設，如“假設接下來會解釋物理現象的原因”“假設會給出實驗驗證方法”，然后通過演繹推理，結合上下文信息，確定最合理的預測路徑，從而生成準確的下一個 token。

實例分析與推理過程解析 ：以具體的推理實例來看，RPT-14B 在預測下一個 token 時，會對語義上下文進行深入分析。例如，在處理一段關于向量大小計算的文本時，模型會分析上下文中的關鍵詞，如 “magnitude”“formulas” 等，然后提出假設：“接下來可能會解釋如何計算向量的大小，或者給出具體的計算步驟。” 接著，它會探索多種可能性，如 “可能是列舉計算步驟，也可能是直接給出公式。” 最后，通過自我反思和調整，結合上下文的結構和語義信息，確定最可能的下一個 token。這一過程中，模型的推理序列體現了其對文本深層語義的理解和邏輯推理能力，這是其性能優于傳統模型的關鍵所在。

R1-Distill-Qwen-14B 用于問題求解的推理模式統計，以及 RPT-14B 用于 next-token reasoning 的推理模式統計

上圖展示了 R1-Distill-Qwen-14B 和 RPT-14B 在問題解決和 next-token-reasoning 中的推理模式統計。可以看出，RPT-14B 在假設模式和演繹推理模式上的使用比例顯著更高，這表明 RPT 更傾向于通過多種推理方式來探索和確定下一個 token。下表則提供了一個 RPT 推理模式的具體示例，展示了 RPT 如何在預測過程中生成推理序列，從而得出更準確的預測結果。

RPT的推理模式示例

RPT與傳統范式的比較

大型語言模型的擴展范式

傳統 LLM 的擴展范式主要集中在訓練時間和測試時間兩個維度。訓練時間擴展通過增加模型參數和訓練數據來提升性能，而測試時間擴展則通過延長推理計算來增強模型的推理能力。RPT 獨特地將每個 next-token-prediction 視為推理任務進行擴展，結合了訓練時間和測試時間擴展的優點。與傳統范式相比，RPT 在技術實現上更加注重推理過程的構建和優化，在應用場景上更適用于復雜推理任務，在性能表現上能夠更有效地提升模型的準確性和泛化能力。例如，與僅通過增加模型參數進行擴展的方式相比，RPT 在不大幅增加模型規模的情況下，通過強化推理訓練，使得模型在數學推理等復雜任務上的性能得到了顯著提升，這體現了 RPT 在擴展范式上的創新性和優勢。

大型語言模型的強化學習：RPT 的獨特優勢與創新

強化學習在 LLM 后訓練階段的應用已取得顯著成果。例如，基于人類反饋的強化學習能夠使模型更好地對齊人類偏好，而大規模 RL 則提升了模型的推理能力。RPT 與以往工作的主要區別在于采用基于 next-token 預測正確性的規則獎勵信號，有效避免了獎勵劫持問題。這種創新的獎勵機制使得 RPT 在強化學習方法上更具有優勢，能夠更穩定地提升模型的性能和應用效果。與傳統的基于獎勵模型的 RL 方法相比，RPT 的規則獎勵信號更加直接和客觀，減少了因獎勵模型偏差導致的訓練不穩定問題，從而提高了模型訓練的效率和最終性能。

總結：洞察與展望

強化預訓練（RPT）的提出，無疑是大型語言模型（LLM）預訓練領域的一次重大革新。它在技術層面實現了突破，更深刻地改變了我們對模型認知方式的理解。從傳統的 next-token-prediction 到創新性的 next-token-reasoning，這一轉變，已經不再是簡單的任務重構，而是模型認知模式的一次質的飛躍。

在 next-token-prediction 中，模型的角色類似于一位機械的記憶者，僅憑統計規律預測下一個 token。然而，RPT 將這一過程進化為 next-token-reasoning，賦予了模型戰略 “思考” 的能力。在 RPT 框架下，模型不再是簡單地根據已有的詞頻統計等模式進行預測，而是需要先理解上下文中的關鍵信息，生成推理序列，再進行預測。以數學問題為例，模型不再死記硬背數學符號的順序，而是通過推理序列，如 “考慮變量之間的關系”“應用定理公式” 等，逐步推導出下一個 token。這種類似于人類思考的過程，使模型能夠深入挖掘文本背后的語義和邏輯，而非停留在表面的 token 級相關性上。

這種進化帶來的影響是深遠而多維的。RPT 模型在語言建模性能上的提升就是最直觀的體現。比如實驗數據顯示，RPT-14B 在高難度 token 位置上的準確率達到 23.75%，相較于 R1-Distill-Qwen-14B 的 20.43% 有明顯提升。這表明 RPT 模型能夠更精準地把握文本的深層結構和復雜語義關系。這種性能提升不會是偶然的，而是源于 RPT 對模型認知能力的重塑。RPT 通過強化學習機制，激勵模型生成推理序列，使模型在訓練過程中主動思考文本的內在邏輯和語義關系，探索多種可能的推理路徑。這種學習方式使模型能夠跳出單純的記憶模式，轉而培養起強大的泛化能力，從而在面對新的、未見過的文本時表現更佳。

更為重要的是，RPT 的推理能力具有強大的泛化潛力。它使模型在面對不同領域和類型的文本時，能夠靈活運用推理策略，而非依賴于對特定數據模式的死記硬背。在數學領域，RPT 模型能夠通過推理序列深入理解數學概念和定理之間的關系；在文學領域，它則可以分析文本的情感脈絡和修辭手法。這種泛化能力的提升，無疑為 LLM 在更多領域的應用開辟了廣闊的空間。例如，在教育領域，RPT 可以幫助構建更智能的教育輔導系統，根據學生的學習進度和知識掌握情況，生成個性化的學習材料和問題解答；在科研領域，RPT 能夠輔助研究人員進行文獻分析和科學發現，提升科研效率。

當然，我們必須認識到 RPT 當前的局限性。實驗主要基于 14B 參數模型，預訓練語料以數學文檔為主，這使得模型在非數學領域的推理能力略顯不足。此外，訓練起點依賴推理模型，可能會影響 RPT 的普適性和靈活性。如果初始推理模型在某些特定任務上存在缺陷或偏差，可能會對 RPT 的訓練效果產生負面影響，限制其在不同場景下的應用范圍。

RPT 的提出，我認為是 LLM 預訓練領域的一座新里程碑。它為我們提供了當下極具價值的技術方案。我的理解在于，論文中提到的推理范式的轉變，大家不覺得有點類似于從 CoT（Chain-of-Thought，思維鏈）式思考轉向了 ToT（Tree-of-Thought，思維樹）式思考嗎。以下我做了簡單的對比。

CoT 與 ToT 的基本概念

CoT（思維鏈）：強調模型在生成答案之前進行逐步的推理，像是逐步思考和探索的鏈式過程。例如，面對一個數學問題，CoT 方法會要求模型先進行分解問題、嘗試不同解決步驟等，最后得到答案。
ToT（思維樹）：在 CoT 的基礎上，增加了探索的廣度，即生成多個可能的推理路徑，形成一個“樹”狀的思考結構。它不僅關注縱向的推理深度，還注重橫向的多種可能性探索。

RPT 與 CoT、ToT 的關系

與 CoT 的相似性：RPT 的核心思想是將 next - token - prediction 重構為 next - token - reasoning 任務，要求模型生成推理序列。這類似于 CoT 的逐步推理方式，強調在生成答案之前進行深入的思考和分析。
與 ToT 的相似性：RPT 中模型需要生成多個不同的思考軌跡（如 G 個響應），每個軌跡包含一個推理序列和對應的下一個 token 預測。這一過程類似于 ToT 的多路徑探索，模型在多個可能的推理路徑中進行嘗試和評估，從而提高預測的準確性和泛化能力。

RPT 的獨特優勢

更靈活的推理模式：RPT 不僅包含 CoT 的鏈式推理，還融合了 ToT 的樹狀探索，使模型能夠從多個角度思考問題，提升了推理的全面性和深入性。例如，在文本生成任務中，模型不僅能按部就班地進行邏輯推理，還能同時嘗試多種可能的表述方式，選擇最合適的一種。
強化學習的激勵作用：RPT 利用強化學習直接根據預測的正確性給予獎勵，引導模型優化推理過程。這種激勵機制促使模型在推理過程中更加注重思考的準確性和有效性，使模型能夠更好地學習如何進行合理的推理。
在預訓練階段的深度整合：RPT 將推理能力的培養深度融入預訓練過程，使其成為模型內在的基礎能力。這與 CoT 和 ToT 通常在模型生成階段的運用不同，為模型提供了更堅實、更通用的推理基礎。

所以基于以上的理解，RPT 的推理范式轉變，是否是吸收了 CoT 和 ToT 的優點，并通過強化學習等機制進一步優化了推理過程，為大型語言模型的預訓練和性能提升帶來了新的突破。

我在看這篇論文的時候非常興奮，這不僅是因為 RPT 范式為大型語言模型的預訓練帶來了全新的思路，還因為這讓我又一次看到了模型向上吞噬的能力。可能有小伙伴會詫異或者叫擔心，模型向上吞噬，那這不是意味著應用又薄了嗎？那么做工程應用的飯碗又淺了一些？模型能力的不斷提升，是否會擠壓工程應用的生存空間，甚至讓人類在技術面前變得無足輕重？

然而，我堅信并非如此。因為現實世界的知識、人類的能力、認知向 AI 壓縮的過程，會進一步提升應用智能的飛躍。想想看，AI 的發展從通用模型到如今廣泛涌現的 Reason Model，這是模型通過 RL 范式的一次向上吞噬，或許這里用吞噬并不合適，因為這是人類的智慧讓模型發生了躍遷。如今 RPT 范式所展現的類 ToT（Tree of Thought）戰略思考模式，這每一次模型的進化，都并非是對人類的替代，而是對人類能力的有力補充。所帶來的直接收益就是，上層 AI 應用性能的增強，AI 應用的推理準確性得到提升，自動化智能化的效能更高，最終受益的還是人！

RPT 范式的提出，可以看作是基于之前訓練范式的又一次飛躍，這一次模型幾乎是基于 ToT 的戰略思考模式來“定義任務”，而不單純是“推理任務”。回想一下開篇我提到的 Openai 推理模型 o3 的能力，或許它的背后已應用了這樣的戰略思考范式，所以才可以實現模型的“跨域”知識的推理。因為模型“眼界”寬了，“看”到的東西不一樣了，認知就會有“高度”，綜合推理的水平就會上升，Knowledge is power！那么在此，我們思考一下，應用可以基于這樣已進化的推理模型做哪些事情？一個單一具體的假設，也許，頂層的 Agent 對于 Graph 的推理可能不再是難題。因為模型已經高效的應用了類 ToT 的思考模式，這可能將極大地推動 Agent 在 GoT（Graph of Thought）實現算法上的進化，使其更加高效和易于實現。同時，這也意味著 AI Agent 的能力基于模型能力進化的現實，也會帶來協同進化的增強效應。這也正是我閱讀這篇論文讓我興奮的原因，說不定再過半年，類似“戰略思考”的推理范式就會落地并普及。

在此，RL范式再次彰顯了其強大的力量。當我們面對模型的進化時，無需恐懼或退縮。在人類文明的歷史中，每一次人類發明的工具實現進化，人類與這些進化工具的交互都會推動整個文明的躍遷。我們應當正視這一現象，并基于工具的進化，挖掘人類更深層的創造力。人一定是這場技術革命的核心，人類也必須是這場技術革命的主宰者！

責任編輯：龐桂玉來源：覺察流

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看