大語言模型的全新預訓練范式-強化預訓練

sbf_2000

發布于 2025-6-13 06:45

瀏覽

0收藏

論文通過強化學習激勵有效的下一個token推理，僅使用原始文本和內在強化學習信號就能解鎖更豐富的推理能力。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

論文簡介

論文提出了強化預訓練（RPT），這是一種創新范式，通過將下一個詞元預測重新解釋為可通過正確性驗證獲得獎勵的推理任務，架起了大語言模型預訓練與強化學習之間的橋梁。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

RPT沒有使用人工精心策劃的昂貴標注或人類反饋，而是在大規模無標注文本語料庫上應用強化學習，根據預測詞元是否匹配真實答案來分配內在獎勵。這種重新構框支持通用強化學習擴展，同時增強了預訓練和微調效果。

核心方法

在文本序列的每個詞元位置，模型首先生成推理軌跡（思維鏈），然后預測下一個詞元。如果預測結果是真實后續內容的有效前綴，就會獲得獎勵。每個上下文使用多次推演，模型通過在線策略強化學習進行訓練。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

優于標準預訓練

RPT顯著超越了標準的下一個詞元預測和思維鏈推理基線（無強化學習），在不同難度的詞元上都取得了更高的準確率，甚至在性能上可與更大規模的模型媲美。例如，RPT-14B在OmniMATH基準測試中達到或超越了R1-Qwen-32B的準確率。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

強勁的擴展定律

RPT在各個難度級別上都展現出了關于訓練計算量的清晰冪律擴展，預測準確率隨著計算量增加而持續提升，與理論曲線高度吻合。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

改善下游強化學習和泛化能力

在具有可驗證答案的任務（如Skywork-OR1）上使用強化學習微調RPT模型，相比使用標準目標訓練的模型，展現出更快更強的提升。在SuperGPQA和MMLU-Pro基準測試的零樣本評估中，推理模式下的RPT-14B大幅超越了R1-Distill-Qwen-32B。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

促進結構化思維

對推理軌跡的分析表明，相比傳統問題解決模型，RPT-14B采用了更多的假設生成、演繹推理和反思模式，這支持了RPT在訓練過程中培養更深層推理習慣的觀點。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

論文標題：Reinforcement Pre-Training
論文鏈接：https://arxiv.org/abs/2506.08007

本文轉載自??AI帝國??，作者：無影寺

標簽

大語言

模型

預訓練

已于2025-6-13 10:41:55修改

贊

回復

舉報

回復

相關推薦

MolGen: 化學反饋引導的預訓練分子生成

mb5f8eba9bdb0af ? 2877瀏覽 ? 0回復
基于預訓練模型的知識圖譜嵌入編輯

mb5f8eba9bdb0af ? 3065瀏覽 ? 0回復
ICML 2024 | 大語言模型預訓練新前沿：「最佳適配打包」重塑文檔處理標準

輕薄滴假象 ? 2669瀏覽 ? 0回復
值得細讀的八個視覺大模型生成式預訓練方法

angel ? 6074瀏覽 ? 0回復
預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升

海因斯DK ? 4872瀏覽 ? 0回復
LLM分布式預訓練淺析

zhcs333 ? 3075瀏覽 ? 0回復
LFPLM：基于預訓練語言模型的通用靈活負荷預測框架

AIRoobt ? 4212瀏覽 ? 0回復
Stacking Your Transformer：通過堆疊加快 LLM 預訓練

amei2000go ? 2624瀏覽 ? 0回復
你真的了解預訓練嗎？預訓練與微調的區別是什么？

AI探索時代 ? 7231瀏覽 ? 0回復
大模型的核心之一——大模型預訓練之數據預處理

AI探索時代 ? 5093瀏覽 ? 0回復
REGMIX: 作為語言模型預訓練的回歸數據配比

sbf_2000 ? 3358瀏覽 ? 0回復
OLMoE: 開源的MoE語言模型(預訓練&效果)

sbf_2000 ? 2849瀏覽 ? 0回復
打破視覺-語言預訓練的瓶頸：新算法解決噪聲和標注問題

AI論文解讀 ? 3430瀏覽 ? 0回復
一文讀懂OpenGVLab帶來的最新視覺預訓練框架

魯班模錘1 ? 2432瀏覽 ? 0回復
為什么預訓練大模型要使用無監督學習的方式？

AI探索時代 ? 2904瀏覽 ? 0回復
深入理解預訓練與微調，為什么需要預訓練，什么是微調？

AI探索時代 ? 4279瀏覽 ? 0回復
探討大模型預訓練與微調之間的相互作用

NLP工作站 ? 2187瀏覽 ? 0回復
大模型預訓練代碼實戰教程

AI悠閑區 ? 824瀏覽 ? 0回復
當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因

智駐未來 ? 743瀏覽 ? 0回復

sbf_2000

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

大語言模型的全新預訓練范式-強化預訓練

論文簡介

核心方法

優于標準預訓練

強勁的擴展定律

改善下游強化學習和泛化能力

促進結構化思維

目錄