成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大語言模型的全新預訓練范式-強化預訓練

發布于 2025-6-13 06:45
瀏覽
0收藏

論文通過強化學習激勵有效的下一個token推理,僅使用原始文本和內在強化學習信號就能解鎖更豐富的推理能力。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

論文簡介

論文提出了強化預訓練(RPT),這是一種創新范式,通過將下一個詞元預測重新解釋為可通過正確性驗證獲得獎勵的推理任務,架起了大語言模型預訓練與強化學習之間的橋梁。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

RPT沒有使用人工精心策劃的昂貴標注或人類反饋,而是在大規模無標注文本語料庫上應用強化學習,根據預測詞元是否匹配真實答案來分配內在獎勵。這種重新構框支持通用強化學習擴展,同時增強了預訓練和微調效果。

核心方法

在文本序列的每個詞元位置,模型首先生成推理軌跡(思維鏈),然后預測下一個詞元。如果預測結果是真實后續內容的有效前綴,就會獲得獎勵。每個上下文使用多次推演,模型通過在線策略強化學習進行訓練。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

優于標準預訓練

RPT顯著超越了標準的下一個詞元預測和思維鏈推理基線(無強化學習),在不同難度的詞元上都取得了更高的準確率,甚至在性能上可與更大規模的模型媲美。例如,RPT-14B在OmniMATH基準測試中達到或超越了R1-Qwen-32B的準確率。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

強勁的擴展定律

RPT在各個難度級別上都展現出了關于訓練計算量的清晰冪律擴展,預測準確率隨著計算量增加而持續提升,與理論曲線高度吻合。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

改善下游強化學習和泛化能力

在具有可驗證答案的任務(如Skywork-OR1)上使用強化學習微調RPT模型,相比使用標準目標訓練的模型,展現出更快更強的提升。在SuperGPQA和MMLU-Pro基準測試的零樣本評估中,推理模式下的RPT-14B大幅超越了R1-Distill-Qwen-32B。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

促進結構化思維

對推理軌跡的分析表明,相比傳統問題解決模型,RPT-14B采用了更多的假設生成、演繹推理和反思模式,這支持了RPT在訓練過程中培養更深層推理習慣的觀點。

大語言模型的全新預訓練范式-強化預訓練-AI.x社區圖片

論文標題:Reinforcement Pre-Training 

論文鏈接:https://arxiv.org/abs/2506.08007

本文轉載自??AI帝國??,作者:無影寺

已于2025-6-13 10:41:55修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 免费视频一区二区 | 久久久久久久综合色一本 | 91国在线视频 | 久久伊人影院 | 日韩视频在线观看一区二区 | 99精品一区二区 | 亚洲播放一区 | 日韩精品一区二区三区在线观看 | 在线一区视频 | 成人免费在线视频 | 亚洲 欧美 日韩 精品 | 精品不卡| 精品一区二区观看 | 久久精品国内 | 91九色网站 | 国产精品一区二区久久精品爱微奶 | av免费网址| 麻豆久久久9性大片 | 欧美嘿咻 | 精品久久久久久久人人人人传媒 | 亚洲成人一区 | 国产精品视频久久 | 欧美中文字幕一区二区三区亚洲 | 久久久久国产精品免费免费搜索 | a毛片| 成人免费影院 | 午夜三区 | 亚洲第一av | 久久婷婷色 | 久久亚洲精品国产精品紫薇 | 中文字幕一区二区三区不卡 | 亚洲二区在线观看 | 日韩毛片免费看 | 狠狠综合网 | 欧美精品第一页 | 成年人在线视频 | 欧美成人视屏 | 精品欧美一区二区三区久久久小说 | 久草免费在线视频 | 国产精品视频一区二区三区四区国 | 亚洲一区二区精品视频在线观看 |