MSRA清北推出強(qiáng)化預(yù)訓(xùn)練！取代傳統(tǒng)自監(jiān)督，14B模型媲美32B

2025-06-12 08:46:00

微軟亞洲研究院（MSRA）聯(lián)合清華大學(xué)、北京大學(xué)提出全新預(yù)訓(xùn)練范式RPT（強(qiáng)化預(yù)訓(xùn)練），首次將強(qiáng)化學(xué)習(xí)深度融入預(yù)訓(xùn)練階段，讓模型在預(yù)測每個(gè)token前都能先“動(dòng)腦推理”，并根據(jù)推理正確性獲得獎(jiǎng)勵(lì)。

“預(yù)測下一個(gè)token”——這個(gè)支撐LLM的核心訓(xùn)練機(jī)制，正在被強(qiáng)化學(xué)習(xí)顛覆。

微軟亞洲研究院（MSRA）聯(lián)合清華大學(xué)、北京大學(xué)提出全新預(yù)訓(xùn)練范式RPT（強(qiáng)化預(yù)訓(xùn)練），首次將強(qiáng)化學(xué)習(xí)深度融入預(yù)訓(xùn)練階段，讓模型在預(yù)測每個(gè)token前都能先“動(dòng)腦推理”，并根據(jù)推理正確性獲得獎(jiǎng)勵(lì)。

傳統(tǒng)預(yù)訓(xùn)練依賴海量文本進(jìn)行自監(jiān)督學(xué)習(xí)，模型通過簡單預(yù)測下一個(gè)token建立語言能力，作者將之比喻為一塊蛋糕胚，而RL只是作為上面點(diǎn)綴的一顆櫻桃。

現(xiàn)在RPT要做的就是用櫻桃直接做蛋糕，即將這一過程重構(gòu)為推理任務(wù)，促進(jìn)模型更深層次理解和提升下一個(gè)token的預(yù)測準(zhǔn)確度。

那這塊櫻桃蛋糕到底怎么做？詳細(xì)烘焙流程我們接著往下看。

將強(qiáng)化學(xué)習(xí)引入預(yù)訓(xùn)練

傳統(tǒng)的預(yù)訓(xùn)練方法采用自監(jiān)督的下一個(gè)token預(yù)測任務(wù)，而RL通常承擔(dān)微調(diào)LLM的功能，使其與人類偏好對齊或者增強(qiáng)復(fù)雜推理。

然而基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）過度依賴昂貴數(shù)據(jù)，且模型容易受到獎(jiǎng)勵(lì)破解；可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR）也會(huì)受到數(shù)據(jù)稀缺的限制，只能應(yīng)用于特定領(lǐng)域的微調(diào)。

為了讓強(qiáng)化學(xué)習(xí)更好地作用于LLM，團(tuán)隊(duì)提出的全新范式強(qiáng)化預(yù)訓(xùn)練RPT，激勵(lì)使用RL進(jìn)行有效的Next-Token推理任務(wù)，將預(yù)訓(xùn)練語料庫重構(gòu)為推理問題集，推動(dòng)預(yù)訓(xùn)練從學(xué)習(xí)表面的token相關(guān)性轉(zhuǎn)為理解深層含義。

模型首先需要對多個(gè)token生成一個(gè)思維鏈推理序列，涉及多種推理模式（如頭腦風(fēng)暴、自我批評和自我糾正），然后再為下一個(gè)token生成預(yù)測。

具體來說，RPT就是通過讓LLM同策略（on-policy）執(zhí)行，以生成多條不同的思維軌跡，每條軌跡包含中間推理步驟和對下一個(gè)token的最終預(yù)測。

引入前綴匹配獎(jiǎng)勵(lì)，驗(yàn)證預(yù)測的正確性。如果預(yù)測與真實(shí)token匹配，則分配正獎(jiǎng)勵(lì)1，反之為0。該獎(jiǎng)勵(lì)信號將用于更新LLM，以鼓勵(lì)生成能準(zhǔn)確延續(xù)上下文的軌跡。

團(tuán)隊(duì)使用包含4428個(gè)競賽數(shù)學(xué)問題及答案的OmniMATH數(shù)據(jù)集，并通過計(jì)算下一token的熵和設(shè)定閾值，進(jìn)行數(shù)據(jù)過濾，只保留更難預(yù)測的token參與訓(xùn)練。

另外采用Deepseek-R1-Distill-Qwen-14B作為基礎(chǔ)模型，使用GRPO算法和8K的訓(xùn)練長度，批大小為256個(gè)問題，每個(gè)問題采樣8個(gè)響應(yīng)。

更深層次的推理

實(shí)驗(yàn)表明，與R1-Distill-Queen-14B相比，RPT-14B在三種難度（簡單、中等、困難）上均實(shí)現(xiàn)了更高的下一個(gè)token預(yù)測準(zhǔn)確率，優(yōu)于標(biāo)準(zhǔn)下一token預(yù)測基線和使用推理的預(yù)測基線。

在性能上，也可與更大的模型R1-Distill-Queen-32B相媲美，說明RPT能有效捕捉token生成背后的復(fù)雜推理信號，并在提升LLM的語言建模能力方面擁有巨大潛力。

RPT在跨難度的訓(xùn)練計(jì)算方面，也表現(xiàn)出清晰的冪律縮放 （Power-law Scaling），預(yù)測準(zhǔn)確性隨著計(jì)算的增加而不斷提高，并且與理論曲線緊密擬合。

與傳統(tǒng)的使用下一個(gè)token預(yù)測相比，在具有可驗(yàn)證答案的問題（即Skywork-OR1）上，使用RL微調(diào)RPT模型顯示出更強(qiáng)的推理能力。

在數(shù)據(jù)有限的情況下，可以快速將從下一token推理中學(xué)習(xí)到的強(qiáng)化推理模式遷移至最終任務(wù)。

另外模型在SuperGPQA和MMLU-Pro基準(zhǔn)測試上的零樣本評估表明，RPT-14B不僅優(yōu)于R1-Distill-Queen-14B，還在推理模式中顯著超過了R1-Distill-Qwen-32B。

最后團(tuán)隊(duì)還對推理軌跡進(jìn)行分析，發(fā)現(xiàn)與顯式問題解決模型相比，RPT-14B采用了更多的假設(shè)生成、替代方案的考慮以及對結(jié)構(gòu)線索甚至顆粒度token級細(xì)節(jié)的反思。

既包含高級語義理解，又包含低級文本特征，說明RPT在訓(xùn)練過程中會(huì)培養(yǎng)更深層次的推理習(xí)慣。

One More Thing

這塊著名的“蛋糕論”最早出自圖靈獎(jiǎng)得主Yann LeCun在2016年的演講。

如果智能是一塊蛋糕，那么大部分蛋糕都是無監(jiān)督學(xué)習(xí)，蛋糕上的裱花是監(jiān)督學(xué)習(xí)，而蛋糕頂部的櫻桃則是強(qiáng)化學(xué)習(xí)。

而現(xiàn)在試圖用強(qiáng)化學(xué)習(xí)碾碎這塊蛋糕的，還有OpenAI。

在上個(gè)月紅杉組織的AI Ascent活動(dòng)中，OpenAI科學(xué)家Dan Roberts就提及了他們在將RL置于模型預(yù)訓(xùn)練過程中的轉(zhuǎn)變。

在GPT-4o中全是傳統(tǒng)預(yù)訓(xùn)練計(jì)算，在o1中引入了一些強(qiáng)化學(xué)習(xí)運(yùn)算并且取得了不錯(cuò)的效果，在o3中則引入更多，他們預(yù)計(jì)在未來的某一代模型中，將會(huì)完全由RL計(jì)算主導(dǎo)。

有理由相信，未來RL或許將在LLM預(yù)訓(xùn)練過程中掀起更大的風(fēng)暴，且讓我們拭目以待。

論文鏈接：https://arxiv.org/abs/2506.08007

責(zé)任編輯：張燕妮來源：量子位

強(qiáng)化訓(xùn)練模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MSRA清北推出強(qiáng)化預(yù)訓(xùn)練！取代傳統(tǒng)自監(jiān)督，14B模型媲美32B

將強(qiáng)化學(xué)習(xí)引入預(yù)訓(xùn)練

更深層次的推理

One More Thing