英偉達(dá)揭示RL Scaling魔力！訓(xùn)練步數(shù)翻倍=推理能力質(zhì)變，小模型突破推理極限

2025-06-04 13:56:06

這項(xiàng)來(lái)自 NVIDIA 的研究，讓我們重新認(rèn)識(shí)了 RL 的真正潛力——不僅能優(yōu)化策略，還能擴(kuò)展模型的能力邊界。

強(qiáng)化學(xué)習(xí)（RL）到底是語(yǔ)言模型能力進(jìn)化的「發(fā)動(dòng)機(jī)」，還是只是更努力地背題、換個(gè)方式答題？這個(gè)問(wèn)題，學(xué)界爭(zhēng)論已久：RL 真能讓模型學(xué)會(huì)新的推理技能嗎，還是只是提高了已有知識(shí)的調(diào)用效率？

過(guò)去的研究多數(shù)持悲觀態(tài)度：認(rèn)為 RL 帶來(lái)的收益非常有限，有時(shí)甚至?xí)屇Ｐ汀竿|(zhì)化」加重，失去多樣性。然而，來(lái)自英偉達(dá)的這項(xiàng)研究指出，造成這一現(xiàn)象的根本原因在于：數(shù)學(xué)、編程等任務(wù)在 base model 的訓(xùn)練數(shù)據(jù)中被過(guò)度呈現(xiàn)，以及 RL 訓(xùn)練步數(shù)不足。

論文題目：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
鏈接：https://arxiv.org/pdf/2505.24864

ProRL 來(lái)了！長(zhǎng)期訓(xùn)練 = 推理能力質(zhì)變！

由 NVIDIA 團(tuán)隊(duì)提出的 ProRL（Prolonged Reinforcement Learning）框架，將 RL 訓(xùn)練步數(shù)從傳統(tǒng)的幾百步大幅提升至 2000 步以上，釋放了小模型潛藏的巨大潛力。結(jié)果令人震驚：

原本完全不會(huì)做的邏輯謎題，ProRL 模型的 pass@k 能達(dá)到 100%
創(chuàng)造力指標(biāo)（Creativity Index）飆升，模型能主動(dòng)生成全新解題路徑
不再是「蒙對(duì)答案」，而是真正「開(kāi)竅」了！

這一突破主要來(lái)自于穩(wěn)定長(zhǎng)期的強(qiáng)化學(xué)習(xí)，然而，長(zhǎng)期 RL 訓(xùn)練并不容易，容易出現(xiàn)熵崩塌、性能震蕩、甚至「擺爛」。為此，團(tuán)隊(duì)構(gòu)建了完整的技術(shù)組合拳：

多樣化可驗(yàn)證獎(jiǎng)勵(lì)任

引入了數(shù)學(xué)、編程、科學(xué)問(wèn)答（STEM）、邏輯謎題、指令遵循等多領(lǐng)域數(shù)據(jù)，這些任務(wù)具有程序化可驗(yàn)證的正確答案，為 RL 訓(xùn)練提供了可靠、客觀的監(jiān)督信號(hào)，不再依賴「易被騙」的獎(jiǎng)勵(lì)模型。

改進(jìn)算法組合：GRPO + DAPO

在 GRPO（Group Relative Policy Optimization）框架基礎(chǔ)上，融合 DAPO（Decoupled Clip and Dynamic Sampling）關(guān)鍵的解耦裁剪（Decoupled Clipping）來(lái)避免策略更新失衡，以及動(dòng)態(tài)采樣（Dynamic Sampling）來(lái)過(guò)濾掉「太容易」或「完全不會(huì)」的無(wú)效樣本，提升訓(xùn)練效率。

KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反，本論文發(fā)現(xiàn)適度 KL 懲罰是穩(wěn)定訓(xùn)練的關(guān)鍵。同時(shí)引入?yún)⒖疾呗灾刂脵C(jī)制：當(dāng) KL 驟增或性能下滑時(shí)，重置參考策略為當(dāng)前模型副本，并重置優(yōu)化器，讓訓(xùn)練「重啟」。這個(gè)簡(jiǎn)單機(jī)制有效打破訓(xùn)練停滯，使模型持續(xù)進(jìn)化。

基于 ProRL 技術(shù)，團(tuán)隊(duì)訓(xùn)練出 Nemotron-Research-Reasoning-Qwen-1.5B，展現(xiàn)出驚人的性能優(yōu)勢(shì)：

在數(shù)學(xué)任務(wù)中提升 14.7%，趕超 7B 模型
在代碼生成上領(lǐng)先 DeepCoder-1.5B 達(dá) 6.5%
在邏輯推理方面，準(zhǔn)確率提升高達(dá) 54.8%

ProRL 真的能夠拓寬模型能力邊界

近來(lái)，對(duì)于 RL 是否能夠拓寬模型的能力邊界一直有爭(zhēng)議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問(wèn)題，并且發(fā)現(xiàn)，長(zhǎng)期穩(wěn)定的 RL 能夠帶來(lái)模型能力的真正提升。圍繞著這個(gè)主題，文章主要揭示了三個(gè)方面的發(fā)現(xiàn)：

RL 模型能解出 base model 無(wú)論如何采樣都完全答不出的題，甚至做到 pass@k 100%。這不是隨機(jī)波動(dòng)，而是新能力的誕生。
強(qiáng)化學(xué)習(xí)帶來(lái)的提升與基礎(chǔ)模型的初始表現(xiàn)之間呈顯著負(fù)相關(guān)關(guān)系。在那些 base model 表現(xiàn)較弱的任務(wù)（初始 pass@k 較低），RL 展現(xiàn)出極強(qiáng)的「推理邊界擴(kuò)展」能力。
而在本身已經(jīng)很強(qiáng)的領(lǐng)域，如數(shù)學(xué)和代碼（這些任務(wù)的「創(chuàng)造力指數(shù)」較低），ProRL 的邊界擴(kuò)展則較為有限。對(duì)于圖中「Diminished Area」中提升較小的任務(wù)，作者觀察到一個(gè)共同特征：這些任務(wù)在預(yù)訓(xùn)練數(shù)據(jù)中已被充分覆蓋，缺乏進(jìn)一步擴(kuò)展的空間，因此 RL 提供的增益有限。

模型不僅「答對(duì)」，還「想得新」。作者使用 Creativity Index 對(duì)模型生成的解題路徑進(jìn)行量化評(píng)估，發(fā)現(xiàn)：訓(xùn)練步數(shù)越長(zhǎng)，模型「跳出預(yù)訓(xùn)練語(yǔ)料」的能力越強(qiáng)。解題方式不再拘泥于模板套路，而是展現(xiàn)出更豐富、更具創(chuàng)造性的推理策略。

總結(jié)

這項(xiàng)來(lái)自 NVIDIA 的研究，讓我們重新認(rèn)識(shí)了 RL 的真正潛力——不僅能優(yōu)化策略，還能擴(kuò)展模型的能力邊界。

通過(guò) ProRL，我們第一次看到「小模型」也可以在復(fù)雜推理任務(wù)中「迎難而上」，甚至跑贏大模型。而這種進(jìn)步，不靠更多數(shù)據(jù)、不靠更大模型，只靠更長(zhǎng)、更穩(wěn)、更聰明的訓(xùn)練流程。

未來(lái)，如果你想做出推理能力強(qiáng)、部署成本低、泛化能力強(qiáng)的小語(yǔ)言模型，ProRL 可能正是那把鑰匙。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

英偉達(dá)訓(xùn)練模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達(dá)揭示RL Scaling魔力！訓(xùn)練步數(shù)翻倍=推理能力質(zhì)變，小模型突破推理極限

ProRL 來(lái)了！長(zhǎng)期訓(xùn)練 = 推理能力質(zhì)變！

ProRL 真的能夠拓寬模型能力邊界

總結(jié)