英偉達(dá)揭示RL Scaling魔力!訓(xùn)練步數(shù)翻倍=推理能力質(zhì)變,小模型突破推理極限
強(qiáng)化學(xué)習(xí)(RL)到底是語(yǔ)言模型能力進(jìn)化的「發(fā)動(dòng)機(jī)」,還是只是更努力地背題、換個(gè)方式答題?這個(gè)問(wèn)題,學(xué)界爭(zhēng)論已久:RL 真能讓模型學(xué)會(huì)新的推理技能嗎,還是只是提高了已有知識(shí)的調(diào)用效率?
過(guò)去的研究多數(shù)持悲觀態(tài)度:認(rèn)為 RL 帶來(lái)的收益非常有限,有時(shí)甚至?xí)屇P汀竿|(zhì)化」加重,失去多樣性。然而,來(lái)自英偉達(dá)的這項(xiàng)研究指出,造成這一現(xiàn)象的根本原因在于:數(shù)學(xué)、編程等任務(wù)在 base model 的訓(xùn)練數(shù)據(jù)中被過(guò)度呈現(xiàn),以及 RL 訓(xùn)練步數(shù)不足。
- 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
- 鏈接:https://arxiv.org/pdf/2505.24864
ProRL 來(lái)了!長(zhǎng)期訓(xùn)練 = 推理能力質(zhì)變!
由 NVIDIA 團(tuán)隊(duì)提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓(xùn)練步數(shù)從傳統(tǒng)的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結(jié)果令人震驚:
- 原本完全不會(huì)做的邏輯謎題,ProRL 模型的 pass@k 能達(dá)到 100%
- 創(chuàng)造力指標(biāo)(Creativity Index)飆升,模型能主動(dòng)生成全新解題路徑
- 不再是「蒙對(duì)答案」,而是真正「開(kāi)竅」了!
這一突破主要來(lái)自于穩(wěn)定長(zhǎng)期的強(qiáng)化學(xué)習(xí),然而,長(zhǎng)期 RL 訓(xùn)練并不容易,容易出現(xiàn)熵崩塌、性能震蕩、甚至「擺爛」。為此,團(tuán)隊(duì)構(gòu)建了完整的技術(shù)組合拳:
- 多樣化可驗(yàn)證獎(jiǎng)勵(lì)任
引入了數(shù)學(xué)、編程、科學(xué)問(wèn)答(STEM)、邏輯謎題、指令遵循等多領(lǐng)域數(shù)據(jù),這些任務(wù)具有程序化可驗(yàn)證的正確答案,為 RL 訓(xùn)練提供了可靠、客觀的監(jiān)督信號(hào),不再依賴「易被騙」的獎(jiǎng)勵(lì)模型。
- 改進(jìn)算法組合:GRPO + DAPO
在 GRPO(Group Relative Policy Optimization)框架基礎(chǔ)上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關(guān)鍵的解耦裁剪(Decoupled Clipping)來(lái)避免策略更新失衡,以及動(dòng)態(tài)采樣(Dynamic Sampling)來(lái)過(guò)濾掉「太容易」或「完全不會(huì)」的無(wú)效樣本,提升訓(xùn)練效率。
- KL 正則化 + 周期性策略重置
與一些去 KL 正則的做法相反,本論文發(fā)現(xiàn)適度 KL 懲罰是穩(wěn)定訓(xùn)練的關(guān)鍵。同時(shí)引入?yún)⒖疾呗灾刂脵C(jī)制:當(dāng) KL 驟增或性能下滑時(shí),重置參考策略為當(dāng)前模型副本,并重置優(yōu)化器,讓訓(xùn)練「重啟」。這個(gè)簡(jiǎn)單機(jī)制有效打破訓(xùn)練停滯,使模型持續(xù)進(jìn)化。
基于 ProRL 技術(shù),團(tuán)隊(duì)訓(xùn)練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現(xiàn)出驚人的性能優(yōu)勢(shì):
- 在數(shù)學(xué)任務(wù)中提升 14.7%,趕超 7B 模型
- 在代碼生成上領(lǐng)先 DeepCoder-1.5B 達(dá) 6.5%
- 在邏輯推理方面,準(zhǔn)確率提升高達(dá) 54.8%
ProRL 真的能夠拓寬模型能力邊界
近來(lái),對(duì)于 RL 是否能夠拓寬模型的能力邊界一直有爭(zhēng)議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問(wèn)題,并且發(fā)現(xiàn),長(zhǎng)期穩(wěn)定的 RL 能夠帶來(lái)模型能力的真正提升。圍繞著這個(gè)主題,文章主要揭示了三個(gè)方面的發(fā)現(xiàn):
- RL 模型能解出 base model 無(wú)論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機(jī)波動(dòng),而是新能力的誕生。
- 強(qiáng)化學(xué)習(xí)帶來(lái)的提升與基礎(chǔ)模型的初始表現(xiàn)之間呈顯著負(fù)相關(guān)關(guān)系。在那些 base model 表現(xiàn)較弱的任務(wù)(初始 pass@k 較低),RL 展現(xiàn)出極強(qiáng)的「推理邊界擴(kuò)展」能力。
而在本身已經(jīng)很強(qiáng)的領(lǐng)域,如數(shù)學(xué)和代碼(這些任務(wù)的「創(chuàng)造力指數(shù)」較低),ProRL 的邊界擴(kuò)展則較為有限。對(duì)于圖中「Diminished Area」中提升較小的任務(wù),作者觀察到一個(gè)共同特征:這些任務(wù)在預(yù)訓(xùn)練數(shù)據(jù)中已被充分覆蓋,缺乏進(jìn)一步擴(kuò)展的空間,因此 RL 提供的增益有限。
- 模型不僅「答對(duì)」,還「想得新」。作者使用 Creativity Index 對(duì)模型生成的解題路徑進(jìn)行量化評(píng)估,發(fā)現(xiàn):訓(xùn)練步數(shù)越長(zhǎng),模型「跳出預(yù)訓(xùn)練語(yǔ)料」的能力越強(qiáng)。解題方式不再拘泥于模板套路,而是展現(xiàn)出更豐富、更具創(chuàng)造性的推理策略。
總結(jié)
這項(xiàng)來(lái)自 NVIDIA 的研究,讓我們重新認(rèn)識(shí)了 RL 的真正潛力——不僅能優(yōu)化策略,還能擴(kuò)展模型的能力邊界。
通過(guò) ProRL,我們第一次看到「小模型」也可以在復(fù)雜推理任務(wù)中「迎難而上」,甚至跑贏大模型。而這種進(jìn)步,不靠更多數(shù)據(jù)、不靠更大模型,只靠更長(zhǎng)、更穩(wěn)、更聰明的訓(xùn)練流程。
未來(lái),如果你想做出推理能力強(qiáng)、部署成本低、泛化能力強(qiáng)的小語(yǔ)言模型,ProRL 可能正是那把鑰匙。