成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達(dá)揭示RL Scaling魔力!訓(xùn)練步數(shù)翻倍=推理能力質(zhì)變,小模型突破推理極限

人工智能 新聞
這項(xiàng)來(lái)自 NVIDIA 的研究,讓我們重新認(rèn)識(shí)了 RL 的真正潛力——不僅能優(yōu)化策略,還能擴(kuò)展模型的能力邊界。

強(qiáng)化學(xué)習(xí)(RL)到底是語(yǔ)言模型能力進(jìn)化的「發(fā)動(dòng)機(jī)」,還是只是更努力地背題、換個(gè)方式答題?這個(gè)問(wèn)題,學(xué)界爭(zhēng)論已久:RL 真能讓模型學(xué)會(huì)新的推理技能嗎,還是只是提高了已有知識(shí)的調(diào)用效率?

過(guò)去的研究多數(shù)持悲觀態(tài)度:認(rèn)為 RL 帶來(lái)的收益非常有限,有時(shí)甚至?xí)屇P汀竿|(zhì)化」加重,失去多樣性。然而,來(lái)自英偉達(dá)的這項(xiàng)研究指出,造成這一現(xiàn)象的根本原因在于:數(shù)學(xué)、編程等任務(wù)在 base model 的訓(xùn)練數(shù)據(jù)中被過(guò)度呈現(xiàn),以及 RL 訓(xùn)練步數(shù)不足。

圖片

  • 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
  • 鏈接:https://arxiv.org/pdf/2505.24864

ProRL 來(lái)了!長(zhǎng)期訓(xùn)練 = 推理能力質(zhì)變!

由 NVIDIA 團(tuán)隊(duì)提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓(xùn)練步數(shù)從傳統(tǒng)的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結(jié)果令人震驚:

  • 原本完全不會(huì)做的邏輯謎題,ProRL 模型的 pass@k 能達(dá)到 100%
  • 創(chuàng)造力指標(biāo)(Creativity Index)飆升,模型能主動(dòng)生成全新解題路徑
  • 不再是「蒙對(duì)答案」,而是真正「開(kāi)竅」了!

圖片

這一突破主要來(lái)自于穩(wěn)定長(zhǎng)期的強(qiáng)化學(xué)習(xí),然而,長(zhǎng)期 RL 訓(xùn)練并不容易,容易出現(xiàn)熵崩塌、性能震蕩、甚至「擺爛」。為此,團(tuán)隊(duì)構(gòu)建了完整的技術(shù)組合拳:

  • 多樣化可驗(yàn)證獎(jiǎng)勵(lì)任

引入了數(shù)學(xué)、編程、科學(xué)問(wèn)答(STEM)、邏輯謎題、指令遵循等多領(lǐng)域數(shù)據(jù),這些任務(wù)具有程序化可驗(yàn)證的正確答案,為 RL 訓(xùn)練提供了可靠、客觀的監(jiān)督信號(hào),不再依賴「易被騙」的獎(jiǎng)勵(lì)模型。

  • 改進(jìn)算法組合:GRPO + DAPO

在 GRPO(Group Relative Policy Optimization)框架基礎(chǔ)上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關(guān)鍵的解耦裁剪(Decoupled Clipping)來(lái)避免策略更新失衡,以及動(dòng)態(tài)采樣(Dynamic Sampling)來(lái)過(guò)濾掉「太容易」或「完全不會(huì)」的無(wú)效樣本,提升訓(xùn)練效率。

  • KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反,本論文發(fā)現(xiàn)適度 KL 懲罰是穩(wěn)定訓(xùn)練的關(guān)鍵。同時(shí)引入?yún)⒖疾呗灾刂脵C(jī)制:當(dāng) KL 驟增或性能下滑時(shí),重置參考策略為當(dāng)前模型副本,并重置優(yōu)化器,讓訓(xùn)練「重啟」。這個(gè)簡(jiǎn)單機(jī)制有效打破訓(xùn)練停滯,使模型持續(xù)進(jìn)化。

基于 ProRL 技術(shù),團(tuán)隊(duì)訓(xùn)練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現(xiàn)出驚人的性能優(yōu)勢(shì):

  • 在數(shù)學(xué)任務(wù)中提升 14.7%,趕超 7B 模型
  • 在代碼生成上領(lǐng)先 DeepCoder-1.5B 達(dá) 6.5%
  • 在邏輯推理方面,準(zhǔn)確率提升高達(dá) 54.8%

圖片

ProRL 真的能夠拓寬模型能力邊界

近來(lái),對(duì)于 RL 是否能夠拓寬模型的能力邊界一直有爭(zhēng)議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問(wèn)題,并且發(fā)現(xiàn),長(zhǎng)期穩(wěn)定的 RL 能夠帶來(lái)模型能力的真正提升。圍繞著這個(gè)主題,文章主要揭示了三個(gè)方面的發(fā)現(xiàn):

  • RL 模型能解出 base model 無(wú)論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機(jī)波動(dòng),而是新能力的誕生。
  • 強(qiáng)化學(xué)習(xí)帶來(lái)的提升與基礎(chǔ)模型的初始表現(xiàn)之間呈顯著負(fù)相關(guān)關(guān)系。在那些 base model 表現(xiàn)較弱的任務(wù)(初始 pass@k 較低),RL 展現(xiàn)出極強(qiáng)的「推理邊界擴(kuò)展」能力。
    而在本身已經(jīng)很強(qiáng)的領(lǐng)域,如數(shù)學(xué)和代碼(這些任務(wù)的「創(chuàng)造力指數(shù)」較低),ProRL 的邊界擴(kuò)展則較為有限。對(duì)于圖中「Diminished Area」中提升較小的任務(wù),作者觀察到一個(gè)共同特征:這些任務(wù)在預(yù)訓(xùn)練數(shù)據(jù)中已被充分覆蓋,缺乏進(jìn)一步擴(kuò)展的空間,因此 RL 提供的增益有限。

圖片

  • 模型不僅「答對(duì)」,還「想得新」。作者使用 Creativity Index 對(duì)模型生成的解題路徑進(jìn)行量化評(píng)估,發(fā)現(xiàn):訓(xùn)練步數(shù)越長(zhǎng),模型「跳出預(yù)訓(xùn)練語(yǔ)料」的能力越強(qiáng)。解題方式不再拘泥于模板套路,而是展現(xiàn)出更豐富、更具創(chuàng)造性的推理策略。

總結(jié)

這項(xiàng)來(lái)自 NVIDIA 的研究,讓我們重新認(rèn)識(shí)了 RL 的真正潛力——不僅能優(yōu)化策略,還能擴(kuò)展模型的能力邊界。

通過(guò) ProRL,我們第一次看到「小模型」也可以在復(fù)雜推理任務(wù)中「迎難而上」,甚至跑贏大模型。而這種進(jìn)步,不靠更多數(shù)據(jù)、不靠更大模型,只靠更長(zhǎng)、更穩(wěn)、更聰明的訓(xùn)練流程。

未來(lái),如果你想做出推理能力強(qiáng)、部署成本低、泛化能力強(qiáng)的小語(yǔ)言模型,ProRL 可能正是那把鑰匙。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2024-10-18 14:46:51

2025-05-12 14:23:42

AI算法訓(xùn)練

2022-06-01 16:47:53

AI模型開(kāi)源

2025-03-12 09:48:19

2025-02-17 09:33:00

AI算法模型

2025-06-12 01:00:00

2023-01-05 09:33:37

視覺(jué)模型訓(xùn)練

2023-09-11 12:58:00

AI訓(xùn)練

2025-05-07 10:12:52

英偉達(dá)模型AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-02-27 09:09:45

2024-09-13 06:32:25

2025-04-22 09:12:00

AI模型數(shù)據(jù)

2023-03-22 13:53:26

芯片英偉達(dá)

2024-06-17 13:34:54

2025-02-18 15:02:13

2025-06-23 09:14:00

2025-05-13 15:13:28

AI模型訓(xùn)練

2025-04-11 09:15:00

語(yǔ)言模型AI數(shù)據(jù)

2023-11-15 14:17:23

微軟語(yǔ)言模型AI 模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 一区二区三区在线播放视频 | 狠狠躁夜夜躁人人爽天天高潮 | 色天天综合| 欧美高清视频在线观看 | 国产美女精品视频免费观看 | 日本电影一区二区 | 日韩欧美三级电影在线观看 | 日韩在线国产 | 日日干夜夜操 | 91精品国产一区二区三区 | 成人免费视频网 | 日韩精品区 | 国产精品久久久久久久一区二区 | 精品一区二区免费视频 | 国产 日韩 欧美 制服 另类 | 久久久久久亚洲精品不卡 | 精品国产一区二区三区久久久蜜月 | 夜夜操天天干 | 久久婷婷国产麻豆91 | 午夜一区二区三区 | 国产免费让你躁在线视频 | 日韩成人中文字幕 | 国产精品视频一区二区三区四蜜臂 | 三级成人片 | 色综合色综合 | 精品中文字幕视频 | 国产一区二区三区欧美 | 欧美在线观看一区二区 | 日本午夜在线视频 | 亚洲欧洲中文日韩 | 成人一区精品 | 午夜a√ | 国产免费视频在线 | 国产精品久久国产精品99 | h片在线免费看 | 亚洲一区二区三区在线播放 | 综合色影院 | 嫩草视频网 | 欧美成人第一页 | 久久综合香蕉 | 91精品国产一区二区三区 |