成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?

發布于 2025-6-26 01:02
瀏覽
0收藏

今天分享一篇來自NVIDIA的研究論文,標題為《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》(ProRL:長時間強化學習拓展大型語言模型的推理邊界)。

這篇文章探討了強化學習(RL)是否真正能拓展LLM推理上限?還是僅僅優化了其基礎模型中已有的高獎勵輸出的采樣效率,以及持續擴展RL計算是否能可靠地提高推理性能。作者通過引入ProRL(Prolonged Reinforcement Learning)訓練方法,證明了通過有效的RL方法能持續提升LLM的推理上限。

該方法特點總結如下:

1.訓練穩定性與效率:ProRL通過引入KL散度控制、參考策略重置以及多樣化的任務集,實現了長期的穩定訓練和持續的性能提升

2.卓越的性能表現:訓練出的Nemotron-Research-Reasoning-Qwen-1.5B模型在各種Pass@k評估中持續優于基礎模型,包括基礎模型完全失敗的場景。在多個基準測試上,其性能甚至超越或匹敵了更大的DeepSeek-R1-7B模型

3.泛化能力強:模型在訓練2000多步后仍持續改進,表明RL訓練能夠有效利用更多計算資源,并能很好地泛化到未見過的分布外(OOD)任務和難度更高的任務

4.證明有效的RL能提升LLM的推理上限:證明了延長RL訓練(ProRL)可以發現基礎模型中甚至通過廣泛采樣也無法獲得的新穎推理策略,從而真正擴展了模型的推理能力,而非僅僅優化現有能力。

一、概述

?Title:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

?URL:https://arxiv.org/abs/2505.24864v1 (請注意,根據OCR內容,此URL指向一個未來日期2025年5月,這可能是OCR的預印本占位符或特定排版,實際論文發表時URL可能會有所不同)

?Authors:Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong

?Institution:NVIDIA

?Code:?? https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B??

1 Motivation

? 當前研究界普遍存在爭議,即強化學習(RL)是否真正擴展了語言模型的推理能力,還是僅僅增強了基礎模型中已有的高獎勵輸出的采樣效率。

?現有RL研究存在局限性:過度依賴數學等專業領域進行評估,模型在預訓練和后訓練階段可能過擬合,限制了探索潛力;以及RL訓練過早終止,通常僅進行數百步,模型未能充分探索和發展新的推理能力。

? 本文希望證明通過長時間的、穩定的RL訓練,模型可以學習到基礎模型即使通過大量采樣也無法獲得的全新推理策略

2 Methods

省流版總結:

論文提出了ProRL(Prolonged Reinforcement Learning),一種新穎的訓練方法,旨在通過長時間、穩定的RL訓練來擴展大型語言模型的推理能力。其核心在于解決RL訓練中的熵崩潰和不穩定性問題,并通過多樣化的任務和策略優化手段,使模型能夠進行更深層次的探索和學習。

ProRL使得模型能夠進行2000步以上的長時間訓練,并在多樣化的任務上持續提升性能,最終開發出Nemotron-Research-Reasoning-Qwen-1.5B,一個在推理能力上顯著超越其基礎模型(DeepSeek-R1-1.5B)并匹敵甚至超越DeepSeek-R1-7B的模型。

詳細方法和步驟:

RL算法選擇啥?: 還是采用DeepSeek的GRPO,與PPO不同,GRPO移除了價值模型,而是基于組分數估計基線,并通過最大化其目標函數來進行優化。

熵崩潰是什么?如何緩解熵崩潰策略? 針對RL訓練中常見的熵崩潰問題(模型輸出分布過早收斂,限制探索),ProRL采用了多項措施:

?高探索溫度:在rollout階段使用較高的采樣溫度,鼓勵初期探索。

?解耦剪裁(參考DAPO):引入DAPO算法的解耦剪裁機制,將PPO目標中的上下剪裁邊界作為獨立超參數(, )。提高值可以提升先前可能性較低的token的概率,鼓勵更廣泛的探索,有助于維持熵并減少過早的模式崩潰。

?動態采樣(參考DAPO):過濾掉模型能一致成功或失敗(準確率1或0)的Prompt,將訓練重點放在中等難度示例上,以維持多樣化的學習信號。

?KL正則化:引入KL散度懲罰項  到GRPO目標函數中。這不僅有助于維持熵,還能防止在線策略偏離穩定參考策略過遠,從而穩定學習并減輕對虛假獎勵信號的過擬合。

?ref model重置(當出現驗證集表現變差時,更新ref model):為解決KL項可能在訓練后期主導損失,導致策略更新減弱的問題,ProRL周期性地將參考策略模型硬重置為在線策略的最新快照(即減少最新的online model和ref model的差異,降低KL項的影響),并重新初始化優化器狀態。這種策略允許模型在保持KL正則化優勢的同時繼續改進,鼓勵長時間訓練。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區

?多樣化訓練數據集構建:構建了一個包含136K個問題的多樣化且可驗證的訓練數據集,涵蓋數學、代碼、STEM、邏輯謎題和指令遵循等五大任務領域。每種任務類型都配有清晰的獎勵信號(二元或連續),以實現訓練期間的可靠反饋,鼓勵泛化能力。

DAPO是啥?主要采用了哪些技術?

?Clip-Higher:該技術旨在提升系統的多樣性并避免熵崩潰。傳統 PPO 的剪輯機制限制了策略的探索,Clip-Higher 通過解耦上下限剪輯范圍,允許更自由地增加低概率 token 的概率,從而鼓勵探索。

?Dynamic Sampling:動態采樣旨在提高訓練效率和穩定性。它過采樣并過濾掉準確率等于 1 或 0 的 prompt,保留有效梯度的 prompt,并保持 batch 中 prompt 數量的穩定。在訓練前,持續采樣直到 batch 被準確率非 0 或 1 的樣本填滿。

?Token-Level Policy Gradient Loss:token級策略梯度損失對于長 CoT (Chain-of-Thought) RL 場景至關重要。原始 GRPO 算法采用樣本級損失計算,長回復中的 token 對總損失的貢獻可能不成比例地降低。Token-Level Policy Gradient Loss 使得更長的序列對梯度更新有更多影響,并對每個 token 的獎勵變化做出響應。

?Overlong Reward Shaping:過長獎勵塑造旨在減少獎勵噪聲并穩定訓練。對于被截斷的過長樣本,默認會分配懲罰性獎勵,但這會引入噪聲。論文提出了 Overlong Filtering 策略來屏蔽截斷樣本的損失,并提出了 Soft Overlong Punishment 機制,對超過預定義最大長度的回復施加長度感知懲罰,以引導模型避免過長的回復

實驗設置細節是啥?

? 使用??verl??框架進行RL訓練。

? 采用AdamW優化器,學習率為??2e-6??。

? 在48個NVIDIA H100-80GB節點上進行訓練,總計約16k GPU小時。

? 通過混合驗證集密切監控訓練進度。當驗證性能停滯或下降時,執行參考模型和優化器的硬重置。

? 在訓練的大部分時間里,將響應長度限制在8k token以內,以保持簡潔和穩定的生成。在最后階段,將上下文窗口增加到16k token。

3 Conclusion

?RL確實能擴展推理邊界:長時間、穩定的強化學習(ProRL)能夠使語言模型學習到其基礎模型中不存在的、全新的推理策略和解決方案。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區

?ProRL的有效性:ProRL訓練的模型(Nemotron-Research-Reasoning-Qwen-1.5B)在數學、編碼、STEM、邏輯謎題和指令遵循等多種任務上顯著優于其基礎模型,并在某些情況下達到或超過了更大規模或領域專用模型的性能。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區

?推理提升與初始能力和訓練時長相關:模型推理邊界的改進程度與基礎模型在該任務上的初始能力以及RL訓練的持續時間密切相關。RL在基礎模型表現較弱的領域能帶來更大的提升,且持續訓練能讓RL探索并填充新的解空間區域。

NVIDIA(ProRL)|RL到底能不能提升LLM的推理上限?-AI.x社區

4 Limitation

?計算資源需求大:ProRL所涉及的長時間RL訓練過程需要大量的計算資源,這可能對預算有限的小型組織或研究者構成障礙。

?可擴展性問題:雖然在1.5B參數模型上取得了成功,但該方法是否能有效擴展到更大規模的模型(如百億或千億參數)尚不明確,更大模型對計算資源的需求將更加顯著。

?訓練過程復雜性:ProRL依賴周期性的參考策略和優化器硬重置來維持訓練穩定性,這增加了訓練過程的復雜性,并可能導致與更穩定訓練方法相比結果不一致。

?任務范圍局限性:盡管評估涵蓋了多樣化的領域,但訓練數據集仍只代表了所有可能推理任務的一個子集。模型在某些分布外任務上表現出有希望的泛化能力,但不能保證在所有未明確訓練的推理領域都有類似的改進。


二、總結

結論1: ProRL證明RL有效擴展了LLM的推理邊界。 通過長時間、穩定的RL訓練,證明了模型能夠發現基礎模型中未曾出現的新穎推理策略,并在多項任務上實現了超越基礎模型的性能,包括在OOD任務上的強大泛化能力。

結論2: ProRL通過創新技術確保了RL訓練的穩定性和效率。 針對RL訓練中常見的熵崩潰和不穩定性問題,ProRL引入了KL散度控制、Ref Model周期性重置、解耦剪裁和動態采樣等機制。這些技術使得模型能夠在長時間訓練(超過2000步)中持續進步,有效利用計算資源,為長期RL在推理任務中的應用奠定了基礎。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-6-26 09:35:51修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕欧美日韩一区 | 亚洲欧美一区二区三区情侣bbw | 一二三四在线视频观看社区 | 丝袜美腿av | 99婷婷 | 国产精品久久久久久久白浊 | 国产99久久久国产精品下药 | av在线免费网 | 国产高清在线精品一区二区三区 | 日韩av美女电影 | 久久精品国产v日韩v亚洲 | 中文字幕精品一区 | 欧美黄色网 | 欧美久久久久久久久 | 亚洲区中文字幕 | 久久91 | 91麻豆精品国产91久久久更新资源速度超快 | 亚洲精品欧美一区二区三区 | 亚洲久视频 | 国产精品国产精品国产专区不蜜 | 欧美成人精品激情在线观看 | 久久精品国产一区二区三区不卡 | 亚洲视频中文字幕 | 免费一看一级毛片 | 欧美日韩在线免费观看 | 91精品国产91久久久久久吃药 | 久久国产精品无码网站 | 国产乱码精品一区二三赶尸艳谈 | 亚洲欧洲精品成人久久奇米网 | 久久国产精品偷 | 日日爱av | 天天天天操 | 日韩精品 电影一区 亚洲 | 黄篇网址 | 午夜一区二区三区 | 秋霞电影一区二区三区 | 国产一区二区三区四 | 午夜性色a√在线视频观看9 | 国产成人精品一区二区三区在线 | 国产精品久久久久无码av | 国产亚洲精品精品国产亚洲综合 |