成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NVIDIA 新成果:ProRL 拓展 LLM 推理邊界

人工智能
ProRL 方法通過長時間穩定訓練與多樣化任務組合,有效引導模型探索新推理路徑,使 Nemotron-Research-Reasoning-Qwen-1.5B 模型在多領域推理任務中顯著提升性能,成功突破基礎模型限制,挑戰了強化學習局限性的傳統認知。

大家好,我是肆〇柒。本文想和大家分享一篇來自 NVIDIA 研究團隊的前沿論文——《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》。這篇論文挑戰了強化學習在大型語言模型(LLM)中作用的傳統認知,還提出了一種創新的訓練方法 ProRL,通過長時間的強化學習訓練,顯著提升了模型的推理能力。文中 ProRL 的實踐用例,Reasoning Gym 的 boxnet 任務和 graph_color 任務,強化學習后的模型展現了出色的表現,這類基礎模型未見任務通過 ProRL 強化學習展現出的泛化能力,很是亮眼。這個研究成果為模型 Post train 提供了新的思路,也為我們理解模型推理邊界的拓展提供了深刻的見解。下面,我們一起來看看NVIDIA的這個研究它說了什么。

推理能力的崛起與強化學習的關鍵角色

近來,大型語言模型(LLM)在推理任務上的表現令人矚目。以 OpenAI-O1 和 DeepSeek-R1 為代表的模型,通過強化學習(RL)技術,在數學問題求解、代碼生成等復雜任務上取得了顯著進展。而模型推理能力的提升,對于解決實際應用中的復雜問題至關重要,它使得模型能夠更好地理解和處理復雜的邏輯關系和多步驟任務。

強化學習作為一種訓練范式,通過與環境的交互不斷優化模型的決策過程,成為了提升模型推理能力的關鍵技術之一。與傳統的監督學習不同,強化學習通過優化可驗證的目標獎勵,而非依賴于學習型獎勵模型,從而有效避免了獎勵欺騙(reward hacking)問題,并使模型更緊密地與正確的推理過程對齊。例如,在數學問題求解中,模型通過強化學習能夠學會逐步驗證中間結果的正確性,而不是直接跳躍到最終答案,從而提高了答案的準確性和可靠性。

強化學習是能力拓展還是輸出放大?

盡管強化學習在提升模型推理性能方面取得了顯著成效,但學術界對其作用機制仍存在激烈爭論。一個核心問題是:強化學習究竟是幫助模型拓展了新的推理能力,還是僅僅放大了基礎模型中已潛在存在的高回報輸出?換句話說,強化學習是否只是優化了模型在訓練數據上的表現,而未真正提升其應對新問題和復雜場景的能力?

先前的研究表明,基于強化學習的模型可能并未獲得超越基礎模型的新推理能力。例如,有研究指出,某些經過強化學習訓練的模型在特定數學任務上的表現提升,實際上是因為模型在訓練過程中反復接觸了類似問題,從而記住了問題模式和答案,而非真正理解了問題背后的數學原理。這種現象引發了對強化學習方法的質疑,即其是否僅是一種“表面優化”,而非實質性的能力提升。

然而,研究者們認為這些結論可能受限于研究方法的局限性。一方面,現有研究對特定領域(如數學)的過度依賴可能導致結果偏向性。在這些領域,模型在預訓練和后續訓練階段往往接受了大量相關數據的訓練,從而限制了其探索新領域和新問題的潛力。另一方面,強化學習訓練的提前終止也是一個關鍵因素。大多數研究僅進行了有限的強化學習訓練步驟(通常不超過數百步),這不足以讓模型充分探索和開發新的推理策略。例如,某些復雜的邏輯推理任務可能需要數千步的訓練才能顯現效果,而過早停止訓練可能導致對強化學習潛力的低估。

挑戰傳統觀點,提出ProRL方法

ProRL就在挑戰上述觀點,證明通過長時間的強化學習訓練(ProRL),可以挖掘出基礎模型無法觸及的新型推理策略,從而顯著提升模型的推理能力。為此,研究者們提出了ProRL訓練方法,該方法通過引入多種創新機制,解決了強化學習訓練中的關鍵挑戰,實現了模型推理能力的持續拓展。

ProRL方法的核心貢獻包括:

1. 引入KL散度控制,防止模型輸出分布過早集中,維持探索多樣性;

2. 定期重置參考策略,打破路徑依賴,避免模型陷入局部最優解;

3. 構建多樣化的任務組合,涵蓋數學、代碼、STEM、邏輯謎題和指令遵循等多個領域,促進模型泛化能力的提升。

通過這些創新,ProRL 提升了模型在已知任務上的表現,還使其能夠在未見過的復雜任務中展現出超越基礎模型的推理能力,為大型語言模型的推理能力發展開辟了新的路徑。

我們先看看ProRL訓練的綜合效果,如下圖所示:

長期強化學習(ProRL)的優勢

ProRL 方法論:核心算法與訓練挑戰的應對

核心強化學習算法 - GRPO:優化策略的新途徑

在 ProRL 方法中,Group Relative Policy Optimization(GRPO)作為核心的強化學習算法,為模型的訓練提供了有力支持。GRPO 算法與傳統的近端策略優化(PPO)相比,具有獨特的特點和優勢。GRPO 去除了價值模型,轉而基于組分數估計基線,通過概率比率和組分數來優化策略。這樣以來,簡化了模型架構并提高了訓練效率。GRPO 的目標函數就是為了最大化策略的相對優勢,其公式如下:

GRPO通過這種方式,利用組內樣本的相對優勢來指導策略更新,避免了對單一價值模型的依賴。例如,在一個包含多個數學問題的批次中,模型會根據每個問題在批次內的相對難度和解決情況來調整策略,而不是依賴于絕對的價值估計。這種相對優勢的評估方式,使得GRPO在處理多樣化任務時更加穩健,能夠更好地捕捉任務間的差異和聯系。

應對長時間訓練挑戰:熵崩潰與參考策略重置的解決方案

熵崩潰現象及其解決方案

在長時間的強化學習訓練中,模型面臨著一系列挑戰,其中熵崩潰是一個關鍵問題。熵崩潰指的是模型的輸出分布過早地變得過于集中在某些特定輸出上,導致模型的探索能力急劇下降,從而限制了策略優化的空間,使得模型難以發現新的有效路徑。

為了解決這一問題,ProRL 方法采用了多種策略。

1?? 首先,增加采樣溫度是一種簡單而有效的方法,它能夠在訓練初期增加輸出的多樣性,從而延遲熵崩潰的發生。然而,這種方法并不能從根本上解決問題,因為隨著訓練的進行,熵仍然會逐漸下降。

2?? 然后,ProRL 引入了解耦裁剪(Decoupled Clip)和動態采樣(Dynamic Sampling)策略。ProRL借鑒了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法中的解耦裁剪和動態采樣策略。(擴展閱讀????:《LLM 強化學習的開源新力量:字節跳動 DAPO 算法》)解耦裁剪通過分別設置上下界來靈活控制概率比率的范圍,公式如下:

動態采樣則通過過濾掉模型已經能夠持續成功或失敗的樣本,專注于中等難度的樣本,從而維持多樣化的學習信號。例如,在數學問題求解中,模型會逐漸忽略那些總是正確或總是錯誤的問題,轉而集中精力優化對部分正確的問題的處理策略。

3?? 還有一點,KL 正則化(KL Regularization) 也是 ProRL 中解決熵崩潰的重要手段。通過在損失函數中加入 KL 散度懲罰項,限制當前策略與參考策略之間的 KL 散度,可以有效地維持輸出的多樣性。這有助于緩解熵崩潰,并且能夠防止模型在訓練過程中偏離穩定的參考策略過遠,從而提高訓練的穩定性。

參考策略重置:打破路徑依賴,激發持續探索能力

參考策略重置是ProRL的另一關鍵創新。隨著訓練的進行,KL懲罰項可能逐漸主導損失函數,導致策略更新變得微不足道。為緩解這一問題,ProRL引入了參考策略重置技術。定期將參考策略硬重置為在線策略的較新快照,并重新初始化優化器狀態。這種重置策略打破了模型在訓練過程中的路徑依賴,避免其陷入局部最優解,從而激發模型的持續探索能力,為發現新的推理路徑創造條件。

重置的時機選擇至關重要。通常在驗證性能停滯或下降時進行重置,這不僅恢復了訓練的穩定性,還為模型提供了調整訓練方向的機會。例如,在訓練過程中,當模型在數學問題求解上的驗證準確率連續多個步驟未提升時,觸發重置操作。重置后,模型能夠基于新的參考策略重新探索問題空間,發現新的推理路徑。這種動態調整機制使得ProRL能夠在長時間訓練中保持高效的學習和優化能力。

Nemotron-Research-Reasoning-Qwen-1.5B 模型:ProRL的實踐范例

模型概述:1.5B參數模型的突破

Nemotron-Research-Reasoning-Qwen-1.5B 是一個基于 ProRL 方法訓練的通用推理模型,它在多個領域展現了卓越的推理能力。該模型擁有 1.5B 參數規模,訓練數據集涵蓋了數學、代碼、STEM、邏輯謎題和指令遵循等 136K 個問題,這些多樣化的任務為模型提供了豐富的學習環境,使其能夠適應各種不同的推理需求。訓練數據的詳細信息如下表所示:

實驗中使用的訓練數據概述

精細化的訓練參數與資源調配

Nemotron-1.5B的訓練基于verl強化學習訓練框架,并對GRPO算法進行了多項增強。具體設置如下:

  • 解耦裁剪超參數:設置低裁剪界限為0.2,高裁剪界限為0.4,以平衡穩定性和探索性。
  • 動態采樣:過濾掉準確率為1或0的樣本,專注于中等難度樣本,維持多樣化的學習信號。
  • 采樣溫度:設置為1.2,提高初始探索的多樣性。
  • 批量大小與小批量大小:批量大小為256,小批量大小為64,每個采樣步進行4次梯度更新。
  • 優化器與學習率:采用AdamW優化器,學習率為2×10??。
  • 硬件資源:使用4個8×NVIDIA-H100-80GB節點進行訓練,總訓練時間為約16k GPU小時。

例如,在訓練過程中,模型通過動態采樣策略,能夠實時調整訓練樣本的分布。當模型在代碼生成任務上表現出對某些簡單算法的高掌握度時,系統會自動減少這些樣本的比例,轉而增加對復雜算法問題的采樣,從而確保訓練過程始終聚焦于提升模型的薄弱環節。

驗證集監控與性能提升機制

為了確保訓練的有效性和模型的持續改進,研究人員通過一個混合驗證集來監控訓練進展。這個驗證集涵蓋了多個關鍵任務,包括 AIME2024、Codeforces、GPQA-diamond、IFEval 和 Reasoning Gym 中的 graph_color 任務。在訓練過程中,當驗證性能停滯或下降時,會觸發參考模型和優化器的硬重置。這種策略既恢復了訓練的穩定性,又可為模型提供新的學習動力,使其能夠繼續探索和優化。

訓練過程中,響應長度與驗證分數之間呈現出一定的正相關性。隨著訓練的進行,模型在生成更長的推理路徑時,驗證分數也隨之提高。這表明模型在逐漸理解復雜任務的結構,并不斷優化其推理策略。盡管如此,也有階段出現驗證性能的提升并未伴隨著響應長度的顯著增加,這說明模型在優化過程中可能更多地依賴于推理質量的提升,而非單純的推理步驟數量的增加。

ProRL訓練過程中的動態變化如下圖所示:

ProRL訓練動態

實驗評估:性能比較與泛化能力驗證

評估基準與設置

為全面評估Nemotron-1.5B模型的性能,研究者選擇了涵蓋多個領域的任務和基準測試:

  • 數學:包括AIME2024、AIME2025、AMC等,評估模型在數學問題求解上的能力。
  • 代碼:涵蓋APPS、Codecontests、Codeforces等,測試模型的代碼生成和算法設計能力。
  • STEM推理:使用GPQA Diamond,評估模型在科學、技術、工程和數學領域的推理能力。
  • 指令遵循:通過IFEval測試模型對指令的準確理解和執行能力。
  • 邏輯謎題:利用Reasoning Gym中的任務,評估模型在邏輯推理和問題解決方面的能力。

評估設置采用了vllm作為推理后端,采樣溫度為0.6,核采樣(top_p)為0.95,最大響應長度為32k。對于數學、代碼和STEM推理任務,通過從每個基準測試的提示中嚴格獲取二元獎勵來估計pass@1;對于邏輯謎題和指令遵循任務,則計算基于規則驗證器的平均連續獎勵分數。

性能比較結果:顯著提升的模型表現

實驗結果顯示,Nemotron-Research-Reasoning-Qwen-1.5B 模型在各個任務基準測試中均顯著優于其基礎模型 DeepSeek-R1-Distill-Qwen-1.5B,以及與更大參數規模的模型 DeepSeek-R1-Distill-Qwen-7B 相比也表現出色。在數學領域,平均性能提升達到 15.7%;在代碼領域提升 14.4%;在 STEM 推理領域提升 25.9%;在指令遵循任務中提升 22.0%;在邏輯謎題任務中提升 54.8%。這些結果有力地證明了 ProRL 訓練方法在提升模型推理能力方面的顯著效果。

數學領域基準測試的性能(pass@1)比較代碼生成任務的性能比較結果如下表所示:

在代碼基準測試中的性能(pass@1)比較

STEM推理、指令遵循和邏輯謎題任務的性能比較結果如下表所示:

在STEM推理(GPQA Diamond)、指令遵循(IFEval)和邏輯謎題(Reasoning Gym)任務上的性能比較

以數學任務為例,上表數據領域基準測試中顯示了 Nemotron-Research-Reasoning-Qwen-1.5B 模型在 AIME24、AIME25、AMC 等任務中的表現。在 AIME24 任務中,模型的 pass@1 分數達到了 48.13%,相較于基礎模型的 28.54% 有了顯著提升;在 AIME25 任務中,pass@1 分數從基礎模型的 22.71% 提升至 33.33%;在 AMC 任務中,模型的 pass@1 分數更是高達 79.29%,遠超基礎模型的 62.58%。這些數據表明,ProRL 訓練方法在數學推理任務中能夠有效地挖掘模型的潛力,提升其解決復雜問題的能力。

泛化能力評估:未見任務上的卓越表現

Nemotron-1.5B在未見過的推理任務(如Reasoning Gym中的OOD任務)上表現出了強大的泛化能力。例如,在acre、boxnet和game_of_life_halting任務上,模型取得了顯著改進。在boxnet任務中,基礎模型在訓練過程中從未接觸過該任務,因此無法產生任何正確的解決方案。而經過ProRL訓練的Nemotron-1.5B模型卻能夠成功解決問題,實現了從無到有的能力突破,這表明模型在訓練過程中形成的通用推理框架和模式識別能力,使其能夠快速適應新任務的結構并應用相應的推理策略。

模型在未見任務boxnet上的推理邊界擴展情況如下圖所示:

為OOD任務的BoxNet擴展推理邊界

此外,在graph_color任務中,研究人員通過生成不同節點數量的圖問題來評估模型對任務難度變化的適應能力。盡管訓練數據僅包含10個節點的圖,但模型在測試更大規模圖(如15個節點和20個節點)時,仍然能夠保持顯著高于基礎模型的準確率。例如,在15個節點的圖上,Nemotron-1.5B的pass@1準確率為0.185,而基礎模型則為0.002;在20個節點的圖上,Nemotron-1.5B的準確率為0.064,基礎模型則為0.001。這種對未見復雜場景的適應能力,進一步證明了ProRL訓練方法在提升模型泛化能力方面的有效性。

模型在不同規模圖著色任務上的泛化能力如下圖所示:

ProRL在圖著色任務難度提升的情況下具有泛化能力

ProRL 是否激發新的推理模式分析

初始能力與提升效果的關系:負相關現象的揭示

實驗結果揭示了ProRL在擴展模型推理邊界方面的有效性與基礎模型初始能力之間的顯著負相關關系。具體而言,基礎模型初始性能越低的任務,ProRL帶來的提升越顯著。例如,在邏輯謎題任務中,基礎模型DeepSeek-R1-Distill-Qwen-1.5B的初始pass@128準確率較低,而經過ProRL訓練后,Nemotron-1.5B在該任務上的準確率顯著提升,某些子任務甚至實現了從接近0到接近100%的飛躍。

這種現象的機理在于,初始能力較低的任務往往具有更廣闊的探索空間,模型在這些任務上尚未形成固化的推理模式。因此,強化學習能夠更容易地引導其發現新的有效路徑。例如,在一些復雜的數學證明任務中,基礎模型可能僅掌握了部分基礎定理的應用,而ProRL訓練通過鼓勵模型探索不同的證明思路和定理組合,使其能夠找到更完整的解決方案。相比之下,對于基礎模型已經表現較好的任務,如某些簡單的算術運算,ProRL的提升空間相對較小,因為模型在這些任務上的推理模式已經較為成熟和穩定。

ProRL在不同任務上的效果與基礎模型初始能力的關系如下圖所示:

左圖: ProRL在那些基礎模型最初表現不佳的任務上,最有效地擴展了模型的推理邊界。 右圖: 在強化學習(RL)之后收益最小的任務(在圓圈中突出顯示)往往具有較低的創造力指數,這表明它們與預訓練數據的重疊度更高

推理邊界變化模式:Diminished、Plateau與Sustained的分類分析

根據pass@k的演變趨勢,任務可分為以下三種類型:

1. Diminished(推理能力下降):在某些基準測試中,盡管pass@1有所提升,但pass@128(反映更廣泛的推理能力)卻出現下降或保持不變。這些任務通常具有較高的初始pass@128準確率,表明基礎模型在這些任務上已經具備較強的推理能力。ProRL訓練可能使模型在輸出分布上過于集中,從而限制了其探索多樣化的推理路徑。例如,在某些簡單的數學運算任務中,模型可能過度優化了對常見問題模式的快速響應,而忽略了對更復雜或變體問題的處理能力。

2. Plateau(早期飽和):對于這類任務,ProRL訓練在早期階段顯著提升了pass@1和pass@128,但隨著訓練的進行,提升逐漸趨于平緩。這表明模型在這些任務上已經達到了其學習潛力的上限。例如,在一些中級難度的編程任務中,模型可能在掌握了一定數量的算法模板后,難以進一步突破,因為任務本身對特定領域知識的依賴程度較高,而模型在這些知識上的擴展能力有限。

3. Sustained(持續提升):某些任務在整個訓練過程中持續展現出推理能力的提升,這表明ProRL能夠不斷挖掘新的推理策略。這些任務通常對通用推理策略的適應性較強,例如復雜的代碼生成任務或邏輯謎題。以Codeforces中的某些高級算法問題為例,模型通過ProRL訓練逐漸學會了如何將問題分解為多個子任務,并靈活運用不同的數據結構和算法進行組合,從而在訓練后期仍能取得顯著的性能提升。

pass@k比較如下圖所示:

Pass@k 比較基礎模型、中間檢查點模型以及最終的強化學習訓練模型

對未見任務和復雜問題的泛化能力:boxnet與graph_color任務的案例分析

Nemotron-Research-Reasoning-Qwen-1.5B 模型在未見任務和復雜問題上的泛化能力得到了充分驗證。以 Reasoning Gym 中的 boxnet 任務和 graph_color 任務為例,模型展現了出色的表現。在 boxnet 任務中,模型需要指導代理在網格環境中移動彩色盒子到對應的目標位置。這一任務要求模型具備路徑規劃、資源分配和沖突解決等多種推理能力。盡管該任務未包含在訓練數據集中,但模型仍然能夠成功地生成有效的解決方案,這表明其在訓練過程中形成的通用推理能力可以遷移到全新的任務場景中。

同樣,在 graph_color 任務中,模型需要為不同規模的圖分配顏色,使得相鄰節點的顏色不相同。這一任務的難度隨著圖規模的增大而增加,但模型在訓練過程中逐漸學會了如何識別圖的結構特征,并應用有效的著色策略。實驗結果顯示,模型在測試包含 10 個節點的圖時表現良好,而在面對更大規模的圖時,其性能依然保持穩定且優于基礎模型和其他相關模型。這進一步證明了 ProRL 訓練方法在提升模型泛化能力方面的有效性。

pass@1 分布的演變:性能提升的微觀視角

ProRL訓練過程中,pass@1分布的變化直觀地反映了模型推理能力的提升。在訓練初期,模型的pass@1分布往往集中在較低值附近,且長尾分布明顯,表明模型在大多數任務上表現不佳,只有少數任務能夠取得較高的準確率。隨著訓練的進行,分布逐漸向右移動,更多任務的pass@1值顯著提高,且分布變得更加集中,表明模型在更多樣化的任務場景下能夠穩定地提供有效的解決方案。

例如,在代碼生成任務中,模型在訓練初期對復雜算法問題的解決能力非常有限,pass@1值接近于零。但經過ProRL訓練后,其分布顯著右移,許多代碼任務的pass@1值提高到0.5以上,甚至部分任務接近1.0。這種分布演變表明,ProRL通過擴展預期pass@1,克服了方差增加帶來的負面影響,從而實現了性能的持續提升。模型在訓練過程中逐漸學會了在更多樣化的場景下應用有效的推理策略,提高了對復雜問題的適應性和解決能力。

pass@1分布的演變如下圖所示:

以family_relationships任務為例,該任務要求模型根據家庭關系描述確定人物之間的具體關系。在訓練初期,模型的pass@1分布非常分散,且大部分樣本的準確率接近于零。經過ProRL訓練后,分布顯著向右移動,形成了一個以高準確率為主的集中分布。這表明模型在訓練過程中逐漸掌握了家庭關系推理的關鍵模式,如代際關系、婚姻關系等,并能夠靈活應用這些模式來解決各種復雜的關系問題。

推理模型的發展與RL推理邊界拓展的研究

推理模型的發展:從O1到ProRL的技術演進

推理模型的發展歷程見證了人工智能領域在模擬人類邏輯思維方面的不懈努力。從OpenAI的o1系列模型首次引入詳細鏈式思考(CoT)的概念,到DeepSeek和Kimi等模型采用強化學習進行訓練,這一領域經歷了快速的技術迭代和創新。例如,o1模型通過擴展測試時的計算資源,實現了長鏈式思考,使得模型能夠在解決復雜數學問題時模擬人類的逐步推理過程。而DeepSeek-R1模型則進一步優化了強化學習算法,提升了在代碼生成和邏輯推理等任務上的表現。

ProRL方法在這一演進過程中展現了獨特的創新。與傳統方法相比,ProRL通過長時間穩定的強化學習訓練,可以提升模型在已知任務上的表現,還能夠讓模型在未見過的復雜任務中展現出超越基礎模型的推理能力。例如,ProRL在訓練數據集的構建上更加注重任務的多樣性,涵蓋了數學、代碼、STEM、邏輯謎題和指令遵循等多個領域,從而促進了模型泛化能力的提升。此外,ProRL通過引入KL散度控制、參考策略重置等機制,解決了強化學習訓練中的關鍵挑戰,實現了模型推理能力的持續拓展。

RL 推理邊界拓展的相關研究:從成功案例到質疑與回應

強化學習在實現超越人類性能方面有著諸多成功案例,如 DeepQ 網絡在 Atari 游戲中的應用、AlphaGo 和 AlphaZero 在圍棋領域的突破等。這些案例中的強化學習通過不斷的自我對弈和策略優化,成功地挖掘出了新的策略和技巧,從而超越了人類玩家的水平。然而,對于大型語言模型(LLM)而言,關于強化學習是否真正提升其推理能力的質疑聲也未曾停止。一些研究認為,強化學習可能只是放大了模型在預訓練階段已經學到的模式,而并未真正擴展其推理邊界。

與這些質疑觀點不同,ProRL 方法通過實證研究和技術創新,證明了強化學習在 LLM 推理能力提升中的有效性。ProRL 通過長時間的穩定訓練和多樣化的任務組合,引導模型探索新的推理路徑,從而實現了超越基礎模型的性能提升。這一成果為強化學習在 LLM 推理能力提升中的應用提供了有力證據,也為未來的研究提供了新的方向。

技術挑戰

局限性:計算資源、可擴展性與訓練復雜性的權衡

盡管 ProRL 方法在提升模型推理能力方面取得了顯著成果,但它并非沒有局限性。首先,ProRL 方法對計算資源的需求較高,這可能限制了其在資源受限環境中的應用。例如,訓練 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡時和高性能計算設備,這對于一些小型研究團隊或個人開發者來說可能難以承受。訓練過程中內存占用較高,通信開銷較大,進一步加劇了資源需求。

其次,ProRL 方法在更大模型上的可擴展性仍面臨挑戰。隨著模型參數規模的增加,訓練的復雜度和計算成本會顯著上升,同時模型訓練的穩定性也可能受到影響。例如,更大的模型可能需要更復雜的模型并行策略和更高效的梯度同步機制。此外,分布式訓練架構的設計和優化也是實現更大模型 ProRL 訓練的關鍵。模型壓縮技術,如量化和剪枝,可以有效降低模型的存儲和計算需求,從而提高 ProRL 方法的可擴展性。

此外,ProRL 的訓練過程相對復雜,涉及到參考策略重置和優化器參數重置等操作。這些操作對訓練的穩定性和結果的可重復性產生一定影響。例如,重置參考策略的時機和頻率需要精心選擇,以避免對訓練進程造成不必要的干擾。實驗數據表明,不同的重置策略會導致訓練曲線的顯著差異。結合早停策略和學習率調整策略可以有效平衡訓練的穩定性和復雜性。早停策略可以在驗證性能不再提升時及時終止訓練,避免資源浪費,而學習率調整策略則可以根據訓練進度動態調整學習率,以適應不同的訓練階段。

最后,盡管評估涵蓋了多個領域,但訓練數據集在任務覆蓋范圍上仍存在不足之處。在某些特定領域的任務深度和廣度不夠,可能導致模型在這些領域的泛化能力有限。例如,在專業性較強的領域(如特定學科的高級數學問題、專業領域的代碼生成等),模型可能表現出一定的局限性。這是因為訓練數據集中缺乏足夠的樣本來覆蓋這些領域的復雜性和多樣性。

ProRL訓練過程中的KL散度變化如下圖所示:

跨訓練運行的KL散度

閱讀后的感想與總結

讀完 ProRL 論文,我對強化學習提升大型語言模型推理能力有了更清晰的認識。ProRL 方法的創新性令人印象深刻,其采用的 GRPO 算法舍棄傳統 PPO 的價值模型,基于組分數估計基線優化策略,使模型能更好地處理多樣化任務,例如面對一批不同難度的數學問題,模型可依據問題在批次內的相對難度和解決情況靈活調整策略,體現了訓練方法的靈活性和高效性。

ProRL 引入的 KL 散度控制和參考策略重置等創新策略相互協作,有效攻克強化學習訓練難題。KL 散度控制維持模型輸出多樣性,避免過早陷入局部最優解;參考策略重置為模型持續探索新推理路徑提供保障。例如在邏輯謎題任務中,通過限制當前策略與參考策略之間的 KL 散度,模型避免過度集中在常見解題模式上,積極探索新的解題步驟組合,提高了推理的多樣性和有效性。

從實驗結果來看,Nemotron-Research-Reasoning-Qwen-1.5B 模型在多個領域的推理任務中實現了顯著的性能提升,直觀展示了 ProRL 的強大威力。進一步分析發現,模型在不同任務上的提升程度與任務本身的特性和基礎模型的初始能力密切相關。對于基礎模型初始性能較低的任務,如邏輯謎題中的某些子任務,ProRL 帶來的提升尤為顯著,這表明初始性能較低的任務往往具有更廣闊的探索空間,強化學習能更容易地引導其發現新的有效路徑。

ProRL 方法挑戰了以往對強化學習局限性的傳統認知。與以往一些研究相比,ProRL 通過長時間的穩定訓練和多樣化的任務組合,證明了強化學習可以引導模型探索新的推理路徑,實現超越基礎模型的性能提升。例如,ProRL 在訓練數據集構建上更加注重任務的多樣性,涵蓋多個領域,促進了模型泛化能力的提升,而且那個基模未見任務的“著色案例”也讓我印象深刻。以往方法可能在任務多樣性上有所欠缺,限制了模型的泛化性能。此外,ProRL 引入的創新機制有效解決了強化學習訓練中的關鍵挑戰,如熵崩潰和訓練不穩定等,這是其相較于以往方法的優勢所在。

然而,ProRL 方法仍面臨諸多挑戰,如高計算資源需求和訓練復雜性等,這些問題提醒我們要在技術進步與實際應用之間尋求平衡。例如,訓練 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡時和高性能計算設備,這限制了其在資源受限環境中的應用。同時,ProRL 的訓練過程相對復雜,涉及到參考策略重置和優化器參數重置等操作,對訓練的穩定性和結果的可重復性產生一定影響。

參考資料

  • ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models.

     https://arxiv.org/pdf/2505.24864

  • nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

     https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

  • OpenAI O1 System Card.

     https://arxiv.org/pdf/2412.16720

  • DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.

     https://arxiv.org/pdf/2501.12948

  • An Open-Source LLM Reinforcement Learning System at Scale.

     https://arxiv.org/pdf/2503.14476

  • DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.

     https://arxiv.org/pdf/2402.03300

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2024-02-01 08:34:30

大模型推理框架NVIDIA

2025-06-06 08:57:42

2025-06-23 09:14:00

2025-04-24 10:26:40

2023-09-01 15:22:49

人工智能數據

2021-12-09 08:50:35

Kubernetes增強功能版本更新

2023-06-30 09:00:00

Falcon LLM開源

2014-03-17 16:01:33

2025-05-21 13:52:39

LLM模型

2019-03-20 14:18:13

童心制物STEAM教育

2023-11-27 13:19:54

模型訓練

2024-09-09 08:31:15

2022-06-20 06:24:13

5GWeb前端開發

2025-02-13 09:00:00

2023-11-30 15:56:54

大型語言模型人工智能

2025-06-11 02:30:00

2024-12-12 09:00:00

2024-02-26 07:43:10

大語言模型LLM推理框架

2025-06-03 03:15:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91精品国产一区二区三区 | 免费高潮视频95在线观看网站 | 国产va | 欧美成人激情视频 | 久久新 | 国产美女自拍视频 | 国产精品99视频 | 精品久久久久国产免费第一页 | 日韩免费视频一区二区 | 亚洲一区二区在线免费观看 | 日韩精品一区二区三区高清免费 | 国产黄色在线 | 影音先锋中文在线 | 国产精品久久久久久中文字 | 91av在线影院 | 国产精品一区二区免费 | 亚洲国产成人精品女人 | 一级毛片色一级 | 日韩av在线一区 | 91精品久久久久久久久久小网站 | 久久一二| 国产精品高清在线 | 亚洲综合无码一区二区 | 一区二区三区av | 亚洲国产成人精品久久 | 欧美日韩不卡 | 一区精品国产欧美在线 | 久国产精品 | 国产一区影院 | 精品久久影院 | 狠狠天天 | 毛片黄 | 日韩一级一区 | 欧美99| 欧美一区二区三区在线观看 | 黄免费观看视频 | 精品欧美一区二区精品久久久 | 国产精品二区三区在线观看 | 国产激情网站 | 一区二区中文字幕 | 日本精品一区二区三区四区 |