成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

出人意料!DeepSeek-R1用的GRPO其實(shí)沒必要?規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練用PPO就夠了

人工智能 新聞
相較于 PPO,GRPO 去掉了價值模型,而是通過分組分?jǐn)?shù)來估計基線,從而可極大減少訓(xùn)練資源。

DeepSeek-R1 非常熱門,而在其公布的訓(xùn)練配方中,GRPO(Group Relative Policy Optimization)非常關(guān)鍵,是 DeepSeek-R1 核心的強(qiáng)化學(xué)習(xí)算法。

PPO 與 GRPO 的對比,來自論文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》

相較于 PPO,GRPO 去掉了價值模型,而是通過分組分?jǐn)?shù)來估計基線,從而可極大減少訓(xùn)練資源。

DeepSeek-R1 技術(shù)報告中寫到:「具體來說,我們使用 DeepSeek-V3-Base 作為基礎(chǔ)模型,并采用 GRPO 作為強(qiáng)化學(xué)習(xí)框架來提高模型的推理性能。在訓(xùn)練過程中,DeepSeek-R1-Zero 自然地涌現(xiàn)出了許多強(qiáng)大而有趣的推理行為。經(jīng)過數(shù)千個強(qiáng)化學(xué)習(xí)步驟后,DeepSeek-R1-Zero 在推理基準(zhǔn)上表現(xiàn)出超強(qiáng)的性能。」

但現(xiàn)在,有一項研究卻證明 GRPO 對推理模型來說并不很重要。

階躍星辰與清華大學(xué)近期的一項研究發(fā)現(xiàn),只需使用帶 GAE (λ= 1,γ= 1)的普通 PPO 以及基于規(guī)則的簡單獎勵函數(shù),無需任何 KL 正則化,就足以擴(kuò)展在推理任務(wù)上的響應(yīng)長度和基準(zhǔn)性能,類似于在 DeepSeek-R1-Zero 上觀察到的現(xiàn)象。

使用這種極簡方法,他們打造了 Open-Reasoner-Zero,這是首個面向大規(guī)模推理的強(qiáng)化學(xué)習(xí)訓(xùn)練的開源實(shí)現(xiàn)。并且該實(shí)現(xiàn)在 GPQA Diamond 基準(zhǔn)上的表現(xiàn)優(yōu)于 DeepSeek-R1-Zero-Qwen-32B,同時僅需使用 1/30 的訓(xùn)練步數(shù)。需要強(qiáng)調(diào),該團(tuán)隊不僅開源了代碼,還發(fā)布了參數(shù)設(shè)置、訓(xùn)練數(shù)據(jù)和模型權(quán)重。

  • 論文標(biāo)題:Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model
  • 論文地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf
  • 項目地址:https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero
  • Hugging Face:https://huggingface.co/Open-Reasoner-Zero

從基礎(chǔ)模型開始擴(kuò)展強(qiáng)化學(xué)習(xí)

下面首先將介紹基礎(chǔ)又關(guān)鍵的設(shè)置,括數(shù)據(jù)整編、獎勵函數(shù)和近端策略優(yōu)化 (PPO) 算法的詳細(xì)設(shè)置。然后會討論從消融實(shí)驗中得出的關(guān)鍵見解,這些見解可以成功實(shí)現(xiàn)規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練。

基礎(chǔ)設(shè)置

實(shí)驗中,基礎(chǔ)模型使用的是 Qwen2.5-{7B, 32B},并且不經(jīng)過任何微調(diào)(如蒸餾或 SFT)即開始規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練。在 Qwen2.5-{7B, 32B} 基礎(chǔ)模型的基礎(chǔ)上,該團(tuán)隊擴(kuò)展了標(biāo)準(zhǔn) PPO 算法,以用于面向推理的強(qiáng)化學(xué)習(xí)訓(xùn)練,同時仔細(xì)考慮了可擴(kuò)展性和穩(wěn)健性。

數(shù)據(jù)集方面,該團(tuán)隊精心編排了涉及 STEM、數(shù)學(xué)和推理任務(wù)的數(shù)萬對問答數(shù)據(jù),目標(biāo)是增強(qiáng)模型在多樣化和復(fù)雜問題求解場景中的能力。

受 DeepSeek-R1 啟發(fā),他們設(shè)計的提示詞模板可以引導(dǎo)模型利用推理計算,逐步掌握針對復(fù)雜任務(wù)的推理能力,如表 1 所示。

此外,他們還基于 OpenRLHF 開發(fā)了一個高效的大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練框架,通過引入更靈活的訓(xùn)練器,實(shí)現(xiàn)了 GPU 共置生成(collocation generation)以及支持卸載和回載的訓(xùn)練。

數(shù)據(jù)集

高質(zhì)量訓(xùn)練數(shù)據(jù)對可擴(kuò)展 Reasoner-Zero 訓(xùn)練來說非常關(guān)鍵。這里作者關(guān)注了三個關(guān)鍵方面:數(shù)量、多樣性和質(zhì)量。

詳細(xì)的收集整理過程請閱讀原論文。最終,他們得到的數(shù)據(jù)集包含 57k 樣本,涵蓋 STEM、數(shù)學(xué)和推理領(lǐng)域。

獎勵函數(shù)

不同于 DeepSeek-R1-Zero,這里的規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練采用了簡單的規(guī)則式獎勵函數(shù) —— 該函數(shù)僅檢查答案的正確性,沒有任何額外的格式獎勵

具體來說,這個獎勵函數(shù)會在訓(xùn)練時提取 <answer> 與 </answer> 標(biāo)簽之間的內(nèi)容,并將其與參考答案比較。

為了保證規(guī)模化強(qiáng)化學(xué)習(xí)清晰又簡單,他們實(shí)現(xiàn)了一種二元獎勵方案:如果與參考答案完全匹配,則獎勵為 1;所有其他情況的獎勵為 0。

為了確保評估嚴(yán)格且一致,他們采用了被廣泛使用的 Math-Verify 庫,圖 3 展示了其用法。

出人意料的是,該團(tuán)隊發(fā)現(xiàn),使用新設(shè)計的提示,即使是未對齊的基礎(chǔ)模型也能以很高的概率產(chǎn)生格式良好的響應(yīng)。在早期訓(xùn)練階段,基礎(chǔ)模型僅通過簡單的基于規(guī)則的獎勵函數(shù)就能快速學(xué)會和強(qiáng)化正確的推理和回答格式,如圖 4 所示。更重要的是,初步實(shí)驗表明,復(fù)雜的獎勵函數(shù)不僅是不必要的,而且可能為獎勵 hacking 留下潛在的空間

強(qiáng)化學(xué)習(xí)算法

不同于 DeepSeek-R1-Zero 使用的 GRPO,該團(tuán)隊為規(guī)模化訓(xùn)練采用的強(qiáng)化學(xué)習(xí)算法是近端策略優(yōu)化(PPO)算法。

具體來說,對于每個問題 q(即提示詞),模型會根據(jù)基于規(guī)則的獎勵函數(shù)生成一組響應(yīng) {o_1, o_2, ..., o_n} 并接收相應(yīng)的獎勵 {r_1, r_2, ..., r_n},其中 n 表示采樣軌跡的數(shù)量(即每個提示詞的 rollout 大小)。

對于時間步驟 t (即 token t)處的每個響應(yīng) o_i ,令 s_t 表示時刻 t 的狀態(tài),包括問題和所有之前生成的 token,并令 a_t 表示在該步驟生成的 token。

對于每個 token,使用 Generalized Advantage Estimation(GAE)計算其優(yōu)勢估計。一般來說,GAE 能在優(yōu)勢估計中提供偏差與方差的權(quán)衡,做法是通過一個由參數(shù) λ 控制的指數(shù)加權(quán)平均值將 n 步優(yōu)勢估計組合起來。該優(yōu)勢估計的計算方式是:,其中是 TD(temporal difference)殘差,γ 是折扣因子,它決定了未來獎勵相對于即時獎勵的價值。該 PPO 算法通過優(yōu)化以下目標(biāo)函數(shù)來更新策略模型參數(shù) θ 以最大化預(yù)期獎勵和價值模型參數(shù) Φ,從而最小化價值損失:

其中 ε 是 clipping 參數(shù),π_θ 是當(dāng)前策略,π_θ_old 是更新前的舊策略,V_Φ 是價值函數(shù), 是折扣回報。

具體到實(shí)例上,該團(tuán)隊為該 PPO 算法精心挑選了一些超參數(shù):GAE 參數(shù) λ = 1.0、折扣因子 γ = 1.0 和 clipping 參數(shù) ε = 0.2。

主要發(fā)現(xiàn)

該團(tuán)隊得到了以下主要發(fā)現(xiàn):

強(qiáng)化學(xué)習(xí)算法關(guān)鍵實(shí)現(xiàn):實(shí)證研究表明,原始的 PPO 在不同模型規(guī)模和訓(xùn)練持續(xù)時間內(nèi)能夠提供非常穩(wěn)定和強(qiáng)大的訓(xùn)練過程,而無需進(jìn)行額外的修改。通過廣泛的實(shí)驗,他們發(fā)現(xiàn) GAE 參數(shù)在 PPO 推理任務(wù)中起著關(guān)鍵作用。具體來說,設(shè)置 λ = 1.0 和 γ = 1.0。雖然這種設(shè)置在傳統(tǒng)強(qiáng)化學(xué)習(xí)場景中通常被認(rèn)為是次優(yōu)的,但它卻能實(shí)現(xiàn)規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練的理想平衡。

最小獎勵函數(shù)設(shè)計:該團(tuán)隊研究表明,簡單的基于規(guī)則的獎勵函數(shù)不僅足夠而且是最佳的,因為最小設(shè)計不會留下任何潛在的獎勵 hacking 空間。值得注意的是,即使是未對齊的基礎(chǔ)模型也能快速適應(yīng)所需的格式,這表明這是一項簡單的任務(wù),不需要復(fù)雜的獎勵工程設(shè)計。

損失函數(shù):該團(tuán)隊在不依賴任何基于 KL 的正則化技術(shù)(例如 KL 形狀的獎勵和損失)的情況下實(shí)現(xiàn)了穩(wěn)定的訓(xùn)練,這不同于 RLHF 社區(qū)和推理器模型普遍使用的方法。這也有很好的潛力實(shí)現(xiàn)進(jìn)一步大規(guī)模強(qiáng)化學(xué)習(xí)。

擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模:該團(tuán)隊發(fā)現(xiàn)擴(kuò)大數(shù)據(jù)量和多樣性對于 Reasoner-Zero 訓(xùn)練至關(guān)重要。雖然在有限的學(xué)術(shù)數(shù)據(jù)集(如 MATH)上進(jìn)行訓(xùn)練會導(dǎo)致性能快速停滯,但該團(tuán)隊精細(xì)編排的大規(guī)模多樣化數(shù)據(jù)集能夠?qū)崿F(xiàn)持續(xù)擴(kuò)展,而不會在訓(xùn)練和測試集上出現(xiàn)飽和跡象。

實(shí)驗表現(xiàn)如何?

下面介紹 Open-Reasoner-Zero 模型的全面實(shí)驗結(jié)果和分析。其中包括兩個方面的初步實(shí)驗結(jié)果:利用訓(xùn)練得到的推理器進(jìn)行蒸餾,在蒸餾得到的模型上使用 Open-Reasoner-Zero 訓(xùn)練流程以進(jìn)一步增強(qiáng)其推理能力(類似 DeepSeek-R1 的方法)。訓(xùn)練的細(xì)節(jié)和超參數(shù)請參閱原論文,這里我們重點(diǎn)來看結(jié)果。

訓(xùn)練曲線

圖 2 顯示了在 Open-Reasoner-Zero 7B 和 32B 上的實(shí)驗的訓(xùn)練獎勵和平均響應(yīng)長度曲線,而圖 5 展示了在訓(xùn)練和評估集上對 Open-Reasoner-Zero 7B 的實(shí)驗的獎勵 / 準(zhǔn)確度和平均響應(yīng)長度曲線。訓(xùn)練獎勵曲線和響應(yīng)長度曲線分別表示生成的響應(yīng)的平均獎勵和每個生成步驟中生成的響應(yīng)的平均長度。

可以看到,這些指標(biāo)在整個訓(xùn)練過程中在兩個模型和所有基準(zhǔn)上都得到了持續(xù)的改進(jìn),并有值得注意的觀察結(jié)果:OpenReasoner-Zero 表現(xiàn)出一種有趣的「階躍時刻」現(xiàn)象,其中響應(yīng)指標(biāo)在訓(xùn)練過程中突然增加,這表明其涌現(xiàn)出了推理能力。

響應(yīng)長度擴(kuò)展與 DeepSeek-R1-Zero

如圖 6 所示,可以看到整個訓(xùn)練過程中響應(yīng)長度持續(xù)增加,沒有飽和跡象,類似于 DeepSeek-R1-Zero 中看到的行為。

值得注意的是,雖然模型大小和訓(xùn)練步驟都有助于改善響應(yīng)長度,但 Open-Reasoner-Zero-32B 模型僅用 1/5.8 的訓(xùn)練步數(shù)就實(shí)現(xiàn)了與 DeepSeek-R1-Zero (671B MoE) 相當(dāng)?shù)捻憫?yīng)長度。這種卓越的訓(xùn)練效率證明了新的極簡主義方法對大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練的有效性。

質(zhì)量分析

該團(tuán)隊也對 Open-Reasoner-Zero 模型生成的響應(yīng)進(jìn)行了一些定性分析。為了分析模型的反思能力并觀察像 DeepSeek-R1-Zero 這樣的頓悟時刻,他們遵從之前的方法確定了五種代表性的反思模式(wait、recheck、retry、alternatively、however)。他們將包含任何這些模式的響應(yīng)數(shù)量計為「反思響應(yīng)」,并確定平均正確反思長度(包含獲得正確答案的反思模式的響應(yīng)的長度)。

如圖 7 所示,在整個訓(xùn)練過程中,平均正確反思長度始終超過平均響應(yīng)長度,這表明包含反思模式的響應(yīng)利用了更多的「思考時間」來獲得正確答案,類似于 OpenAI o1 中描述的測試時間擴(kuò)展。

一個特別值得注意的現(xiàn)象出現(xiàn)在步驟 680 左右,該團(tuán)隊觀察到三個指標(biāo)同時加速:獎勵、平均正確反思長度和平均響應(yīng)長度。通過手動檢查步驟 680 之前和之后的模型輸出,該團(tuán)隊發(fā)現(xiàn)之后的響應(yīng)中有更明顯的反思模式。這種涌現(xiàn)行為值得進(jìn)一步研究,該團(tuán)隊表示目前正在進(jìn)行詳細(xì)分析,以了解這種現(xiàn)象的潛在機(jī)制。

該團(tuán)隊也研究了新模型在知識和指令遵從基準(zhǔn) MMLU_PRO 和 IFEval 上的泛化能力,結(jié)果見表 2。

可以看到,Open-Reasoner-Zero 32B 模型表現(xiàn)出了強(qiáng)大的泛化能力:無需任何額外的指令微調(diào),在 MMLU、MMLU_PRO 基準(zhǔn)上,通過純規(guī)模化強(qiáng)化學(xué)習(xí)訓(xùn)練在面向推理的任務(wù)上顯著優(yōu)于 Qwen2.5 Instruct 32B。

該團(tuán)隊也進(jìn)行了詳細(xì)的消融實(shí)驗,詳見原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2009-06-06 09:50:03

蘋果收購交易iPhone

2019-12-23 16:57:26

搶票春運(yùn)車次

2015-11-02 17:37:33

GartnerAWS數(shù)據(jù)庫

2025-03-13 11:07:30

2025-03-11 01:00:00

GRPO算法模型

2025-06-23 09:07:00

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2025-02-19 08:00:00

2025-05-28 02:25:00

2025-02-17 10:40:20

2025-03-11 13:07:58

2025-02-20 17:19:08

2025-03-24 10:00:00

2022-11-14 10:22:12

訓(xùn)練強(qiáng)化學(xué)習(xí)

2025-02-19 08:33:18

2025-04-25 13:34:53

R1DeepSeekAgent

2021-06-11 09:28:04

人工智能機(jī)器學(xué)習(xí)技術(shù)

2021-06-10 16:56:30

物聯(lián)網(wǎng)互聯(lián)網(wǎng)IoT
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久国产一区二区三区 | 成人亚洲| 黄网站在线播放 | 一区二区三区四区国产 | 日本一区二区三区四区 | av在线黄 | 超碰男人天堂 | 国产ts人妖系列高潮 | 国产ts人妖另类 | 成人性视频免费网站 | 久久精品久久久久久 | 日韩精品一区二区三区中文在线 | 亚洲一区二区三区免费视频 | 日韩一级精品视频在线观看 | 一区二区三区在线免费观看 | 久久久www成人免费精品 | 国产 日韩 欧美 中文 在线播放 | 欧美色视频免费 | 国产视频二区在线观看 | 青青草一区 | 羞羞视频网页 | 中文字幕亚洲精品 | 国产亚洲精品一区二区三区 | 在线色网站 | av黄色在线| 国产高清精品一区二区三区 | 精品国产伦一区二区三区观看方式 | 成人小视频在线观看 | 中文字幕日韩欧美一区二区三区 | 亚洲视频在线观看免费 | 中文字幕观看 | 日韩精品一二三区 | 五月天国产在线 | 国产精品视频在线免费观看 | 欧美 中文字幕 | 午夜精品久久久久久久久久久久久 | 国产天堂| 精品国产一区二区三区久久久久久 | 日日夜夜精品免费视频 | 久久久久久久久久影视 | 国产探花在线精品一区二区 |