成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命 原創(chuàng) 精華

發(fā)布于 2025-2-27 10:30
瀏覽
0收藏

編者按: 還在為訓(xùn)練推理模型燒光算力預(yù)算而發(fā)愁?當(dāng)開源小模型遇上數(shù)學(xué)題就“智商掉線”,如何低成本突破性能瓶頸?

傳統(tǒng) RLHF 動輒百萬級算力投入,讓多少團隊在強化學(xué)習(xí)門前望而卻步;格式混亂、邏輯斷層、答案偏差——這些模型推理的頑疾是否也在阻礙你的 AI 產(chǎn)品落地?

本文深入解析 DeepSeek 團隊突破性的 GRPO(群組相對策略優(yōu)化)技術(shù),這項創(chuàng)新將強化學(xué)習(xí)所需計算資源幾乎減半,甚至可以結(jié)合 LoRA 在普通消費級 GPU 上進行模型訓(xùn)練。作者通過親身實踐,成功在僅需 16GB 顯存的環(huán)境下將 1B 參數(shù)的 Llama 3.2 轉(zhuǎn)化為推理模型(后續(xù)文章會分享相關(guān)細(xì)節(jié)),完全顛覆了傳統(tǒng)強化學(xué)習(xí)的資源需求認(rèn)知。

作者 | Greg Schoeninger

編譯 | 岳揚

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

不久前,我們深入研究了 DeepSeek-R1 背后的技術(shù)原理,但是沒有詳細(xì)介紹其訓(xùn)練流程中采用的一項名為"群組相對策略優(yōu)化"(Group Relative Policy Optimization, GRPO)的關(guān)鍵技術(shù)。

GRPO 本質(zhì)上是一種旨在提升模型推理能力的強化學(xué)習(xí)算法。該技術(shù)最早發(fā)表于其研究論文《DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models》[1],隨后也被應(yīng)用于 DeepSeek-R1 的后訓(xùn)練階段。

在《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》這一論文[2]中,研究團隊詳細(xì)闡述了從基礎(chǔ)預(yù)訓(xùn)練語言模型到最終推理模型的完整構(gòu)建路徑。雖然之前我們未深入探討 GRPO 的數(shù)學(xué)原理和代碼實現(xiàn),但今天這篇文章將全面解析 GRPO 的技術(shù)細(xì)節(jié),助力各位讀者掌握這項技術(shù)的核心要義并應(yīng)用于實際工作。

01 要點回顧:DeepSeek-R1如何運用GRPO技術(shù)

為幫助理解,我們首先梳理從基礎(chǔ)模型到推理模型的完整訓(xùn)練流程。該流程通過監(jiān)督式微調(diào)(SFT)與群組相對策略優(yōu)化(GRPO)的交替迭代實現(xiàn)模型能力躍升:

1.監(jiān)督式微調(diào)(SFT)階段

a.冷啟動訓(xùn)練:采用數(shù)千條人工標(biāo)注的高質(zhì)量數(shù)據(jù)微調(diào)模型

b.數(shù)據(jù)驗證:所有樣本均通過人工審核確保可靠性

2.GRPO 強化學(xué)習(xí)階段

a.推理軌跡訓(xùn)練:引導(dǎo)模型生成結(jié)構(gòu)化推理過程(具有標(biāo)簽的推理軌跡)

b.三重確定性獎勵:基于格式規(guī)范性、邏輯一致性、答案正確性設(shè)計獎勵機制

3.增強型 SFT 階段

a.合成數(shù)據(jù)生成:創(chuàng)建 80 萬條合成訓(xùn)練樣本并進行篩選

b.模型自檢過濾:通過"LLM As A Judge"機制剔除錯誤響應(yīng)

4.最終 GRPO 對齊階段

a.價值觀校準(zhǔn):確保模型輸出兼具實用性與安全性

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

在這篇文章中,我們將深入探討 GRPO 的細(xì)節(jié),助您掌握這項推動大模型推理能力突破的關(guān)鍵技術(shù)。筆者已開展基于 GRPO 的小模型訓(xùn)練實驗,后續(xù)將發(fā)布完整代碼與工程實踐細(xì)節(jié),通過可復(fù)現(xiàn)案例串聯(lián)理論知識與實際應(yīng)用。

02 為什么 GRPO 很重要?

TLDR ~ 大幅降低了計算需求且簡化了強化學(xué)習(xí)流程。與 ChatGPT(PPO)使用的基于人類反饋的強化學(xué)習(xí)(RLHF)相比,所需的計算資源幾乎減半。當(dāng)你結(jié)合 LoRA 使用時,即使“GPU poor”(譯者注:GPU 的性能不足)也能進行強化學(xué)習(xí)訓(xùn)練。我試過了,確實有效。我成功地將 1B 參數(shù)的 Llama 3.2 模型改造成了僅需 16GB 顯存的推理模型。后續(xù)文章會分享代碼和硬件要求細(xì)節(jié)。

我們只需在云 GPU 服務(wù)上花不到 100 美元,就能從自家車庫訓(xùn)練推理模型。如果用自己的硬件跑小模型,基本上算是"免費"。其底層原理是什么呢?下一節(jié)將討論從 PPO 到 GRPO 的演變過程。

03 從 PPO 到 GRPO

傳聞 ChatGPT 背后的強化學(xué)習(xí)(RL)技術(shù)是 PPO(Proximal Policy Optimization,近端策略優(yōu)化)。該流程在 InstructGPT 論文[3]中被提出,用于創(chuàng)建能夠遵循指令而不僅僅是簡單預(yù)測下一個單詞的模型。

訓(xùn)練過程需要收集大量標(biāo)注數(shù)據(jù)。對于給定的用戶查詢,模型需生成多個候選響應(yīng),然后由人類或 AI 在循環(huán)中對輸出進行標(biāo)注并按質(zhì)量從優(yōu)到劣排序。這些數(shù)據(jù)可用于訓(xùn)練“獎勵模型”,其職責(zé)是為新接收的提示詞計算“獎勵值”。該獎勵值應(yīng)體現(xiàn)給定用戶查詢下模型響應(yīng)的優(yōu)劣程度。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

收集完所有這些經(jīng)過排序和標(biāo)注的數(shù)據(jù)后,即可啟動 PPO 來訓(xùn)練大語言模型(LLM)。

問題在于 PPO 的訓(xùn)練成本可能非常高昂。 GRPO 論文[1]中的相關(guān)圖表展示了 PPO 和 GRPO 過程中涉及的不同 LLM。下方藍(lán)色和黃色方框中共有 4 個不同的 LLM。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

為了幫助大家理解上圖的一些術(shù)語,我在這里給出了一些簡單的定義:

  1. 策略模型(Policy Model)- 對當(dāng)前正在訓(xùn)練的 LLM 的別稱
  2. 參考模型(Reference Model)- 被訓(xùn)練原始 LLM 的凍結(jié)版本
  3. 獎勵模型(Reward Model)- 基于人類偏好訓(xùn)練的模型(來自上文提到的 InstructGPT 技術(shù))
  4. 價值模型(Value Model)- 試圖估算特定動作長期獎勵的模型

04 通過 GRPO 減少內(nèi)存使用量

在 PPO 算法中,策略模型和價值模型都包含需要通過反向傳播進行優(yōu)化的可訓(xùn)練參數(shù)。反向傳播過程需要消耗大量內(nèi)存資源。 從上面的架構(gòu)圖可以看出,GRPO 算法移除了價值模型模塊。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

PPO 算法中混合使用了 4 個大語言模型(LLMs),這些模型都需要消耗大量的內(nèi)存和計算資源。其中價值模型和獎勵模型的參數(shù)量通常與正在訓(xùn)練的目標(biāo)語言模型相當(dāng)。參考模型通常是訓(xùn)練初期的語言模型的凍結(jié)副本。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

這種實現(xiàn)方法不僅帶來高昂的計算成本,還存在諸多需要協(xié)調(diào)的動態(tài)組件,而且還有多個模型需要優(yōu)化。組件數(shù)量越多,通常意味著優(yōu)化難度越大。GRPO 通過精簡架構(gòu)有效降低了系統(tǒng)復(fù)雜度。

出于興趣,我在 H100 上測試了不同參數(shù)規(guī)模的模型,觀察使用 GRPO 進行微調(diào)的難易程度。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

如果想了解具體技術(shù)細(xì)節(jié),可以查閱相關(guān)文檔:

??https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor??

若您理解了所有系統(tǒng)需求的來源,就可以開始參與開源項目貢獻,或像我最近看到的 trl 倉庫的這個 PR 那樣,動手優(yōu)化自己的機器學(xué)習(xí)庫:

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

05 群組相對優(yōu)勢(Group Relative Advantages)

在強化學(xué)習(xí)過程中,我們從語言模型(LLMs)中獲取的主要信號是代表"優(yōu)勢"(Advantage)的"A"。這個信號為更新原始語言模型的權(quán)重提供了方向指導(dǎo):當(dāng)優(yōu)勢值較高時,我們需要鼓勵模型重復(fù)當(dāng)前行為;當(dāng)優(yōu)勢值較低時,則需要引導(dǎo)模型嘗試不同的行為。

在 PPO 算法中,傳統(tǒng)價值模型的核心任務(wù)是評估生成內(nèi)容的質(zhì)量,或者說預(yù)測這些內(nèi)容獲得高獎勵值(high reward)的可能性。為了完成這項評估工作,需要訓(xùn)練大語言模型作為價值判斷模塊。那么 GRPO 是如何擺脫對價值模型的依賴的呢?

第一個技巧是:GRPO 不再針對單個查詢生成單一輸出,而是開始生成多個候選回答。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

具體來說,如果問題是一道數(shù)學(xué)題,模型可能會嘗試幾種不同的解題方法。以下面這個數(shù)學(xué)問題為例:

Mr. Curtis has 325 chickens on his farm where 28 are roosters and the rest are hens. Twenty hens do not lay eggs while the rest of the hens do. How many egg-laying hens does Mr. Curtis have on his farm?

Curtis 先生的農(nóng)場有 325 只雞,其中 28 只是公雞,其余是母雞。其中有 20 只母雞不下蛋,問有多少只產(chǎn)蛋母雞?

模型可能會嘗試多種解題思路,有的正確(答案為 227),有的不正確(答案為 305)。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

正確推理路徑:

First, let's find out how many hens there are. The total number of chickens is 325, and 28 are roosters. So, the number of hens is 325 - 28 = 297. Of these 297 hens, 20 do not lay eggs, so the number of egg-laying hens is 297 - 20 = 277.

277

首先,我們來看看有多少只母雞。雞的總數(shù)是 325 只,公雞有 28 只。因此,母雞的數(shù)量是 325 - 28 = 297。在這 297 只母雞中,有 20 只不下蛋,所以下蛋母雞的數(shù)量是 297 - 20 = 277。

277

錯誤推理路徑:

You need to subtract the 20 hens that do not lay eggs from the total number of hens to find the number of egg-laying hens. So, the number of egg-laying hens is 325 - 20 = 305.

305

您需要從母雞總數(shù)中減去不下蛋的 20 只母雞,才能求出下蛋母雞的數(shù)量。因此,產(chǎn)蛋雞的數(shù)量為 325 - 20 = 305。

305

然后我們對每個輸出根據(jù)其回答質(zhì)量計算"獎勵值"(reward)??赡艽嬖诙鄠€評估不同響應(yīng)屬性的獎勵函數(shù)。我們暫時將獎勵函數(shù)視為黑盒,但知道它們會返回數(shù)值型結(jié)果——如果響應(yīng)質(zhì)量較好則數(shù)值較高,較差則較低,例如:

  1. Formatting(格式規(guī)范度)=1.0
  2. Answer(答案正確性)=0.0
  3. Consistency(邏輯一致性)=0.5

當(dāng)獲得所有輸出的獎勵值 (r) 后,GRPO 通過計算獎勵值的均值 μ 和標(biāo)準(zhǔn)差 σ,生成群組相對優(yōu)勢 A。具體公式為:

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

這個公式在機器學(xué)習(xí)特征工程中非常實用,它可以將任意數(shù)值歸一化為更易學(xué)習(xí)的正負(fù)信號。 其直觀含義是:“這個數(shù)據(jù)點偏離平均值多少個標(biāo)準(zhǔn)差?”

讓我們來看幾個例子。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

若用原生 numpy 代碼表示可能如下:

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

再試另一組數(shù)值:

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

通過歸一化,將獎勵值轉(zhuǎn)換為以均值為中心(0.0)的相對優(yōu)勢值。正值表示優(yōu)于平均水平,負(fù)值表示劣于平均水平。這為我們建立了一套基準(zhǔn):“給定當(dāng)前提示詞,平均響應(yīng)的質(zhì)量如何?”在訓(xùn)練過程中,強化表現(xiàn)好的輸出(提高其概率),抑制表現(xiàn)差的輸出(降低其概率),從而引導(dǎo)模型優(yōu)化方向。

這與傳統(tǒng)價值模型的目標(biāo)相似:預(yù)測給定響應(yīng)的獎勵值。由于我們現(xiàn)在訓(xùn)練的是語言模型,只需調(diào)整 temperature 參數(shù)即可生成多個候選回答,所有生成回答的平均獎勵值即可作為衡量當(dāng)前模型表現(xiàn)的良好信號,以及決定是否需要強化該行為。

06 KL 散度

這個方程的最后一項是 KL 散度項。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

無需深入數(shù)學(xué)細(xì)節(jié),這就是我們在訓(xùn)練過程中始終保留"參考模型"的原因。我們不希望新模型偏離原始模型太遠(yuǎn),對于每個詞元(token),都要確保新模型的預(yù)測結(jié)果不會與原始模型的預(yù)測結(jié)果產(chǎn)生過大偏差。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

強制執(zhí)行 KL 散度的直接原因是:初始模型已經(jīng)具備生成連貫語句和遵循指令的能力。我們不希望新模型通過"獎勵欺騙"(reward hack)或利用獎勵信號中某些與原始模型不匹配的特性來取巧。例如,如果模型發(fā)現(xiàn)使用"pamplemousse"(葡萄柚的法語,發(fā)音有趣且較罕見)這個詞能獲得高獎勵,但該詞在預(yù)訓(xùn)練階段并不常用,我們就要阻止模型過度依賴這種用詞行為。

將這些要素整合,就得到了完整的最終方程!

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

或者就像我們值得信賴的"牛人 Eric"說的那樣… 這個數(shù)學(xué)公式看起來比實際復(fù)雜…

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

07 獎勵信號機制

DeepSeek-R1-Zero 研究的突破性在于,他們通過完全棄用"神經(jīng)獎勵模型"進一步大幅降低了內(nèi)存消耗。

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

這意味著什么?簡而言之,他們直接使用正則表達式(regex)和字符串匹配技術(shù)生成獎勵信號。研究團隊認(rèn)為,這種方法既能規(guī)避"獎勵欺騙"(reward hacking)問題,又能簡化整個訓(xùn)練流程。

如果將前文提到的“準(zhǔn)確性獎勵(Accuracy Rewards)”和“格式獎勵(Format Rewards)”規(guī)則轉(zhuǎn)化為代碼,其代碼實現(xiàn)可能如下所示:

從PPO到GRPO:算力減半的大模型推理能力訓(xùn)練革命-AI.x社區(qū)

reference:

??https://gist.github.com/willccbb/4676755236bb08cab5f4e54a0475d6fb??

訓(xùn)練過程中完全無需引入額外的獎勵模型 LLM,僅需保留策略模型和參考模型作為主要內(nèi)存占用源。將所需 LLM 數(shù)量從 4 個削減至 2 個,顯著降低了 GPU 資源需求。

若你的直覺此時感到不對勁,質(zhì)疑“這種獎勵函數(shù)是否具備泛化能力?”,那么你是對的。這類獎勵機制僅在預(yù)設(shè)的特定任務(wù)(如數(shù)學(xué)推理和格式規(guī)范)上表現(xiàn)良好,但無法擴展到其他實用場景。 例如,模型可能擅長生成格式的數(shù)學(xué)解題過程,卻無法完成開放式對話或創(chuàng)意寫作。

我的預(yù)測是"苦澀的教訓(xùn)"(The Bitter Lesson)[4]將在此重現(xiàn):當(dāng)計算資源和數(shù)據(jù)量足夠時,模型更傾向于自主學(xué)習(xí)。我們越是減少人工編碼規(guī)則,讓模型自主探索,其表現(xiàn)就越優(yōu)異。當(dāng)前 GRPO 的獎勵機制仍顯人工干預(yù)痕跡 —— 為何不讓模型自行學(xué)習(xí)獎勵信號的權(quán)重呢?

盡管如此,嘗試不同的獎勵機制其實挺有意思的。GRPO 的亮點在于: 只要能用代碼定義獎勵函數(shù)(輸入響應(yīng)、輸出數(shù)值),即可基于此進行優(yōu)化。甚至可以通過外部 API 調(diào)用其他 LLM 生成獎勵信號。 我預(yù)感未來幾周/月內(nèi),因為 GRPO 訓(xùn)練門檻的降低,開發(fā)者將開始探索各種創(chuàng)意獎勵機制的設(shè)計。

Thanks for reading!

Hope you have enjoyed and learned new things from this blog!

END

本期互動內(nèi)容 ??

?對于文中提到的“不到100美元訓(xùn)練推理模型”,你有何看法?歡迎在評論區(qū)暢所欲言。

??文中鏈接??

[1]??https://arxiv.org/abs/2402.03300??

[2]??https://arxiv.org/abs/2501.12948??

[3]??https://arxiv.org/abs/2203.02155??

[4]??http://www.incompleteideas.net/IncIdeas/BitterLesson.html??

原文鏈接:

??https://ghost.oxen.ai/why-grpo-is-important-and-how-it-works/??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 成年人网站免费 | 综合色久 | 91精品国产综合久久久久久丝袜 | 在线四虎 | av大片在线观看 | 久久久久久国产精品三区 | 一区二区av在线 | 精品欧美 | 天天操欧美 | 国产精品久久久久久久久久久久午夜片 | 精品久久一区二区三区 | 九九九视频精品 | 精品一区二区电影 | 成人精品一区二区三区 | 亚洲情综合五月天 | 成人一区二区在线 | 日本免费视频在线观看 | 精品无码久久久久久国产 | 91免费视频观看 | 九九在线视频 | 在线免费看黄 | 亚洲欧美日韩中文在线 | 日韩在线视频免费观看 | 国产精品久久毛片av大全日韩 | 欧美一区二区黄 | 一区在线观看视频 | 美女高潮网站 | 在线观看亚洲专区 | 国产精品二区三区在线观看 | 国产精品美女久久久久久免费 | 久久久做 | 久久精品国产亚洲a | 狠狠干美女| 日韩在线视频一区 | 性高朝久久久久久久3小时 av一区二区三区四区 | 久久1区 | 欧美一区二区免费 | 久久精品亚洲欧美日韩久久 | 另类a v| 97色在线观看免费视频 | 久久久亚洲一区 |