IBM 研究：可驗證獎勵強化學(xué)習(xí)（RLVR）通過 GRPO 提升模型推理能力

作者：肆零柒 2025-05-30 04:00:00

IBM Research的研究成果——組相對策略優(yōu)化（GRPO）算法，為我們提供了一個全新的視角。GRPO通過創(chuàng)新的適應(yīng)性加權(quán)對比損失機(jī)制，結(jié)合可驗證獎勵，不僅顯著提升了模型的成功概率，還在迭代過程中實現(xiàn)了成功概率的持續(xù)放大。

大家好，我是肆〇柒。今天，我們來探討一篇來自IBM Research的前沿論文《REINFORCEMENT LEARNING WITH VERIFIABLE REWARDS: GRPO’S EFFECTIVE LOSS, DYNAMICS, AND SUCCESS AMPLIFICATION》。這篇論文由Youssef Mroueh撰寫，聚焦于強化學(xué)習(xí)（Reinforcement Learning, RL）領(lǐng)域中一個極具潛力的研究方向——如何通過可驗證獎勵（RLVR）來優(yōu)化大型語言模型（LLM）的訓(xùn)練。在當(dāng)今人工智能的浪潮中，強化學(xué)習(xí)作為推動LLM發(fā)展的關(guān)鍵力量，正以其獨特的方式，改變著我們對智能系統(tǒng)的理解和應(yīng)用。與傳統(tǒng)的監(jiān)督學(xué)習(xí)和偏好優(yōu)化方法不同，強化學(xué)習(xí)能夠在處理不可微獎勵（non-differentiable rewards）的任務(wù)中引人矚目，尤其是在生成文本、代碼等復(fù)雜任務(wù)中展現(xiàn)出巨大的優(yōu)勢。而PPO算法作為強化學(xué)習(xí)中的佼佼者，憑借其穩(wěn)定性和高效性，成為了訓(xùn)練參數(shù)化策略的主流選擇。然而，PPO依賴于重要性采樣和獨立評估器的機(jī)制，也帶來了額外的計算開銷和訓(xùn)練復(fù)雜性。

GRPO 算法的提出與優(yōu)勢

2024年，DeepSeekMath團(tuán)隊提出了一種名為組相對策略優(yōu)化（Group Relative Policy Optimization, GRPO）的新型強化學(xué)習(xí)算法。GRPO在繼承PPO優(yōu)化框架的基礎(chǔ)上，對優(yōu)勢估計（advantage estimation）進(jìn)行了創(chuàng)新性改進(jìn)。GRPO采用蒙特卡洛滾動（Monte Carlo rollouts）來估計優(yōu)勢函數(shù)，而非依賴于PPO中的學(xué)習(xí)型評估器。此外，GRPO引入了白化處理（whitening），即對獎勵的均值和方差進(jìn)行標(biāo)準(zhǔn)化，這些統(tǒng)計量是基于單個輸入或查詢條件下從LLM策略采樣的“組”數(shù)據(jù)估計得到的。這種白化處理不僅提高了訓(xùn)練的穩(wěn)定性，而且消除了訓(xùn)練獨立評估器的必要性，取而代之的是通過優(yōu)化的模型服務(wù)（如VLLM）實現(xiàn)高效的策略采樣。

可驗證獎勵的三種類型及優(yōu)勢

在LLM訓(xùn)練中，可驗證獎勵（verifiable rewards）因其簡潔性和抗偏性而備受關(guān)注。根據(jù)Lambert等人的研究，可驗證獎勵主要分為以下三種類型：

正確性驗證（Correctness Verification）：通過將生成的響應(yīng)與黃金標(biāo)準(zhǔn)答案進(jìn)行字符串匹配來獲得二元獎勵（0/1）。例如，在數(shù)學(xué)問題中，如果存在已知答案，可以通過這種方式直接評估模型輸出的正確性。這種方法簡單直接，但在沒有標(biāo)準(zhǔn)答案的情況下，可以借助另一個LLM作為評估器來判斷響應(yīng)的正確性，如在Deliberative Alignment中所采用的方法。
執(zhí)行驗證（Verification via Execution）：在代碼生成任務(wù)中，利用代碼解釋器執(zhí)行生成的代碼，并根據(jù)執(zhí)行結(jié)果（失敗/通過）產(chǎn)生二元獎勵。此外，還可以通過一系列單元測試來進(jìn)一步驗證代碼的正確性，從而得到二元獎勵信號。Open-R1近期開源了這種類型的獎勵評估方法，為代碼生成任務(wù)的強化學(xué)習(xí)訓(xùn)練提供了有力支持。
可驗證約束（Verifiable Constraints）：通過簡單的二元獎勵機(jī)制來強制執(zhí)行輸出格式約束或拒絕回答等規(guī)則。例如，在文本生成任務(wù)中，可以使用這種方式確保模型輸出符合特定的格式要求或避免生成不適當(dāng)?shù)膬?nèi)容。

與基于偏好數(shù)據(jù)學(xué)習(xí)的獎勵模型相比，可驗證獎勵具有明顯的優(yōu)勢。它們在設(shè)計上更加簡潔，且不易受到獎勵黑客攻擊（reward hacking）的影響。獎勵黑客攻擊是指策略為了過度優(yōu)化獎勵信號而導(dǎo)致模型質(zhì)量下降的問題。盡管如此，Lambert等人指出，當(dāng)KL約束對參考模型的正則化較弱時，即使使用可驗證約束，也可能出現(xiàn)獎勵黑客現(xiàn)象。因此，研究結(jié)合KL正則化的強化學(xué)習(xí)方法在可驗證獎勵場景下的表現(xiàn)具有重要意義。

本文重點

本文聚焦于強化學(xué)習(xí)與可驗證獎勵（Reinforcement Learning with Verifiable Rewards, RLVR）的結(jié)合，特別是基于GRPO的實現(xiàn)方式。核心目標(biāo)是解析GRPO的以下幾個關(guān)鍵方面：

損失函數(shù)的本質(zhì)：揭示GRPO優(yōu)化目標(biāo)的數(shù)學(xué)形式，特別是其如何通過對比損失（contrastive loss）和KL正則化來實現(xiàn)策略更新。
迭代動態(tài)特性：分析GRPO迭代過程中策略的演變規(guī)律，特別是成功概率（probability of success）如何隨迭代次數(shù)變化。
成功概率放大效果：證明GRPO能夠有效提升策略的成功概率，即在訓(xùn)練過程中逐步提高模型生成正確響應(yīng)的頻率。
收斂性分析：研究GRPO迭代序列的收斂性，確定其在何種條件下能夠收斂到固定點，并分析該固定點的性質(zhì)。

GRPO 與可驗證獎勵：適應(yīng)性加權(quán)對比損失視角

GRPO 優(yōu)化問題

在強化學(xué)習(xí)中，策略的更新通常是為了最大化累積獎勵。對于GRPO算法，其優(yōu)化目標(biāo)可以表示為以下形式（帶裁剪版本）：

對比PPO算法，GRPO在優(yōu)勢估計和策略更新機(jī)制上具有獨特之處。PPO通過學(xué)習(xí)一個評估器來估計優(yōu)勢函數(shù)，而GRPO則直接利用蒙特卡洛滾動從舊策略中采樣來估計優(yōu)勢。這種差異使得GRPO在某些場景下能夠更高效地利用數(shù)據(jù)，特別是在LLM訓(xùn)練中，當(dāng)每個輸入或查詢對應(yīng)一組采樣數(shù)據(jù)時，GRPO的白化處理能夠進(jìn)一步提高訓(xùn)練的穩(wěn)定性。

優(yōu)勢函數(shù)的簡化與權(quán)重特性分析

考慮到可驗證獎勵的二元特性（即獎勵值為0或1），優(yōu)勢函數(shù)A(q,o)可以簡化為以下形式：

通過分析優(yōu)勢函數(shù)的表達(dá)式，可以發(fā)現(xiàn)其權(quán)重具有自適應(yīng)特性。

當(dāng)舊策略的成功概率較高（p>0.5）時，正確輸出的優(yōu)勢值較大，而錯誤輸出的優(yōu)勢值絕對值較小。這意味著在策略更新時，算法會更傾向于強化正確輸出，同時對錯誤輸出的懲罰相對較弱。
相反，當(dāng)較低（p<0.5）時，正確輸出的優(yōu)勢值相對較小，而錯誤輸出的優(yōu)勢值絕對值較大。此時，算法會更積極地懲罰錯誤輸出，以引導(dǎo)策略向更優(yōu)的方向調(diào)整。

這種自適應(yīng)權(quán)重機(jī)制使得GRPO能夠在不同成功概率的區(qū)間內(nèi)動態(tài)調(diào)整對正負(fù)樣本的關(guān)注程度，從而實現(xiàn)更精準(zhǔn)的策略優(yōu)化。

用舊策略成功的概率對GRPO進(jìn)行加權(quán)

GRPO 作為適應(yīng)性加權(quán)對比損失的解讀

通過對GRPO目標(biāo)函數(shù)的變形和分析，可以揭示其作為一種適應(yīng)性加權(quán)對比損失的本質(zhì)。具體來說，GRPO的目標(biāo)函數(shù)可以重寫為以下形式：

這種自適應(yīng)加權(quán)機(jī)制不僅提高了策略更新的效率，還使得GRPO能夠在不同成功概率的區(qū)間內(nèi)實現(xiàn)更精準(zhǔn)的優(yōu)化，避免了在某些情況下過度強化或過度懲罰的問題。

加入平滑因子的穩(wěn)定化 GRPO 及案例

這種平滑處理在實際應(yīng)用中表現(xiàn)出顯著的優(yōu)勢，特別是在處理稀疏獎勵（sparse rewards）的場景中。例如，在代碼生成任務(wù)中，當(dāng)模型生成的代碼大部分無法通過執(zhí)行驗證時（即成功概率非常低），平滑因子能夠防止權(quán)重函數(shù)出現(xiàn)劇烈波動，從而提高算法的穩(wěn)定性。實驗結(jié)果表明，采用平滑處理后的GRPO在面對稀疏獎勵時，能夠更穩(wěn)定地引導(dǎo)模型逐步學(xué)習(xí)到正確的策略，而不會因權(quán)重的劇烈變化而導(dǎo)致訓(xùn)練過程發(fā)散。

GRPO 迭代動態(tài)：成功概率的固定點迭代

GRPO 迭代算法流程與案例

GRPO的迭代過程可以概括為以下步驟：

為了更直觀地理解GRPO的迭代過程，可以參考以下偽代碼：

Algorithm 1: Iterative GRPO with verifiable rewards
Input: Initial policy model πθinit, verifiable reward r, task prompts D, hyperparameters ?, β, μ
1: policy model πθ ← πθinit
2: for n = 1, ..., M do
3:     Sample a batch Db from ρQ
4:     Update the old policy model πθold ← πθ
5:     for each question q ∈ Db do
6:         Sample G outputs {oi}G i=1 ～ πθold(· | q)
7:         Compute rewards {ri}G i=1 for each sampled output oi by running verifiable reward r
8:         Compute A(q, oi) using equation (3), where p = pθold(q) = 1 G PG i=1 1r(q,oi)=1
9:     end for
10:     for GRPO iteration = 1, ..., μ do
11:         Update the policy model πθ by maximizing the GRPO objective with gradient ascent (Equation (GRPO-No-Clip))
12:     end for
13: end for
14: Output πθ

在實際應(yīng)用中，DeepSeek-R1模型在數(shù)學(xué)推理任務(wù)中的訓(xùn)練日志顯示，隨著GRPO迭代次數(shù)的增加，模型的成功概率逐漸提升。例如，在處理代數(shù)方程求解任務(wù)時，初始成功概率可能僅為30%，但經(jīng)過幾輪GRPO迭代后，成功概率能夠提升至80%以上。這一過程不僅驗證了GRPO算法的有效性，還展示了其在實際任務(wù)中的應(yīng)用潛力。

策略優(yōu)化的非參數(shù)化分析與數(shù)學(xué)推導(dǎo)

為了更深入地理解GRPO的迭代動態(tài)，可以將策略優(yōu)化從參數(shù)空間轉(zhuǎn)換到概率空間。假設(shè)策略模型的參數(shù)化足夠靈活，能夠表示所有可能的策略，那么GRPO的迭代更新可以表示為：

成功概率遞推關(guān)系的深度剖析

根據(jù)策略更新公式，可以進(jìn)一步推導(dǎo)出成功概率p_n(q)的遞推關(guān)系：

固定點作為β和pref函數(shù)的圖像，ε=1e-5

概率放大在β上的條件大多僅在高p和小β時才滿足（藍(lán)色區(qū)域）

GRPO 的固定點迭代收斂性與成功概率放大效果

成功概率放大的條件分析與案例驗證

局部收斂性條件探討與實驗支撐

為確保 GRPO 固定點迭代的局部收斂，β 的下界

不同參數(shù)組合下的實驗?zāi)M結(jié)果呈現(xiàn)

GRPO 遞歸迭代及其收斂到固定點hε的可視化，其中 ε=1e-5

參數(shù)化 GRPO 迭代的近似分析

參數(shù)化策略與非參數(shù)化策略的差異及誤差來源

在實際應(yīng)用中，策略通常通過參數(shù)化模型（如神經(jīng)網(wǎng)絡(luò)）來表示，而理論分析中的非參數(shù)化策略假設(shè)可能與實際情況存在差異。這種差異主要來源于以下幾個方面：

統(tǒng)計誤差：由于訓(xùn)練數(shù)據(jù)是通過采樣獲得的，有限的樣本量可能導(dǎo)致估計值與真實值之間存在偏差。例如，在計算成功概率時，如果采樣數(shù)量不足，可能會導(dǎo)致的估計值出現(xiàn)偏差，從而影響策略更新的方向和幅度。
近似誤差：參數(shù)化策略模型的能力有限，可能無法完全表示理論上最優(yōu)的策略。這種模型能力的限制會導(dǎo)致近似誤差，即使在無限數(shù)據(jù)的情況下，策略也無法完全達(dá)到理論上的最優(yōu)性能。
優(yōu)化誤差：實際優(yōu)化算法（如梯度下降）可能無法完全收斂到最優(yōu)解，特別是在存在鞍點或局部極小值的情況下。這種優(yōu)化誤差會進(jìn)一步加劇策略與理論最優(yōu)解之間的差距。

在近似情況下的成功概率收斂性證明與實踐驗證

誤差控制策略與實踐建議

為了最小化誤差對GRPO性能的影響，可以采取以下策略：

增加采樣批次大小：通過增大每次迭代中的采樣數(shù)量，可以有效降低統(tǒng)計誤差。例如，在DeepSeek-R1的訓(xùn)練中，將采樣批次大小從128增加到512，使得成功概率的估計標(biāo)準(zhǔn)誤差降低了約30%。
采用更復(fù)雜的模型架構(gòu)：使用更深或更寬的神經(jīng)網(wǎng)絡(luò)可以提高模型的表達(dá)能力，從而減小近似誤差。例如，在代碼生成任務(wù)中，將模型參數(shù)量從1.5B增加到3.5B，使得代碼執(zhí)行通過率提升了約15%。
優(yōu)化梯度下降算法的超參數(shù)設(shè)置：通過調(diào)整學(xué)習(xí)率、動量等超參數(shù)，可以提高優(yōu)化算法的收斂速度和精度。例如，在文本生成任務(wù)中，采用AdamW優(yōu)化器并設(shè)置學(xué)習(xí)率為le-5，動量參數(shù)為0.9，使得訓(xùn)練收斂速度提高了約40%。
正則化方法：應(yīng)用L2正則化、Dropout等技術(shù)可以防止模型過擬合，提高其泛化能力。例如，在數(shù)學(xué)推理任務(wù)中，添加L2正則化（權(quán)重衰減系數(shù)為0.01）使得模型在測試集上的成功概率提升了約5%。

通過這些誤差控制策略，可以在實際應(yīng)用中更好地實施GRPO算法，確保其性能表現(xiàn)接近理論預(yù)期。

實際案例

DeepSeek-R1 模型在數(shù)學(xué)推理任務(wù)中的應(yīng)用

DeepSeek-R1模型在數(shù)學(xué)推理任務(wù)上的應(yīng)用充分展示了GRPO算法的強大能力。在處理代數(shù)方程求解任務(wù)時，模型需要生成一系列推理步驟并最終得出正確答案。應(yīng)用GRPO前，模型的初始成功概率約為40%，且生成的推理步驟常出現(xiàn)邏輯錯誤或計算失誤。通過引入GRPO算法，并結(jié)合正確性驗證（答案匹配）作為可驗證獎勵，模型在經(jīng)過10輪迭代訓(xùn)練后，成功概率提升至85%以上。具體案例對比顯示，某一復(fù)雜代數(shù)問題的求解過程從最初的錯誤答案逐步優(yōu)化為正確的推理步驟和答案。

例如，對于方程組：

初始模型生成的解答可能包含錯誤的推理步驟，如錯誤的消元操作或代數(shù)變形。經(jīng)過GRPO訓(xùn)練后，模型能夠正確執(zhí)行消元法，逐步推導(dǎo)出和的解。這一過程不僅驗證了GRPO在提升模型推理能力方面的有效性，還展示了其在數(shù)學(xué)推理任務(wù)中的實際應(yīng)用價值。

代碼生成任務(wù)中的實踐效果

在代碼生成任務(wù)中，GRPO算法通過執(zhí)行驗證（如代碼執(zhí)行結(jié)果）作為可驗證獎勵，顯著提升了代碼的正確率和執(zhí)行效率。以排序算法代碼生成為例，傳統(tǒng)強化學(xué)習(xí)方法生成的代碼在復(fù)雜數(shù)據(jù)集上的執(zhí)行通過率僅為60%左右，而采用GRPO優(yōu)化后的模型在相同數(shù)據(jù)集上的通過率提升至90%以上。

對于快速排序算法的生成任務(wù)，初始模型可能生成存在邊界條件處理錯誤或遞歸終止條件不正確的代碼。應(yīng)用GRPO后，模型能夠根據(jù)代碼執(zhí)行結(jié)果的二元獎勵信號（執(zhí)行成功或失敗）調(diào)整策略，逐步生成正確的代碼。實驗結(jié)果顯示，在不同代碼復(fù)雜度場景下，GRPO優(yōu)化后的模型均表現(xiàn)出更高的代碼質(zhì)量和執(zhí)行效率。例如，對于包含重復(fù)元素和極端值的數(shù)組排序任務(wù)，GRPO優(yōu)化后的模型生成的代碼能夠正確處理這些特殊情況，而未優(yōu)化的模型則可能出現(xiàn)無限遞歸或錯誤排序結(jié)果。

多領(lǐng)域綜合案例分析

除了數(shù)學(xué)推理和代碼生成任務(wù)外，GRPO算法在文本生成、問答系統(tǒng)等多個領(lǐng)域也展現(xiàn)出了廣泛的應(yīng)用潛力。在文本生成任務(wù)中，通過結(jié)合可驗證約束（如輸出格式要求），GRPO能夠有效提升生成文本的格式正確性和內(nèi)容相關(guān)性。例如，在新聞報道生成任務(wù)中，模型需要遵循特定的結(jié)構(gòu)（如標(biāo)題、導(dǎo)語、正文）并包含關(guān)鍵事實。應(yīng)用GRPO后，模型生成的文本在格式正確性和事實準(zhǔn)確性方面均有顯著提升，成功概率從初始的35%提升至70%以上。

在問答系統(tǒng)中，GRPO通過正確性驗證（如答案與標(biāo)準(zhǔn)答案的匹配）優(yōu)化模型的回答質(zhì)量。例如，在醫(yī)療咨詢問答任務(wù)中，模型需要根據(jù)用戶癥狀提供準(zhǔn)確的建議。通過GRPO訓(xùn)練，模型的回答正確率從50%提升至80%，且生成的回答更加符合醫(yī)學(xué)專業(yè)標(biāo)準(zhǔn)和用戶需求。

這些多領(lǐng)域案例分析表明，GRPO算法具有良好的通用性和適應(yīng)性，能夠在不同類型的任務(wù)中有效提升模型性能，為LLM的實際應(yīng)用提供了強大的支持。

總結(jié)

這篇論文對GRPO算法與可驗證獎勵的結(jié)合進(jìn)行了系統(tǒng)性研究，展示了其在強化學(xué)習(xí)中的獨特優(yōu)勢和理論特性。主要貢獻(xiàn)包括：

適應(yīng)性加權(quán)對比損失的提出：通過數(shù)學(xué)推導(dǎo)證明GRPO本質(zhì)上是一種適應(yīng)性加權(quán)對比損失，其權(quán)重根據(jù)舊策略的成功概率動態(tài)調(diào)整，從而實現(xiàn)對正負(fù)樣本的精準(zhǔn)強化和懲罰。
成功概率遞推關(guān)系的構(gòu)建：推導(dǎo)出成功概率的固定點迭代公式，并分析了其收斂性和動態(tài)特性，為理解GRPO的迭代動態(tài)提供了理論基礎(chǔ)。
成功概率放大效果的證明：通過理論分析和實驗驗證，證明GRPO能夠在不同初始成功概率條件下放大成功概率，從而提升模型性能。
誤差分析與近似策略的收斂性證明：在考慮參數(shù)化策略與非參數(shù)化策略差異的情況下，分析了各類誤差的來源，并證明了在誤差可控時參數(shù)化策略的成功概率能夠接近理論固定點。

這些成果不僅豐富了強化學(xué)習(xí)的理論體系，還為提升LLM在數(shù)學(xué)推理、代碼生成、文本創(chuàng)作等任務(wù)中的性能提供了重要的實踐指導(dǎo)。

基于實際案例分析，GRPO算法在提升LLM性能方面展現(xiàn)出顯著的效果。例如，DeepSeek-R1模型在應(yīng)用GRPO后，在數(shù)學(xué)推理任務(wù)上的成功概率提升了約45%，代碼生成任務(wù)上的執(zhí)行通過率提高了30%。這些成果表明，GRPO在實際應(yīng)用中具有重要的價值，特別是在需要高準(zhǔn)確性和可靠性的任務(wù)中。GRPO算法有望在以下幾個領(lǐng)域發(fā)揮更廣泛的作用：

多模態(tài)LLM開發(fā)：隨著多模態(tài)模型的發(fā)展，GRPO可以結(jié)合視覺、文本等多種模態(tài)的可驗證獎勵，進(jìn)一步提升模型的綜合推理能力和生成質(zhì)量。
復(fù)雜任務(wù)的分步推理：在需要多步驟推理的任務(wù)中（如科學(xué)計算、法律分析），GRPO可以通過逐步驗證中間結(jié)果來引導(dǎo)模型生成更準(zhǔn)確的最終答案。
實時交互應(yīng)用：在實時交互場景（如智能客服、機(jī)器人控制），GRPO能夠快速適應(yīng)環(huán)境反饋，實時優(yōu)化策略，提高系統(tǒng)的響應(yīng)速度和準(zhǔn)確性。

未來方向展望

盡管GRPO算法已經(jīng)取得了顯著的成果，但仍存在一些研究方向值得進(jìn)一步探索：

自適應(yīng)調(diào)整KL正則化參數(shù)：研究如何根據(jù)訓(xùn)練過程中的動態(tài)信息（如成功概率的變化速率）自適應(yīng)調(diào)整值，以進(jìn)一步提高算法的收斂速度和穩(wěn)定性。
新的可驗證獎勵類型：探索基于多維度質(zhì)量評估的組合獎勵（如同時考慮文本的準(zhǔn)確性、連貫性和多樣性），并研究其與GRPO的結(jié)合機(jī)制，以滿足更復(fù)雜的應(yīng)用需求。
與其他強化學(xué)習(xí)方法的融合：研究GRPO與逆強化學(xué)習(xí)、層次強化學(xué)習(xí)等方法的融合策略，以應(yīng)對更復(fù)雜的任務(wù)結(jié)構(gòu)和環(huán)境動態(tài)性。
大規(guī)模分布式訓(xùn)練優(yōu)化：針對大規(guī)模數(shù)據(jù)和模型訓(xùn)練場景，優(yōu)化GRPO算法的分布式實現(xiàn)，提高其計算效率和可擴(kuò)展性。

這些研究方向?qū)⑦M(jìn)一步推動GRPO算法的發(fā)展，為LLM的訓(xùn)練和應(yīng)用提供更強大的技術(shù)支持。

責(zé)任編輯：龐桂玉來源：覺察流

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看