DeepSeek用的GRPO有那么特別嗎？萬字長文分析四篇精品論文

2025-05-26 08:48:00

本文詳細解讀了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇論文中的創新點，讀完會對 GRPO 及其改進算法有更深的理解，進而啟發構建推理模型的新思路。

隨著 DeepSeek R1 的持續爆火，推理和強化學習已經成為 AI 領域的熱門詞匯。

短短幾個月的時間，我們已經見證了太多的推理大模型，AI 更新迭代速度似乎已經快進到了以天為單位。

但在眾多研究成果中找到值得關注的內容并不容易。

這有一篇價值非常高的博客，可以幫你梳理最近關于推理模型的研究，重點關注 DeepSeek R1 里用到的 GRPO 及后續的改進算法，非常值得一讀。作者是來自 AI2 的 ML 科學家 Nathan Lambert，他博士畢業于 UC 伯克利，曾在 HuggingFace 領導 RLHF 團隊。

博客地址：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

文章列舉了最近比較火的論文和大模型，包括：

Kimi k1.5：這是一個與 DeepSeek R1 同一天發布的推理模型，其技術報告非常詳細；
OpenReasonerZero：這是首次對基礎模型進行強化學習訓練的完整復現；
DAPO：這是首篇探討對 GRPO 進行改進以更好地適應推理訓練的論文（參見《超越 DeepSeek GRPO 的關鍵 RL 算法，字節、清華 AIR 開源 DAPO》）；
Dr. GRPO：這篇論文深入研究了從基礎模型開始的強化學習，并提出了對 GRPO 的改進以提升學習效果（參見《揭秘 DeepSeek R1-Zero 訓練方式，GRPO 還有極簡改進方案》）。

此外，作者還給出了參考論文中重復看到的損失函數，我們不難發現這應該是比較重要的損失函數：

是時候給 GRPO 降降溫了

現在很多人被 RL 在語言建模領域的表現所吸引，這給人一種錯覺，彷佛 GRPO 和 DeepSeek R1（以及之前的模型）的工作已經開啟了 RL 訓練的全新時代。

但事實遠非如此。

其實 GRPO 并不是一種特殊的 RL 算法。

目前許多領先的研究工作和實驗室并沒有使用 GRPO 進行研究。

實際上，GRPO 與其他 RL 算法關系極為密切 —— 它源自 PPO（近端策略優化），并且具有與 RLOO （REINFORCE Leave One Out）超級相似的計算優勢。

GRPO 確實包含了巧妙的改進，尤其是在推理訓練（reasoning training）而非傳統的 RLHF 場景下。

傳統 RLHF 實踐沿襲了早期 RL 文獻的做法，通常每個批次中每個提示詞僅采樣一個生成結果進行訓練。而在推理任務中，我們現在會生成多個答案。

若不深入技術細節，現代實現中 GRPO 和 RLOO 的優勢值計算幾乎如出一轍 —— 這與 PPO 形成鮮明對比（PPO 的優勢值來源于價值函數，通常采用 GAE 方法計算）。

因此，REINFORCE 與 GRPO 的唯一區別僅在于 PPO 的 clipping logic 機制 —— 它們本質上都是同宗同源的策略梯度算法。與此同時，前 LLM 時代流行的另一個 RL 算法 A2C，根據超參數設置的不同，也可以視為 PPO 的特殊變體。

這里需要把握的核心認知是：當前使用的所有 RL 算法在實現層面上是高度相似的。

因此，盡管 GRPO 是當前最流行的算法，但如今 RL 算法的變革其實只聚焦在幾個核心維度：

價值函數的取舍：業界正逐漸轉向直接估計優勢值（advantage），因為價值函數（value function）的建模往往較為困難；
DeepSeek 的研究成果引爆了這場變革，因此人們自然從其 GRPO 算法切入探索。但本質上，這一浪潮的推動力是強化學習范式的進化，而非某個特定算法的突破。

Kimi k1.5

《Kimi k1.5》的報告內容非常豐富，論文長達 25 頁。不過，其并未開放模型權重。

這篇論文報告了 Kimi k1.5 的訓練實踐，這是 Kimi 團隊最新多模態大語言模型（LLM），采用 RL 進行訓練，包括其強化學習訓練技術、多模態數據配方以及基礎設施優化。長上下文擴展和改進的策略優化方法是 Kimi 團隊方法的核心要素，他們建立了一個簡單而有效的強化學習框架，無需依賴蒙特卡洛樹搜索、價值函數和過程獎勵模型等更復雜的技術。

論文標題： KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
論文地址：https://arxiv.org/pdf/2501.12599

該模型在 o3-mini 發布之前就已經推出，其評估結果非常出色。

數據分布

這篇論文（以及本文后面提到的《Open Reasoner Zero》）都包含了 01 和 R1 版本所沒有的對數據的討論。Kimi 團隊強調了為 RL 進行提示策劃（prompt curation）的重要性。這聽起來很簡單，但強化學習提示集的質量和多樣性在確保強化學習的有效性方面起著關鍵作用。由此，團隊人員指出了兩點與我們目前看到的大多數僅數學模型不同的地方：

多樣化覆蓋：提示應涵蓋廣泛的學科，例如 STEM、編碼和一般推理，以增強模型的適應性并確保在不同領域的廣泛適用性。
平衡難度：提示集應包括分布均勻的易、中、難問題，以促進漸進學習并防止過度擬合到特定的復雜程度。

在任務難度方面，Kimi 團隊采用了一種與推理模型相關的較新的方法：他們采用基于模型的方法，利用模型自身的能力來適應性地評估每個提示的難度。具體來說，對于每個提示，一個經過監督微調（SFT）的模型使用相對較高的采樣溫度生成答案十次。然后計算通過率，并將其作為提示難度的代理（proxy）—— 通過率越低，難度越高。

此外，他們還移除了一些可能促使模型猜測而不是進行推理的問題：經驗觀察表明，一些復雜的推理問題可能有相對簡單且容易猜測的答案，這會導致假陽性驗證 —— 模型通過不正確的推理過程得出了正確答案。為了解決這一問題，他們排除了容易出現這種錯誤的問題，例如選擇題、基于證明的問題。

訓練方法

Kimi K1.5 的訓練方案包含了許多有趣的細節，但隨著訓練技術的成熟，這些方法可能不會成為長期推薦的最佳實踐。

例如，他們的初始階段與 DeepSeek R1 論文非常相似：采用 SFT（監督微調）預熱，結合長思維鏈（CoT）和拒絕采樣（rejection sampling）。

又比如，他們重點關注數據中的行為模式，包括規劃（planning）、評估（evaluation）、反思（reflection）和探索（exploration），這些對最終性能提升至關重要。

進入后續訓練階段后，他們的方法變得更加有趣：未采用 GRPO，而是使用了一種在線策略鏡像下降（online policy mirror descent）的變體（仍屬于策略梯度算法家族）。

除此之外，他們未使用價值函數，而是采用蒙特卡洛獎勵基線（Monte Carlo reward baseline），其核心思想與 GRPO 類似，但并非直接用于優勢估計（advantage）。

為了提高模型訓練的穩定性和效果，研究者們采用了多種策略。其中一種策略是引入長度懲罰，即鼓勵生成較短的回答，并在正確回答中懲罰較長的回答，同時明確懲罰錯誤答案中的長回答。這種策略有助于控制模型生成回答的長度，避免模型過度生成冗長且可能不準確的內容，從而提高訓練的穩定性。盡管這種方法在訓練初期可能會減慢訓練速度，但研究者們會逐漸在訓練過程中引入這種獎勵機制，以實現更好的訓練效果。

此外，研究者們還采用了數據序列策略來輔助模型學習。這種方法類似于一種明確的教學大綱，即從較簡單的任務開始訓練，并在訓練過程中對模型表現不佳的任務進行重新采樣，增加這些任務的訓練頻率。這種策略類似于逐步引導模型學習，類似于人類學習過程中從易到難的逐步進階。盡管這種方法可能會增加訓練的復雜性，但它被視為一種有效的技巧，可以幫助模型在訓練過程中逐步提升性能。

這些方法雖然在短期內可能會增加訓練的復雜性，但它們有助于模型在長期訓練中保持穩定性和一致性，從而提高模型的整體性能和泛化能力。

在關于模型大小的消融研究中（盡管沒有明確提及模型的具體大小），他們發現，盡管較大的模型在初始階段表現優于較小的模型，但較小的模型通過利用強化學習（RL）優化的更長的思維鏈（CoTs）也能達到相當的性能。然而，較大的模型通常在 token 效率方面表現得比小模型更好。

另外，這篇論文對模型最終實用性方面的總結非常有趣，也與近期許多強化學習（RL）文獻中的觀點一致：如果目標是盡可能達到最佳性能，那么擴大較大模型的上下文長度具有更高的上限，并且在 token 效率方面更具優勢。然而，如果測試時計算資源有限，那么訓練具有較大上下文長度的小型模型可能是可行的解決方案。

論文中還詳細介紹了他們的監督微調（SFT）數據集、強化學習（RL）基礎設施、長思維鏈到短思維鏈的蒸餾過程。感興趣的讀者可以查看論文深入了解。

Open- reasoner - zero

這篇論文的主要貢獻在于，它是第一篇展示在基礎模型上通過 RL 取得非常出色結果的研究。

論文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf

事實上，他們使用 Qwen-32B 基座模型時，能夠達到 DeepSeek 論文在其蒸餾部分提到的 Qwen-32B 強化學習（RL）模型的性能。不過，DeepSeek 論文中提到的這個 RL 模型并未引起太多討論，因為同一表格顯示，DeepSeek 發現在這種規模的模型中，蒸餾推理能力（而非從強化學習開始）能帶來更顯著的性能提升。

R1 論文：https://arxiv.org/pdf/2501.12948

這里，問題在于并非所有的 RL 步驟都是等價的。它在很大程度上取決于：

用于 RL 的批次大小，更大的批次大小意味著更少的步驟；
每個步驟中使用的梯度步驟數，更多的梯度步驟可以導致更多的學習，但同時也可能導致更多的不穩定性；
數據集與特定模型的匹配程度，DeepSeek 可能使用了與 DeepSeek 基礎模型相同的數據集，這可能不太適合 Qwen 模型（學習速度更慢）。

數據分布

這項工作的核心成功之處在于，它非常清晰地展示了數據對于學習的重要性。

他們從各種來源收集公開數據，包括 AIME（截至 2023 年）、MATH、Numina-Math 數據集、Tulu3 MATH 以及其他開源數據集。根據數據來源和問題難度，他們提取了 AMC、AIME、數學、奧林匹克競賽以及 AoPS 論壇的相關部分，作為難度較高的提示，以確保數據集的難度水平適當。

該研究還通過程序化方法合成額外的推理任務，以擴充數據集。此外，他們還對數據集進行格式篩選等一系列操作。

此外，研究者排除了那些難以用基于規則獎勵函數進行評估的問題，例如選擇題和證明題，以確保在訓練過程中獎勵計算的準確性和一致性。

訓練消融

《OpenReasonerZero》是另一篇發現 GRPO 對他們不起作用的論文。作者使用了帶 GAE（Generalized Advantage Estimation）的 PPO 算法來對一組響應進行估計，這也進一步證實了文章之前提到的 GRPO 并非有特別之處。

在訓練過程中，他們沒有使用任何復雜的長度或格式 token（例如 < answer>token）來構建獎勵函數，而是發現僅正確性是必要的。此外，他們還移除了所有的 KL 懲罰，這對于允許模型在響應長度上進行顯著變化以及學習新行為至關重要，這些行為有助于下游性能的提升。

實驗結果表明，移除 KL 損失和 KL 懲罰能夠實現最優的訓練穩定性和最終性能。

這篇論文的附錄里還有更多有趣的消融實驗，比如調整 RL 訓練時的采樣溫度、修改 RL 超參數，或是調整批次大小和更新規則等，感興趣的讀者可以查看原文章。

DAPO：一個大規模開源 LLM 強化學習系統

在開始討論接下來的兩篇論文前，我們需要了解一些背景，以便理解機器學習特別是強化學習中的算法進步。有一個經驗法則是，如果你看到一篇論文中提出的方法沒有提高到基準方法的 2 倍左右，那么這個解決方案的成功很可能主要歸功于超參數調整或其他混淆變量。這是對語言模型新型強化學習算法應持有的適當懷疑態度。

讀這些論文時，你很容易想到「哇，我的項目現在就能順利運行了」。實際情況遠非如此。這些論文是學習 GRPO 損失函數復雜細節的絕佳練習。多年來，這類論文積累起來會帶來巨大的直覺增益。但目前在訓練真正的 SOTA 模型時，大多數改變在代碼復雜性上可能會過于繁重，相比之下，專注于調整數據分布（如上述論文所討論的）更為重要。

讓我們來看看 DAPO—— 這是對之前 Twitter 上簡短介紹的擴展版本。

論文標題：DAPO: An Open-Source LLM Reinforcement Learning System at Scale
論文鏈接：https://arxiv.org/pdf/2503.14476

他們展示的學習曲線不錯，但有些混亂，因為「DeepSeek R1 Zero Qwen 32B」模型的訓練步驟精確比較實際上并不存在（如上所述），尤其是，x 軸是有誤導性的。再強調一遍，DeepSeek 所做的工作并非不可復制。

這是一篇非常整潔的關于推理的強化學習論文。我們將介紹的 GRPO 改進包括：

1. 兩個不同的裁剪超參數，使正向裁剪能夠更多地提升意外的 token。

2. 動態采樣 —— 從批次中移除具有平坦獎勵的樣本以提高效率。

3. 使用每個 token 的損失（而非每個回應（per-response）的損失）來改善學習動態。

4. 在損失函數中管理過長生成以獲得更好的穩定性。

我希望這篇論文，正如我將在下面討論 Dr. GRPO 論文時提到的，能做更多關于最終性能的比較。我們關心的是評估結果，所以在算法變化帶來性能提升之前，我很難說這些是關鍵的實現決策。

總之，DAPO 看起來如下：

像現在的許多論文一樣，他們也建議從 GRPO 中移除 KL 散度懲罰以幫助學習。許多人表示，如果沒有要過度優化的獎勵模型，這個懲罰就不是必要的。對于基礎模型的強化學習，我同意這一點，因為模型通常需要更大的變化才能成為完整的推理模型。但如果對指令模型進行可驗證獎勵的強化學習（RLVR），KL 懲罰可能仍然有用。

GRPO 改進點 1：更高的裁剪 / 分離裁剪超參數

PPO 和 GRPO 有一個控制更新步長的裁剪超參數。這是 PPO 和 TRPO 相比 REINFORCE 或普通策略梯度的核心思想。DAPO 將其改為兩個超參數，這樣上限 / 正向對數比率步長可以更大。這是為了增加 token 的概率，比如推理鏈中令人驚訝的新 token。

PPO/GRPO 更新是基于對數比率的，所以概率較小但正在增加可能性的不太可能的 token 會變成更大的對數比率，比可能性已經很高的 token 更容易被裁剪。這對于提升效果來說是一個相當復雜的變化，但它很好地說明了裁剪如何影響學習動態。

這篇論文對他們的改進做了很好的消融實驗！如下圖（右）所示，他們顯示模型在訓練過程中保持了更高的熵（即探索 / 隨機性）。不錯。

GRPO 改進點 2：從批次中移除不必要的樣本

本質上，在 GRPO 中，如果批次中針對一個提示的所有樣本具有相同的獎勵，則沒有學習信號，因為每個答案的優勢是計算為該答案與批次中組平均值的差異。移除它們可以通過計算更少的梯度來提高學習速度。

這實際上是 GRPO 的一個簡單事實。從理論上講，當批次中的答案沒有信號時，它們不會影響模型，但這也與為什么更大的模型可能通過強化學習學習得更好有關。更大模型的強化學習步驟不太可能無意中傷害模型中不在學習批次中的其他區域，因為它們的能力分布在更多參數上。

GRPO 改進點 3：token 級策略梯度

論文作者表示，token 級損失有助于減輕非常長的推理鏈中的重復行為，同時仍然鼓勵模型從正向的長上下文示例中學習。這與標準 RLHF 實現不同（見下文關于 Dr. GRPO 的討論）。他們的改變比我們稍后討論的更為溫和。

作者的直覺很好，我們將在接下來的論文中看到很多關于這種權衡的討論：

由于所有樣本在損失計算中被賦予相同的權重，較長回應中的 token（包含更多 token）對整體損失的貢獻可能不成比例地低，這可能導致兩種不良影響。首先，對于高質量的長樣本，這種效果可能阻礙模型學習其中與推理相關的模式的能力。其次，我們觀察到過長的樣本通常表現出低質量的模式，如胡言亂語和重復詞匯。因此，樣本級損失計算由于無法有效懲罰長樣本中那些不受歡迎的模式，導致熵和回應長度的不健康增加。

將長度歸一化 1/|o | 移到組總和之外，使得損失計算僅通過對兩個總和內部的 token 求和來完成。

在這里，答案組是按照該提示的總體 token 計數歸一化的。默認 GRPO 只對 token 所對應的回應進行每 token 損失歸一化。

這很酷，但需要更多的復制！見下面的討論。在他們的設置中，他們看到了相當不同的行為。

這個想法是為了能更好地從長答案中學習。好的長答案應該得到充分獎勵，而重復的、糟糕的長答案需要被懲罰。

GRPO 改進點 4：避免截斷的獎勵塑造

這是 DAPO 中最微小的改變。本質上，他們添加了一個柔性然后是一個嚴格的懲罰，當模型生成長度超過限制時。對于最大上下文長度為 16k token 的模型，他們在 12k token 開始應用懲罰，并線性增加到 16k。這種長度控制機制感覺將會過時，或者在未來只是一個非常小的技巧。

參考一下，許多強化學習實現已經包含了一些更大的懲罰，如果模型截斷自身（即從不生成 EOS token 或答案）。

他們稱之為解耦裁剪和動態采樣策略優化（DAPO）算法。稱其為新算法似乎足夠公平，這在強化學習中一直如此，但實際上這基本上是 GRPO++。

訓練專注于 AIME，所以最終模型并不超級有趣，但它們陳述了一個永恒真理：即使是初始條件的微小變化，如數據和超參數的變化，也可以通過迭代強化學習過程放大，產生實質性的結果偏差。

Dr. GRPO

論文標題：Understanding R1-Zero-Like Training: A Critical Perspective
論文鏈接：https://arxiv.org/pdf/2503.20783

這是我們獲得的第二篇關于修改 GRPO 以使其更適合推理訓練（實際上，就是讓它更有效）的論文。該論文還包括一些優秀的實驗，幫助理解不同基礎模型如何影響學習到的推理行為。

論文的核心圖表如下：

論文的核心思想是，通過修改 GRPO，他們可以改善學習動態，使得在生成長度增加較少的情況下實現更強的性能。這是每個人都應該想要的！

他們假設默認的 GRPO 實現實際上設置了一個偏置，使生成長度增加的程度超過了實際有用的范圍。

關于 GRPO 的修改

他們提出的核心修改有些微妙，與 GRPO 實現的常見做法密切相關。GRPO 實現的一個核心步驟在 DeepSeekMath 論文中有詳細說明：

「結果監督在每個輸出??_??的末尾提供歸一化的獎勵，并將輸出中所有 token 的優勢???_(i,t)設置為歸一化獎勵...」

本質上，不是只在驗證結果的最終 token 上分配優勢，而是批次中的每個 token 都被分配了優勢。然后使用這些策略梯度算法計算每個 token 的損失。

要了解這是如何工作的，讓我們重新回顧論文中的損失函數：

這里發生的事情是，第一個求和管理問題的回應組 G，內部求和管理每個 token 的損失。作者正在糾正學習中的兩種行為：

偏愛短而正確的答案。對于正向優勢，即一組中正確且更好的回應，原始損失會獎勵短回應。要理解這一點，考慮一組中兩個都是正確的答案，一個有 10 個 token，一個有 1000 個。這兩個都有相同的優勢，但較短答案的概率會增加更多，因為損失近似于優勢 / 長度。如果這仍然令人困惑，可以考慮 EOS token，它出現在每個回應的最后一個 token —— 對于短回應，這個 token 將被增加得更多。
不懲罰長、重復、錯誤的答案。這一點更簡單，如果優勢是負面的，歸一化因子 1/|o | 通過減少每個 token 上優勢的有效大小來減少對較長答案的學習信號。較小的懲罰意味著它比錯誤、短答案的可能性更大。

這些合在一起，有點與我們想要的相反（與 DAPO 的想法非常相關）。我們希望在推理時有更長的正確答案以提高擴展性，并且不想浪費 token。個人而言，我更喜歡 DAPO 的解決方案，將長度歸一化移到組外，而不是完全去除它。

他們提出的第二個修改非常聰明（已在 TRL 中實現）—— 移除問題級難度偏置。當執行像 GRPO 這樣的更新（例如也用 PPO）時，優勢的大小影響梯度更新的大小。在這里，相對于更容易解決（或失敗）的問題，具有高方差的問題會受到懲罰 —— 從直覺上講，這甚至可能與我們想要的相反！較難的問題，特別是在學習的關鍵階段，將有更高的方差。作者也解釋了與之前的強化學習實踐的關系：

雖然優勢歸一化在強化學習中是一種常見技巧，但它通常是在整個批次中計算的。

實際上，這種變化的影響可以完全被高質量的數據工程所吸收，正如上面其他論文中討論的那樣，批次中問題難度的分布是均勻的。

不過，這些變化也沒有免費的午餐 —— 我的同事 Costa Huang 提醒我，低方差問題可能是我們模型學習的關鍵。在模型 9 次回答錯誤、只有 1 次正確的情況下，移除標準差會降低那一個正確答案的權重。這可能是模型需要學習的關鍵！

他們將這兩個變化稱為「GRPO Done Right」，即 Dr. GRPO。當他們將這些結合在一起時，模型顯示了他們預期的輸出長度變化 —— 總體上更短，特別是錯誤答案更短。這里的缺點是，他們實際上沒有展示更好的下游最終性能。最終性能是目標，很可能更多地來自數據。

關于為強化學習更換基礎模型

論文作者比較了來自 Qwen 2.5、Llama 3.1 和 DeepSeek 的基礎模型，看它們如何回答 MATH 問題。對于這些模型，它們使用 R1 模板、Qwen MATH 模板和無模板。當模型已經通過帶有推理 / CoT 軌跡的中間訓練時，這些模板起著至關重要的作用：

模板 1（R1 模板）：A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer.
The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.
模板 2（Qwen-Math 模板）： <|im_start|>system Please reason step by step, and put your final answer within \boxed {}. <|im_end|> <|im_start|>user {question} <|im_end|> <|im_start|>assistant
模板 3（無模板）：{question}

他們發現 Llama 和 DeepSeek 使用 R1 模板能夠最好地遵循指令，而 Qwen 在沒有模板的情況下效果最好。記住這些基礎模型在不同的「微調」機制下有多大差異是至關重要的。格式合規性的比較如下所示。

中間圖顯示了數學問題的 pass@8 率，可以理解為「如果我對 1 個問題采樣 8 個答案，正確答案出現的頻率是多少？」這是衡量模型在訓練開始時學習難易程度的指標。Qwen 再次表現最佳，溫度的影響比我想象的要小。

最右邊他們顯示，更大的 Qwen 模型在任何強化學習訓練之前就已經有反思行為！如果你正在使用這些模型，這并不令人驚訝，但這是一個很好的數據點，可以淡化強化學習訓練中「啊哈時刻」的作用。這些模型主要是在放大，而不是學習新東西。

論文還有其他不錯的結果，例如在更多領域特定的數學數據上繼續預訓練可以提高強化學習性能，很多人通過在 Qwen-MATH 模型上訓練的容易程度也能看到這一點。

與 GRPO 訓練失敗的關系

在我們早期的研究中看到的一些失敗，我也從其他實驗室聽到過，是 GRPO 可能會失敗，開始生成非常重復和長的回應。答案的序列長度膨脹到訓練設置中允許的最大值，下游評估的性能降至 0。這些潛在的干預措施，對于 Dr. GRPO 和 DAPO 來說，都有助于緩解這種情況。我們很快就會有獨立的復制實驗了！

與現有 RLHF 基礎設施的關系

在過去幾周里，我參與了許多關于 RLHF 基礎設施中每批次使用總和損失還是平均損失的討論。其中的核心問題是：強化學習應該平等地對待每個 token（即從批次中較長的答案學習更多）還是應該相對于問題對它們進行歸一化？我的基本觀點是，基于每個問題的歸一化更有意義，因為模型需要針對不同問題學習不同的行為，但這種學習動態很微妙。

這篇論文對目前所有流行的開源強化學習工具提出了批評，稱 per-response 的方式偏向于更糟糕的情況。實際情況比這復雜得多 ——per-response 求和肯定是標準做法。

區別在于從像 TRL 這樣的庫中的 masked_mean 變為作者使用的 masked_sum。

為什么 per-response 可能是好的一個直覺是，如果你有一個 KL 懲罰，你不希望一個非常奇怪的 token（KL 爆炸）影響批次中的每個 token。這些實現差異非常依賴于特定的訓練設置。

不過，關于推理 vs.RLHF 的上下文也很酷。是的，在大多數方面，實現都如作者所說，但這只是因為社區之前不像我們現在對推理模型那樣關心上下文長度學習動態。

以前，重點是在獎勵上。現在，重點是獎勵正確的長上下文行為并懲罰重復的長行為。所以，是的，回答傾向于反對較長的、高獎勵的序列，但我們不在乎！

在原文的「Further reading」作者還推薦了其他論文，感興趣的讀者可以參考下圖。

原文鏈接：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

責任編輯：張燕妮來源：機器之心

AI 算法模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看