DanceGRPO：首個統一視覺生成的強化學習框架

2025-05-15 09:04:00

R1 橫空出世，帶火了 GRPO 算法，RL 也隨之成為 2025 年的熱門技術探索方向，近期，字節 Seed 團隊就在圖像生成方向進行了相關探索。

本文由字節跳動 Seed 和香港大學聯合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生，在 CVPR、NeurIPS 等國際頂級會議上發表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世，帶火了 GRPO 算法，RL 也隨之成為 2025 年的熱門技術探索方向，近期，字節 Seed 團隊就在圖像生成方向進行了相關探索。

現在，我們推出名為 DanceGRPO 的創新框架，這是首個旨在統一視覺生成強化學習的解決方案，實現了單一強化學習算法在兩大生成范式（diffusion/rectified flow）、三項任務（文本到圖像、文本到視頻、圖像到視頻）、四種基礎模型（SD、HunyuanVideo、FLUX、SkyReels-I2V）以及五類獎勵模型（圖像 / 視頻美學、圖文對齊、視頻動態質量、二元獎勵）中的全面覆蓋。

論文標題：DanceGRPO: Unleashing GRPO on Visual Generation
arXiv 鏈接：https://arxiv.org/pdf/2505.07818

動機

在生成式 AI 快速發展的這三年，RLHF 逐漸的走進了大家的視野，首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義，LLM 領域的 RLHF 方案百花齊放，發展的相對成熟一些，今年更催生了 R1 這一類的大爆款工作。同時，大家也發現，對于視覺生成任務，RLHF 對美感等指標幾乎有著決定性影響，但相較 LLM 的成熟度，生成領域的 RLHF 方案顯然沒那么成熟，目前的主流方案大概分為兩類：

1. Diffusion/Flow-DPO：這一類方法是也是直接來自于 LLM 的 DPO 的影響，在實際操作中，大體分為兩種方案，第一種是離線 DPO，即讓模型去生成一批數據，然后人工標注，然后讓好和壞的數據組成 pairs 送回模型去優化，第二種是在線 DPO，即在線生成數據，然后讓 reward model 實時打分，然后拿回去訓練，這兩種思路大同小異。在實際操作中，我們發現 DPO 對模型的效果比較微弱，比如 DPO 前后的生成結果區別并不是很大，原因也很好理解，DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習，而是用一種類似 SFT 的方案去做，這種情況下對模型的作用并不是很大。

2. ReFL：這一類方案是 diffusion/rectified flow 所專有的，思路非常簡單直接，就是直接在 z_t 步下直接預測 z_0 的結果，然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優化。這一類方案在圖像上效果很明顯，但是因為要對 reward model 和 decode 后的 features 進行反向傳播，在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且，目前 LLM 和 diffusion 聯合訓練已成為大勢所驅，ReFL 這種通過建模 z_t 和 z_0 的關系，并且直接反向傳播的方式，似乎和這一類模型的建模策略有著很大的 gap。

于是，利用強化學習對模型進行優化的思路也就呼之欲出了，之前社區也對強化學習優化生成模型有過一些探索，例如 DDPO 和 DPOK，但是他們都有很強的局限性：

1. 嘗試的數據集非常小，一般小于 100 個 prompts，

2. 只針對文生圖 diffusion model 進行了測試，并沒有涉及到目前流行的 rectified flow 和視頻生成模型

實現目標

于是，我們的目標也呼之欲出，我們的強化學習算法需要滿足以下特征：

1. 提升明顯，reward 上漲的足夠多

2. 在 video 上實現的時候顯存壓力不能大，即，不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數據集上訓練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻

我們是第一個視覺生成 + 強化學習的大一統框架，一個 DanceGRPO，可以應用在 diffusion 和 rectified flow，可以應用在文生圖，文生視頻，圖生視頻三類任務，我們在四個 foundation model 上進行了測試，包括了 Stable Diffusion，FLUX，HunyuanVideo，SkyReel-I2V，我們還在五個 reward model 上進行了測試。

方案設計

受最近在 LLM 大火的 GRPO 影響，我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩定訓練，首先我們要 claim 的點是，diffusion model 和 rectified flow 的出發點雖然不同，即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況，在這種 case 下，他們的采樣方程都可以用 SDE 實現，具體的公式推導參見原文即可。

接下來，我們就開始實現啦，核心的思路還是 follow 了 DeepSeek 的 GRPO 策略，即，用一個 prompt，生成一批數據，然后用 GRPO 的目標函數進行優化，但我們并沒有加入 KL 散度的正則項，因為發現這一項實際上作用不大，以下是我們實驗過程中的一些核心發現：

1. 同一個 prompt 的初始化噪聲最好相同，不然容易 reward hacking

2. 我們可以采樣一個子集的 timesteps 來加速訓練，同時讓模型見過更多的 prompts

3. 實現中可以使用多個 reward model 疊加，而且實現的時候最好是多個 advantage 來疊加

4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡

5. 強化學習會削弱生成的多樣性

6. 訓練盡量不要打開 cfg，如果非要打開的話，一批 prompt 只能更新一次梯度

算法流程如下：