首次!流匹配模型引入GRPO,GenEval幾近滿分,組合生圖能力遠超GPT-4o
本文由香港中文大學與快手可靈等團隊聯合完成。第一作者為香港中文大學 MMLab 博士生劉杰,他的研究方向為強化學習和生成模型,曾獲 ACL Outstanding Paper Award。
流匹配模型因其堅實的理論基礎和在生成高質量圖像方面的優異性能,已成為圖像生成(Stable Diffusion, Flux)和視頻生成(可靈,WanX,Hunyuan)領域最先進模型的訓練方法。然而,這些最先進的模型在處理包含多個物體、屬性與關系的復雜場景,以及文本渲染任務時仍存在較大困難。與此同時,在線強化學習因其高效探索與反饋機制,在語言模型領域取得顯著進展,但在圖像生成中的應用仍處于初步階段。
為此,港中文 MMLab、快手可靈、清華大學等團隊聯合提出 Flow-GRPO,首個將在線強化學習引入 Flow Matching 模型的工作。在 Flow-GRPO 加持下,SD3.5 Medium 在 GenEval 基準測試中的準確率從 63% 提升到 95%,組合式生圖能力超越 GPT4o,這說明流匹配模型還有很大提升空間,Flow-GRPO 的成功實踐,為未來利用 RL 進一步解鎖和增強各類流匹配生成模型(包括但不限于圖像、視頻、3D 等)在可控性、組合性、推理能力方面的潛力,開辟了充滿希望的新范式。
- 論文標題:Flow-GRPO: Training Flow Matching Models via Online RL
- 論文鏈接:https://www.arxiv.org/pdf/2505.05470
- 代碼地址:https://github.com/yifan123/flow_grpo
- 模型地址:https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEval
作者團隊也會盡快提供 Gradio 在線 demo 和包含大量生成 case,強化學習訓練過程中圖片變化的網頁,幫助讀者更好地體會 RL 對于流匹配模型的極大提升。
一、核心思路與框架概覽
Flow-GRPO 的核心在于兩項關鍵策略,旨在克服在線 RL 與流匹配模型內在特性之間的矛盾,并提升訓練效率:
- ODE-SDE 等價轉換: 流匹配模型本質上依賴確定性的常微分方程(ODE)進行生成。為了強化學習探索所需的隨機性,作者采用了一種 ODE 到隨機微分方程(SDE)的轉換機制。該機制在理論上保證了轉換后的 SDE 在所有時間步上均能匹配原始 ODE 模型的邊緣分布,從而在不改變模型基礎特性的前提下,為 RL 提供了有效的探索空間。
- 去噪步數「減負」提效: 在 RL 訓練采樣時,大膽減少生成步數(例如從 40 步減到 10 步),極大加速數據獲取;而在最終推理生成時,仍然使用完整步數,保證高質量輸出。在極大提升 online RL 訓練效率的同時,保證性能不下降。
圖 1 Flow-GRPO 框架
二、ODE to SDE
GRPO 的核心是依賴隨機采樣過程,以生成多樣化的軌跡批次用于優勢估計和策略探索。但對于流匹配模型,其確定性的采樣過程不滿足 GRPO 要求。為了解決這個局限性,作者將確定性的 Flow-ODE 轉換為一個等效的 SDE,它匹配原始模型的邊際概率密度函數,在論文附錄 A 中作者提供了詳細的證明過程。原始的 flow matching 模型 inference 的時候按照如下公式:
轉變成 SDE 后,最終作者得到的采樣形式如下:
之后就可以通過控制噪聲水平的參數很好地控制 RL 策略的探索性。
三、Denoising Reduction
為了生成高質量的圖像,流模型通常需要大量的去噪步驟,這使得在線強化學習的訓練數據收集成本較高。作者發現,對于在線強化學習訓練,較大的時間步長在樣本生成時是多余的,只需要在推理時保持原有的去噪步驟仍能獲得高質量的樣本。作者在訓練時將時間步長設置為 10,而推理時的時間步長保持為原始的默認設置 40。通過這樣的「訓練時低配,測試時滿配」的設置,達到了在不犧牲最終性能的情況下實現快速訓練。
四、核心實驗效果
Flow-GRPO 在多個 T2I(文本到圖像)生成任務中表現卓越:
- 復雜組合生成能力大幅提升: 在 GenEval 基準上,將 SD3.5-M 的準確率從 63% 提升至 95%,在物體計數、空間關系理解、屬性綁定上近乎完美,在該評測榜單上效果超越 GPT-4o!
圖 2 Flow-GRPO 訓練過程中的性能持續上升
圖 3 GenEval 各項指標詳細結果
圖 4 在 GenEval 基準上的定性比較
- 文字渲染精準無誤: 視覺文本渲染準確率從 59% 大幅提升至 92%,可以較為準確地在圖片中渲染文字。
- 更懂人類偏好: 在人類偏好對齊任務上也取得了顯著進步。
- 獎勵黑客行為顯著減少: Flow-GRPO 在性能提升的同時,圖像質量和多樣性基本未受影響,有效緩解 reward hacking 問題。
五、總結與展望
作為首個將在線強化學習引入流匹配模型的算法,Flow-GRPO 通過將流模型的確定性采樣機制改為隨機微分方程(SDE)采樣,并引入 Denoising Reduction 技術,實現了在流匹配模型上的高效在線強化學習。實驗結果顯示,即便是當前最先進的 flow matching 模型,在引入強化學習后依然有顯著的性能提升空間。Flow-GRPO 在組合式生成、文字渲染和人類偏好等任務上,相比基線模型均取得了大幅改進。
Flow-GRPO 的意義不僅體現在指標上的領先,更在于其揭示了一條利用在線強化學習持續提升流匹配生成模型性能的可行路徑。其成功實踐為未來進一步釋放流匹配模型在可控性、組合性與推理能力方面的潛力,尤其在圖像、視頻、3D 等多模態生成任務中,提供了一個充滿前景的新范式。