圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究
近年來,強化學習(Reinforcement Learning)在提升大型語言模型(LLM)推理能力上的應用持續升溫,尤其在“思維鏈”(Chain of Thought,簡稱 CoT)推理方面顯示出強大潛力。如今,這一趨勢正從文本領域延伸至圖像生成。
當圖像生成也被抽象為一種逐步決策的推理過程時,我們不禁要問:經典的 DPO(直接偏好優化)和 GRPO(組相對策略優化)在圖像生成場景中表現如何?誰在這個新戰場更勝一籌?
近日,一項由香港中文大學、北京大學和上海人工智能實驗室合作完成的研究給出了答案。他們發表了首個系統性對比 DPO 與 GRPO 在自回歸圖像生成任務中的工作,全面評估了兩種 RL 策略在不同場景下的優劣,填補了相關領域的研究空白。
論文鏈接: https://arxiv.org/abs/2505.17017
代碼開源: https://github.com/ZiyuGuo99/Image-Generation-CoT
圖1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。
圖像生成中的 CoT:從語言模型走向多模態智能
過去幾年中,Chain of Thought 被證明在語言模型推理中具有顯著價值。通過引導模型逐步思考,它能有效提升復雜問題的解決能力。而圖像生成,尤其是基于自回歸模型的生成流程,天然也具備一種“序列化推理”的結構。例如,將圖像離散化為 token,再按順序生成的過程,實際上就可以看作是 CoT 推理在視覺領域的映射。
因此,將 DPO 與 GRPO 這類原本服務于語言模型的 RL 策略遷移至圖像生成,是一個順理成章的探索方向。但這一過程中,也暴露出許多圖像特有的挑戰,例如:
- 文本與圖像的一致性難以評估
- 圖像質量難以用規則明確定義
- 獎勵信號不再單一、線性,涉及主觀審美、多模態對齊等維度
DPO vs. GRPO:研究設置與對比框架
研究團隊基于目前先進的Janus-Pro 自回歸圖像生成模型,構建了完整的實驗體系,并在兩個具有代表性的數據集上進行了細致的實證分析:
- T2I-CompBench:面向復雜、長文本描述的圖文生成任務(屬于域內任務)
- GenEval:包含短文本、模板化描述,測試模型的跨場景泛化能力(域外任務)
為了確保對比的公平性,實驗在兩個維度上嚴格控制:
1.DPO 與 GRPO 使用相同的獎勵模型;2.對每個提示(prompt)生成的圖像數量、組大小等參數保持一致,確保計算資源一致可比。
研究核心發現
1.域內表現:DPO 更勝一籌
在面對訓練數據分布一致的“域內”場景時,DPO 展現出強勁優勢。研究顯示:
- 在 T2I-CompBench 上,DPO 的平均生成質量超過 GRPO 約 11.5%;
- 使用官方評分標準作為獎勵時,DPO 的峰值提升甚至高達 7.8%。
這是因為 DPO 能高效利用預收集的靜態偏好數據,對已有數據集的擬合能力更強,適合深度優化。
2.泛化能力:GRPO 更穩定
但在需要遷移泛化的“域外”場景(GenEval)中,GRPO 的表現更優:
- 在使用 HPS 獎勵模型時,GRPO 的結果比 DPO 高出約 2.4%;
- GRPO 由于是 on-policy 策略,更擅長動態適應新數據分布,提升跨任務遷移能力。
圖2: 域內與域外性能對比的可視化結果。
3.獎勵模型選擇:影響巨大
兩者都對獎勵模型的選擇敏感,尤其是 DPO:
- DPO 在不同獎勵模型下的泛化能力差異更大,標準差達 0.9547;
- GRPO 表現更穩定,標準差約為 0.5486。
此外,一個重要發現是:獎勵模型本身的泛化能力,幾乎決定了最終模型的泛化能力。 在 GenEval 上進行 best-of-N 評估后發現,無論使用哪種 RL 策略,最終的性能排序與獎勵模型本身的打分能力高度一致:
??> UnifiedReward > ImageReward > HPSReward?
?
這說明,選擇或訓練一個高質量獎勵模型,是強化學習有效性的關鍵前提。
圖3: 不同獎勵模型影響的可視化結果。
三種擴展訓練策略效果分析
圖4: 擴展策略影響的可視化結果。
研究還對以下三種訓練策略進行系統探討,以進一步優化模型表現:
1.增加采樣圖像數量(Sampling Size) 2.擴展訓練數據規模與多樣性(Data Size) 3.迭代訓練(DPO-Iter / GRPO-Iter)
對于 GRPO:
- 增加每輪采樣數量是提升性能的最有效手段;
- 適度擴大訓練集規模有助于提升泛化;
- 但過度擴展會引起過擬合現象。
對于 DPO:
- 多輪迭代訓練可強化域內性能,但存在泛化性能下降的風險;
- 增加樣本多樣性與數量,有助于突破偏好范圍限制;
- 小規模采樣利于偏好對比,提升表現;過度采樣則可能引入噪聲或偏差。
理論分析與方法機制
DPO 與 GRPO 的差異并不只是訓練流程不同,它們在策略結構與損失構造上也存在本質區別:
- DPO 是一種基于離策略訓練的偏好學習方式,依賴靜態的正負樣本對,通過優化偏好傾向函數來提升生成質量;
- GRPO 更強調“組間對比”,通過在線采樣、策略更新進行逐步優化,策略靈活但成本更高。
研究還特別指出,兩者的訓練損失在計算開銷上可以做精細對齊,從而保證評估結果更具可比性。
總結與展望
這項開創性研究為圖像生成領域引入 RL 思維鏈機制提供了系統的理論與實證支撐。DPO 與 GRPO 并非簡單的“優劣之分”,而是更適合于不同場景:
- DPO 適合在已有高質量數據基礎上深度優化,追求精細化輸出
- GRPO 則適合泛化需求高、任務分布多樣的實際應用環境
與此同時,研究也強調了獎勵模型作為“訓練導航儀”的重要性,未來在獎勵模型的泛化性設計上仍有很大提升空間。此外,該研究不僅明確了 DPO 與 GRPO 在不同場景下的適用性,也提供了可復用的實驗框架與擴展策略建議,為圖像生成引入 RL 方法奠定了實踐基礎。
隨著多模態任務復雜度提升,如何在泛化能力、生成質量與訓練效率之間找到平衡,將成為關鍵議題。這項工作為后續設計更魯棒、更智能的圖像生成 RL 框架提供了有力啟示,未來值得期待。
本文轉自AI生成未來 ,作者:AI生成未來
