成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究

發布于 2025-6-9 10:12
瀏覽
0收藏

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

近年來,強化學習(Reinforcement Learning)在提升大型語言模型(LLM)推理能力上的應用持續升溫,尤其在“思維鏈”(Chain of Thought,簡稱 CoT)推理方面顯示出強大潛力。如今,這一趨勢正從文本領域延伸至圖像生成。

當圖像生成也被抽象為一種逐步決策的推理過程時,我們不禁要問:經典的 DPO(直接偏好優化)和 GRPO(組相對策略優化)在圖像生成場景中表現如何?誰在這個新戰場更勝一籌?

近日,一項由香港中文大學、北京大學和上海人工智能實驗室合作完成的研究給出了答案。他們發表了首個系統性對比 DPO 與 GRPO 在自回歸圖像生成任務中的工作,全面評估了兩種 RL 策略在不同場景下的優劣,填補了相關領域的研究空白。

論文鏈接: https://arxiv.org/abs/2505.17017 
代碼開源: https://github.com/ZiyuGuo99/Image-Generation-CoT

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

圖像生成中的 CoT:從語言模型走向多模態智能

過去幾年中,Chain of Thought 被證明在語言模型推理中具有顯著價值。通過引導模型逐步思考,它能有效提升復雜問題的解決能力。而圖像生成,尤其是基于自回歸模型的生成流程,天然也具備一種“序列化推理”的結構。例如,將圖像離散化為 token,再按順序生成的過程,實際上就可以看作是 CoT 推理在視覺領域的映射。

因此,將 DPO 與 GRPO 這類原本服務于語言模型的 RL 策略遷移至圖像生成,是一個順理成章的探索方向。但這一過程中,也暴露出許多圖像特有的挑戰,例如:

  • 文本與圖像的一致性難以評估
  • 圖像質量難以用規則明確定義
  • 獎勵信號不再單一、線性,涉及主觀審美、多模態對齊等維度

DPO vs. GRPO:研究設置與對比框架

研究團隊基于目前先進的Janus-Pro 自回歸圖像生成模型,構建了完整的實驗體系,并在兩個具有代表性的數據集上進行了細致的實證分析:

  • T2I-CompBench:面向復雜、長文本描述的圖文生成任務(屬于域內任務)
  • GenEval:包含短文本、模板化描述,測試模型的跨場景泛化能力(域外任務)

為了確保對比的公平性,實驗在兩個維度上嚴格控制:

1.DPO 與 GRPO 使用相同的獎勵模型;2.對每個提示(prompt)生成的圖像數量、組大小等參數保持一致,確保計算資源一致可比。

研究核心發現

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

1.域內表現:DPO 更勝一籌

在面對訓練數據分布一致的“域內”場景時,DPO 展現出強勁優勢。研究顯示:

  • 在 T2I-CompBench 上,DPO 的平均生成質量超過 GRPO 約 11.5%;
  • 使用官方評分標準作為獎勵時,DPO 的峰值提升甚至高達 7.8%。

這是因為 DPO 能高效利用預收集的靜態偏好數據,對已有數據集的擬合能力更強,適合深度優化。

2.泛化能力:GRPO 更穩定

但在需要遷移泛化的“域外”場景(GenEval)中,GRPO 的表現更優:

  • 在使用 HPS 獎勵模型時,GRPO 的結果比 DPO 高出約 2.4%;
  • GRPO 由于是 on-policy 策略,更擅長動態適應新數據分布,提升跨任務遷移能力。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖2: 域內與域外性能對比的可視化結果。

3.獎勵模型選擇:影響巨大

兩者都對獎勵模型的選擇敏感,尤其是 DPO:

  • DPO 在不同獎勵模型下的泛化能力差異更大,標準差達 0.9547;
  • GRPO 表現更穩定,標準差約為 0.5486。

此外,一個重要發現是:獎勵模型本身的泛化能力,幾乎決定了最終模型的泛化能力。 在 GenEval 上進行 best-of-N 評估后發現,無論使用哪種 RL 策略,最終的性能排序與獎勵模型本身的打分能力高度一致:

??> UnifiedReward > ImageReward > HPSReward??

這說明,選擇或訓練一個高質量獎勵模型,是強化學習有效性的關鍵前提。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖3: 不同獎勵模型影響的可視化結果。

三種擴展訓練策略效果分析

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖4: 擴展策略影響的可視化結果。

研究還對以下三種訓練策略進行系統探討,以進一步優化模型表現:

1.增加采樣圖像數量(Sampling Size) 2.擴展訓練數據規模與多樣性(Data Size)  3.迭代訓練(DPO-Iter / GRPO-Iter)

對于 GRPO:

  • 增加每輪采樣數量是提升性能的最有效手段;
  • 適度擴大訓練集規模有助于提升泛化;
  • 但過度擴展會引起過擬合現象。

對于 DPO:

  • 多輪迭代訓練可強化域內性能,但存在泛化性能下降的風險;
  • 增加樣本多樣性與數量,有助于突破偏好范圍限制;
  • 小規模采樣利于偏好對比,提升表現;過度采樣則可能引入噪聲或偏差。

理論分析與方法機制

DPO 與 GRPO 的差異并不只是訓練流程不同,它們在策略結構與損失構造上也存在本質區別:

  • DPO 是一種基于離策略訓練的偏好學習方式,依賴靜態的正負樣本對,通過優化偏好傾向函數來提升生成質量;
  • GRPO 更強調“組間對比”,通過在線采樣、策略更新進行逐步優化,策略靈活但成本更高。

研究還特別指出,兩者的訓練損失在計算開銷上可以做精細對齊,從而保證評估結果更具可比性。

總結與展望

這項開創性研究為圖像生成領域引入 RL 思維鏈機制提供了系統的理論與實證支撐。DPO 與 GRPO 并非簡單的“優劣之分”,而是更適合于不同場景:

  • DPO 適合在已有高質量數據基礎上深度優化,追求精細化輸出
  • GRPO 則適合泛化需求高、任務分布多樣的實際應用環境

與此同時,研究也強調了獎勵模型作為“訓練導航儀”的重要性,未來在獎勵模型的泛化性設計上仍有很大提升空間。此外,該研究不僅明確了 DPO 與 GRPO 在不同場景下的適用性,也提供了可復用的實驗框架與擴展策略建議,為圖像生成引入 RL 方法奠定了實踐基礎。


隨著多模態任務復雜度提升,如何在泛化能力、生成質量與訓練效率之間找到平衡,將成為關鍵議題。這項工作為后續設計更魯棒、更智能的圖像生成 RL 框架提供了有力啟示,未來值得期待。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/wgyFWkCXvd89kK0aLeQX6g??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 人人干人人看 | 91精品麻豆日日躁夜夜躁 | 免费三级av | 欧美日韩最新 | 亚洲一区av | 在线免费激情视频 | 欧美日韩一区二区三区视频 | 一区二区三区视频 | 精品国产1区2区3区 一区二区手机在线 | 欧美一卡二卡在线观看 | 亚洲国产精品一区二区www | 无人区国产成人久久三区 | 精品欧美乱码久久久久久1区2区 | 亚洲精品久久久久久国产精华液 | 狠狠色综合久久丁香婷婷 | 欧美日韩亚洲视频 | 久久婷婷麻豆国产91天堂 | 成人性生交大片免费看中文带字幕 | 午夜欧美| 亚洲免费av一区 | 又黄又爽的网站 | 欧美aaaaaaaaaa | h视频免费在线观看 | 青青草亚洲 | 欧美亚洲视频在线观看 | 精品国产乱码久久久久久闺蜜 | 午夜精品久久久久久久星辰影院 | 天天躁日日躁狠狠的躁天龙影院 | 国产精品免费av | 日韩中文字幕视频在线观看 | 久久精品一区 | 成人久久久久 | 天天夜碰日日摸日日澡 | 亚洲成人一区 | 免费观看a级毛片在线播放 黄网站免费入口 | 一区二区三区四区电影 | 欧美精品一区二区三区视频 | 久久国产精品无码网站 | 亚洲国产第一页 | 一区二区在线看 | 日本免费一区二区三区 |