邁向視覺大一統:UnifiedReward,多模態生成與理解的通用獎勵模型
本篇文章來自公眾號粉絲投稿,論文提出了一個視覺領域通用的獎勵模型UnifiedReward,能夠對圖像/視頻的生成與理解進行pairwise(成對比較)或 pointwise(單樣本打分)評估,可用于視覺各領域的直接偏好優化 (DPO),提升各類視覺模型的表現。
論文介紹
近年來,大模型時代的多模態生成與理解技術取得了飛躍式發展。然而,如何讓AI真正“看懂”世界,并更好地對齊人類偏好,仍是一個核心挑戰。現有的獎勵模型往往過于專門化,難以跨任務泛化,限制了視覺模型在不同場景下的適應性。
為此,該工作提出——UnifiedReward,首個統一的視覺獎勵模型,能夠同時評估圖像/視頻的生成與理解,支持成對排序(pairwise ranking)和單樣本評分(pointwise scoring),并通過直接偏好優化(DPO)對齊視覺模型的輸出,使其更符合人類審美與認知!
為什么需要 UnifiedReward?
- 缺乏通用的視覺獎勵模型:現有方法多為特定任務設計,難以適應多樣化的視覺場景。我們希望打造一個通用模型,同時覆蓋多模態生成與理解任務。
- 多任務學習的協同增強效應: 提升圖像理解,有助于更精準地評估圖像生成質量; 更細粒度的圖像評估能力,有助于視頻評估,提升幀級質量判斷。
?? UnifiedReward 是如何工作的?
該方法包含三個關鍵階段:
- 統一獎勵模型訓練 通過構建大規模的統一偏好數據集來訓練一個通用的視覺獎勵模型,采用成對排序和單樣本評分策略,統一學習評估圖像/視頻的生成與理解任務。
- 高質量偏好數據構建 利用訓練好的獎勵模型,通過以下三步篩選偏好數據:
- 生成候選數據:使用VLM/Diffusion 生成N 份數據;
- 成對排序:將N 份數據兩兩成對,由獎勵模型篩選優選樣本和被拒樣本;
- 逐點評分:在優選組中選最高分,在被拒組中選最低分,構建最終的高質量偏好數據對。
- 生成/理解模型偏好對齊 利用構建的偏好數據,通過直接偏好優化(DPO)微調VLM/Diffusion模型,對齊其輸出,使其更加符合人類偏好。
構造的大規模統一偏好數據集
實驗結果如何?
UnifiedReward 超越了現有視覺獎勵模型,在多個主流評測基準上取得 SOTA 結果! ? 多任務學習帶來了顯著的跨任務增強效果:聯合學習圖像/視頻的生成與理解任務,可以讓模型在多個領域相互促進,取得更好的評估效果! ? DPO 微調顯著提升了視覺模型的表現,使其輸出更符合人類偏好,提升了生成質量與理解能力。
開源與項目地址
UnifiedReward 的代碼、數據與模型已全面開源!
- 項目主頁:https://codegoat24.github.io/UnifiedReward/
- 論文 PDF:https://arxiv.org/pdf/2503.05236
- GitHub 代碼:https://github.com/CodeGoat24/UnifiedReward
- Huggingface 預訓練模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
- Huggingface 訓練數據:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede
期待 UnifiedReward 能為視覺大模型的偏好對齊提供更強大的工具,拓寬獎勵模型的應用邊界,使其在多種視覺任務中展現更強適應性、泛化性與高效性!!