多模態獎勵大一統!UNIFIEDREWARD突破任務邊界,圖像視頻雙域性能飆升的秘密
文章鏈接:https://arxiv.org/pdf/2503.05236
項目鏈接: https://codegoat24.github.io/UnifiedReward/
Github鏈接: https://github.com/CodeGoat24/UnifiedReward
Huggingface鏈接: https://huggingface.co/papers/2503.05236
Models鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
Datasets鏈接: https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede
亮點直擊
- 構建了一個大規模的人類偏好數據集,涵蓋多種視覺任務,并開發了UNIFIEDREWARD,這是首個用于多模態理解和生成模型評估的統一獎勵模型,能夠執行成對排名和單點評分。
- 提出了一種通用流程,以用于圖像和視頻理解/生成模型的偏好對齊,該領域在當前研究中仍然較少被探索。大量實驗表明,該方法在各個領域均能有效提升視覺模型的性能。
- 實驗表明,同時學習評估圖像和視頻任務能夠在不同視覺領域之間產生協同提升。通過本研究,旨在擴展獎勵模型的適用范圍,使其在各種視覺應用中更加適應性強、可推廣且高效。
總結速覽
解決的問題
- 任務特定性限制:現有的獎勵模型通常針對特定任務設計,缺乏跨多種視覺任務的適應性。
- 數據收集成本高:大規模收集人類反饋數據用于模型優化既耗時又資源密集。
- 任務間的孤立性:視覺任務之間存在內在聯系,但現有方法未能充分利用這種聯系來提升模型性能。
提出的方案
- 統一獎勵模型:提出了UNIFIEDREWARD,首個用于多模態理解和生成評估的統一獎勵模型,支持成對排序和點對點評分。
- 大規模數據集構建:構建了一個涵蓋圖像和視頻生成/理解任務的大規模人類偏好數據集。
- 自動數據生成:利用UNIFIEDREWARD自動生成高質量偏好對數據,通過多階段過濾(如成對排序和點篩選)選擇特定基線模型的輸出。
- 直接偏好優化:使用生成的偏好對數據,通過直接偏好優化(DPO)方法對齊模型輸出與人類偏好。
應用的技術
- 獎勵模型學習:從有限的偏好數據中學習獎勵模型,生成合成偏好數據。
- 多任務聯合學習:聯合學習多個視覺任務,利用任務間的協同效應提升模型性能。
- 多階段過濾:采用成對排序和點篩選技術,自動構建高質量偏好對數據。
- 直接偏好優化(DPO):使用偏好對數據進行模型優化,減少對人類注釋的依賴。
達到的效果
- 跨任務適應性:UNIFIEDREWARD模型能夠適應多種視覺任務,提升了模型的通用性和靈活性。
- 性能提升:通過聯合學習多個視覺任務,顯著提升了圖像和視頻理解/生成任務的性能。
- 數據效率:自動生成的偏好對數據減少了對大規模人類注釋的依賴,提高了數據利用效率。
- 協同效應:圖像理解的提升改善了圖像生成評估,圖像評估的改進通過更好的幀分析提升了視頻評估,形成了任務間的良性循環。
方法
概述
本研究旨在提出一個用于視覺模型偏好對齊的統一獎勵模型?,F有研究通常為特定任務開發專門的獎勵模型,如下表 1 所示,這限制了它們在不同視覺應用中的適應性。
同時學習多個視覺任務可以產生相互增強的效果,但這一領域尚未被充分探索。為此,本研究提出 UNIFIEDREWARD,這是首個用于多模態理解和生成評估的統一獎勵模型,能夠執行 成對排名 和 單點評分。該模型被用于 視覺-語言模型(VLMs) 和 擴散模型(Diffusion Models) 的對齊,以實現更穩健且適應性更強的偏好學習,涵蓋多種視覺任務。流程如下圖 2 所示。
首先構建一個大規模的統一偏好數據集,并在此數據集上訓練 UNIFIEDREWARD 模型。然后通過對 VLMs 和擴散模型的輸出進行 成對排名 和 單點評分,來構建相應的偏好數據集。這些數據集隨后被用于 直接偏好優化(DPO),從而有效增強模型對人類偏好的對齊能力。
統一獎勵模型訓練
統一偏好數據集構建
一個涵蓋多種視覺相關任務的綜合性人類偏好數據集,對于訓練統一獎勵模型至關重要。然而,現有的人類反饋數據集(如 [29, 40, 44])通常是為特定任務設計的,限制了其泛化能力。目前,還沒有一個能全面涵蓋 視覺理解 和 視覺生成 任務的人類偏好數據集,這凸顯了構建更通用數據集的必要性。為彌補這一空白,我們整合并預處理現有數據集,構建了首個 大規模統一人類偏好數據集,其中包含約 236K 條數據,涵蓋 圖像和視頻理解/生成 任務。數據集的詳細統計信息和可視化分布分別展示在下表 2 和圖 3 中。我們將在下文介紹各任務的數據構建過程。
圖像生成
- EvalMuse:包含4K個文本提示,每個提示對應多個不同模型生成的圖像。每張圖像由至少三名標注員進行評估,提供總體評分(1-5)以及元素級標簽,指示特定元素是否存在。
- 單點評分學習:最終得分取所有評分的平均值。若至少兩名標注員認定某元素存在,則視為已生成,否則視為未生成。
- 成對排名:選取同一提示下得分最高和得分最低的圖像,形成排名對。
- **Human Preference Dataset (HPD)**:包含70 萬條人類偏好投票。對于每個文本提示,提供兩張不同模型生成的圖像及對應投票數。我們直接利用投票數構建成對排名數據,得票較多的圖像被認為更受偏好。
- **Open-Image-Preferences (OIP)**:包含7.4K條文本到圖像的偏好數據,直接用于本研究。
圖像理解
- LLava-Critic-113K:包含40K條單點評分數據和73K條成對排名數據,主要用于圖像理解評估。我們從中選取25K條數據用于成對排名,另25K條數據用于單點評分訓練。
視頻生成
- VideoDPO:包含10K條合成視頻對比數據,適用于文本到視頻的 DPO 任務。我們直接使用該數據集進行視頻生成任務的成對排名學習。
- LiFT-HRA&VideoFeedback:提供大量人類反饋,用于合成視頻的單點評分,我們直接將其納入訓練。
視頻理解
- ShareGPTVideo-DPO:包含17K條視頻理解 DPO 數據,其中每對響應均被賦予一個評價得分。我們使用配對數據進行成對排名學習,同時提取單個響應的得分進行單點評分學習。
數據標準化
- 成對排名數據集采用統一格式:
“圖像/視頻/響應 X 優于 圖像/視頻/響應 Y”其中 “X” 和 “Y” 代表相應索引。如果數據集中包含 評估理由,我們會保留,以便模型學習人類推理過程。
- 單點評分數據集不強制統一評分格式或分數范圍,使模型能夠學習不同數據集的評分風格和體系。為確保評估標準與回答內容對齊,我們相應調整提示詞,具體模板見附錄 C。
如上圖 3 所示,相較于其他任務,視頻生成任務的成對排名數據較少,但我們認為 多任務學習的協同效應 能夠彌補這一不足??傮w而言,我們的數據集 涵蓋廣泛,包含 成對排名 和 單點評分 數據,適用于 圖像與視頻的理解和生成任務,從而支持 高效的獎勵模型訓練,確保在多模態理解和生成任務中的 穩健性能。后續章節將介紹相關模型訓練細節。
統一偏好學習
基于綜合性數據集,對一個具有強大視覺理解能力的預訓練 VLM進行微調,以開發 UNIFIEDREWARD,并在多個視覺任務上進行聯合訓練。與從零開始學習評估能力不同,我們將評估能力作為額外的判別技能進行整合,利用模型現有的視覺理解能力來增強其在不同任務上的評估性能。
前面圖 2(頂部)展示了我們的訓練流程。具體而言,在多模態生成評估任務中,我們的模型以視覺 token、指令輸入和字幕作為輸入。而在多模態理解任務中,字幕被替換為問題及其對應的回答,以使輸入格式與任務需求對齊。模型基于指令提示中指定的標準,學習預測單點評分或成對排序。如果訓練數據包含評估理由,模型還會學習生成詳細解釋,以支持其評估結果。在訓練過程中,優化目標是標準的交叉熵損失,但僅計算模型預測答案的損失。
在訓練好 UNIFIEDREWARD 之后,我們將其用于多模態理解和生成模型的偏好對齊。該過程包括兩個順序步驟:偏好數據構建 和 生成/理解模型對齊。接下來的章節將詳細介紹每個步驟。
偏好數據構建
偏好對齊數據的質量直接決定了模型對齊的有效性。現有方法 [28, 40, 44] 通常僅采用單一的評估策略,要么為模型輸出分配成對排序,要么給予單點評分,限制了數據的質量和多樣性。相較之下,本文的方法同時利用 UNIFIEDREWARD 的成對排序和單點評分能力,從而構建出更高質量的偏好數據集,流程如前面圖 2(左下)所示。
本文的數據構建流程包括以下三個順序步驟:
通過結合成對排序和單點評分,最終的偏好數據能夠提供高質量且可靠的偏好信號,有效捕捉相對比較和絕對質量評估。
生成/理解模型對齊
在構建偏好數據后,我們利用該數據進行多模態生成和理解模型的對齊。我們采用 DPO(Direct Preference Optimization) 方法,使模型能夠在不顯式建模獎勵的情況下對齊其輸出與人類偏好,直接基于排序的偏好對進行優化。
多模態生成的 DPO
在多模態生成任務中,擴散模型由于其在圖像和視頻合成方面生成高質量和多樣化輸出的能力,被廣泛應用。因此,我們在擴散模型上應用 DPO,使其輸出對齊人類偏好。
給定構造的偏好對數據集
該損失函數鼓勵微調后的擴散模型減少對更受偏好樣本的去噪誤差,同時增加對較不受偏好樣本的去噪誤差,從而提升生成質量。
多模態理解的 DPO
類似于生成模型的對齊,我們將 DPO 應用于多模態理解模型(即 VLMs),以調整模型的響應偏好。
該損失函數鼓勵微調后的 VLMs 增加生成偏好響應的概率,同時降低生成較不受偏好響應的概率,從而提升模型對齊人類偏好的能力,并增強推理質量。
實驗
實驗設置
模型與超參數設置
- 獎勵模型(Reward Model):我們采用LLaVA-OneVision 7B (OV-7B)作為UNIFIEDREWARD的基礎架構,以利用其在圖像和視頻理解方面的強大性能。訓練超參數如下:
- 多模態理解 DPO:
- 多模態生成 DPO:
- 數據集規模:
評測指標
- 多模態理解評測:
- 圖像理解:VLRewardBench
- 視頻理解:ShareGPTVideo(測試樣本數:1K)
- 多模態生成評測:
- 圖像/視頻生成獎勵評測: GenAI-Bench
- 視頻生成評測: VideoGen-RewardBench
- DPO 評測:
- 文本-圖像生成基準: Partiprompt(1632 captions)、HPSv2 (3200 captions)
- 獎勵模型: PickScore、HPDv2、ImageReward
- 圖像理解: LLaVABench、WildVision、LLaVABench-Wilder 、LiveBench、MMHal
- 視頻理解: MSRVTT、MSVD、TGIF、LongVideoBench、MLVU、VideoMME
- 圖像生成評測:
- 視頻生成評測: VBench
獎勵模型對比實驗
圖像理解
本文的方法與最新的開源模型 LLaVA-Critic 及兩個閉源模型 Gemini-1.5-Pro 和 GPT-4o 進行對比。
實驗結果(見下表 3)表明,本文的方法在大多數指標上優于最佳基線。例如,在 macro accuracy 方面,本文的方法達到了66.5%,顯著高于 LLaVA-Critic 的 62.5%,驗證了我們方法在圖像理解評測中的優越性。
視頻理解
由于目前尚無公開可用的基線模型,我們探索了 多任務學習 在視頻理解評測中的有效性,并將在后續章節詳細分析其影響。
圖像生成評測
本文的方法與傳統及最新的獎勵模型進行對比,包括:
- PickScore
- HPSv2
- ImageReward
- VisionReward
實驗結果(見下表 5)顯示,最新的 VisionReward 方法同時支持圖像和視頻生成的獎勵建模,但它為不同任務分別訓練單獨的模型,而本文的方法在 統一框架 下進行多任務聯合學習,從而在多個指標上取得更優結果。
視頻生成評測
本文的方法與以下最新方法進行對比:
- VideoScore(視頻生成評測模型)
- LiFT(視頻獎勵模型)
- VisionReward
- VideoReward
盡管我們的視頻生成評測數據相對較少(見前面圖3),但實驗結果(上表 5)表明,本文的方法在所有基線方法中表現最佳。這表明 多任務學習 不僅能緩解訓練數據不足的問題,還能增強視頻生成評測的學習效果。
多任務評估學習
在這項工作中,認為視覺任務本質上是相互關聯的,聯合學習多個視覺任務可能會產生相互增強的效果。因此,探索了多任務學習對獎勵模型的有效性。具體來說,對于每個任務,我們使用不同的訓練數據配置來訓練模型,研究在不同模態(圖像和視頻)和任務(理解和生成)之間聯合學習的影響。例如,對于圖像理解任務,我們設計了三種訓練配置來探討多任務學習的影響:(1)僅在圖像理解評估上訓練,(2)聯合學習圖像理解和圖像生成評估,(3)聯合學習圖像理解和視頻理解評估。結果如表3所示,值得注意的是,研究表明,相較于單一任務訓練,多任務學習顯著增強了模型的整體性能。例如,在圖像和視頻理解任務上聯合訓練,相較于僅在圖像理解上訓練,整體準確率提高了5.3%,宏觀準確率提高了8.3%。下表4和表5中的其他任務結果一致地證明了聯合學習的有效性。這些結果突顯了跨不同視覺任務共享知識的好處,從而提高了獎勵模型的魯棒性和泛化能力。
DPO比較結果
為了進一步展示本文方法在圖像和視頻理解與生成任務中的有效性,通過精細化輸出篩選來構建偏好數據,然后通過DPO進行模型對齊。
- 圖像理解:將本文的方法與最新的獎勵模型LLaVA-Critic進行比較,使用相同的圖像-問題對源(LLaVA-RLHF)來構建OV-7B的偏好數據,確保公平比較。下表7中的結果表明,本文的方法在所有基準測試中始終優于LLaVA-Critic,例如,在LLaVABench上提高了3.4%的效果,突顯了其優越性。
- 視頻理解:從ShareGPTVideo-DPO中提取提示,構建LLaVA-Video-7B的偏好數據。我們的結果表明,本文的方法在MSRVTT、MSVD和TGIF等數據集上顯著優于基線,展示了其在視頻理解中的有效性,具體見下表6。對于其他三種多選問題數據集,盡管我們的DPO數據不包含此類數據,但我們的性能仍與基線相當,表明了我們方法的魯棒性和泛化能力。
- 圖像生成:使用Pick-a-Pic人類偏好圖像數據集的數據,構建偏好數據。下表9中的結果顯示,相較于直接在原始數據集上訓練,本文的方法表現更好,證明了其在精細化偏好數據以改善模型對齊方面的有效性。
- 視頻生成:將本文的方法與VideoDPO進行比較,使用相同的提示源來構建偏好數據。下表8中的結果表明,本文的方法顯著提高了生成質量和語義一致性,突顯了其有效性。
圖像生成定性結果
視頻生成定性結果
結論
本文提出了UNIFIEDREWARD,第一個用于多模態理解和生成評估的統一獎勵模型,能夠處理配對排名和點評分兩種任務。UNIFIEDREWARD通過在涵蓋廣泛視覺任務的大規模綜合數據集上對預訓練的視覺語言模型(VLM)進行微調來開發。然后,該模型用于通過詳細的過濾過程自動構建高質量的偏好配對數據,這些數據隨后用于通過直接偏好優化(DPO)進行模型對齊。實驗結果表明,跨不同視覺任務的聯合學習在圖像和視頻理解與生成任務中帶來了顯著的性能提升。這種方法增強了視覺模型與人類偏好之間的對齊,從而提高了推理質量和任務性能。
本文轉自AI生成未來 ,作者:AI生成未來
