成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

邁向視覺大一統:UnifiedReward,多模態生成與理解的通用獎勵模型

人工智能 新聞
近年來,大模型時代的多模態生成與理解技術取得了飛躍式發展。然而,如何讓AI真正“看懂”世界,并更好地對齊人類偏好,仍是一個核心挑戰。

本篇文章來自公眾號粉絲投稿,論文提出了一個視覺領域通用的獎勵模型UnifiedReward,能夠對圖像/視頻的生成與理解進行pairwise(成對比較)或 pointwise(單樣本打分)評估,可用于視覺各領域的直接偏好優化 (DPO),提升各類視覺模型的表現。

論文介紹

圖片

近年來,大模型時代的多模態生成與理解技術取得了飛躍式發展。然而,如何讓AI真正“看懂”世界,并更好地對齊人類偏好,仍是一個核心挑戰。現有的獎勵模型往往過于專門化,難以跨任務泛化,限制了視覺模型在不同場景下的適應性。

為此,該工作提出——UnifiedReward,首個統一的視覺獎勵模型,能夠同時評估圖像/視頻的生成與理解,支持成對排序(pairwise ranking)和單樣本評分(pointwise scoring),并通過直接偏好優化(DPO)對齊視覺模型的輸出,使其更符合人類審美與認知!圖片

為什么需要 UnifiedReward?

  • 缺乏通用的視覺獎勵模型:現有方法多為特定任務設計,難以適應多樣化的視覺場景。我們希望打造一個通用模型,同時覆蓋多模態生成與理解任務。
  • 多任務學習的協同增強效應: 提升圖像理解,有助于更精準地評估圖像生成質量; 更細粒度的圖像評估能力,有助于視頻評估,提升幀級質量判斷。圖片

?? UnifiedReward 是如何工作的?

圖片

該方法包含三個關鍵階段:

  1. 統一獎勵模型訓練 通過構建大規模的統一偏好數據集來訓練一個通用的視覺獎勵模型,采用成對排序和單樣本評分策略,統一學習評估圖像/視頻的生成與理解任務。
  2. 高質量偏好數據構建 利用訓練好的獎勵模型,通過以下三步篩選偏好數據:
  • 生成候選數據:使用VLM/Diffusion 生成N 份數據;
  • 成對排序:將N 份數據兩兩成對,由獎勵模型篩選優選樣本和被拒樣本;
  • 逐點評分:在優選組中選最高分,在被拒組中選最低分,構建最終的高質量偏好數據對。
  1. 生成/理解模型偏好對齊 利用構建的偏好數據,通過直接偏好優化(DPO)微調VLM/Diffusion模型,對齊其輸出,使其更加符合人類偏好。

構造的大規模統一偏好數據集構造的大規模統一偏好數據集

實驗結果如何?

 UnifiedReward 超越了現有視覺獎勵模型,在多個主流評測基準上取得 SOTA 結果! ? 多任務學習帶來了顯著的跨任務增強效果:聯合學習圖像/視頻的生成與理解任務,可以讓模型在多個領域相互促進,取得更好的評估效果! ? DPO 微調顯著提升了視覺模型的表現,使其輸出更符合人類偏好,提升了生成質量與理解能力。圖片

圖片圖片圖片

開源與項目地址

UnifiedReward 的代碼、數據與模型已全面開源!

  • 項目主頁:https://codegoat24.github.io/UnifiedReward/
  • 論文 PDF:https://arxiv.org/pdf/2503.05236
  • GitHub 代碼:https://github.com/CodeGoat24/UnifiedReward
  • Huggingface 預訓練模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • Huggingface 訓練數據:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能為視覺大模型的偏好對齊提供更強大的工具,拓寬獎勵模型的應用邊界,使其在多種視覺任務中展現更強適應性、泛化性與高效性!!

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2025-04-16 02:55:00

2023-05-10 14:58:06

開源模型

2024-08-26 07:40:00

AI訓練

2024-01-24 09:24:19

自動駕駛算法

2025-06-09 09:50:00

VeactReact

2025-04-14 09:38:00

2025-06-13 08:46:00

2017-12-15 17:14:10

云端

2023-09-14 09:44:29

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2015-05-06 13:52:52

微軟外媒

2014-07-29 13:25:43

WWDC 2014 S

2024-04-25 14:53:59

模型視覺

2024-12-10 09:49:53

2023-09-19 09:22:54

數據訓練

2012-02-28 09:54:01

Windows 8微軟賬戶

2025-03-18 09:29:54

2024-09-27 17:58:26

2024-04-23 13:38:00

AI數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩电影中文字幕 | 欧美网站一区 | 成人久久18免费网站 | 欧美一区二 | 黄篇网址 | 久久不卡| 亚洲欧美日韩久久久 | 亚洲国产欧美91 | 亚洲丝袜天堂 | 天天干天天草 | h片在线观看网站 | 久草免费在线视频 | 久久9久| 五月婷六月丁香 | 欧美一级片免费看 | 日韩视频专区 | 最新中文字幕在线播放 | 欧美久久久久久久 | 久久高清精品 | 奇米影视首页 | 午夜免费av | 色播视频在线观看 | 国产精品日日做人人爱 | 日本三级电影在线观看视频 | 欧美一区二| 中文字幕日韩欧美一区二区三区 | 本道综合精品 | 久久久网| 国产传媒视频在线观看 | 久久精品国产清自在天天线 | 国产精品久久a | 国产日屁| 九九久久99 | 欧美成人精品 | 亚洲国产成人久久久 | 91麻豆蜜桃一区二区三区 | 日韩在线中文字幕 | 一区二区三区视频在线观看 | 宅男噜噜噜66一区二区 | 久久久久一区 | 特黄特黄a级毛片免费专区 av网站免费在线观看 |