成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺

發布于 2025-6-11 09:26
瀏覽
0收藏

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

文章地址:https://arxiv.org/pdf/2505.19415 
開源地址:https://hanghuacs.github.io/MMIG-Bench/ 

亮點直擊

  • 統一的任務覆蓋與多模態輸入:收集了超過 380 組(涵蓋動物、物體、人類和風格等類別),共計1,750張以物體為中心的多視圖圖像,支持嚴格的基于參考圖像的生成任務。
  • 構建了4,850條富含標注的提示語,涵蓋組合性(屬性、關系、物體、數量)、風格(固定模式、專業風格、自然風格、人類書寫)、寫實性(想象類)以及常識性(比較、否定)等方面。為未來圖像生成研究提供了靈活性,支持任意圖像生成任務。
  • 三層次評估體系:提出了一個多層次的評分框架,以實現全面評估。
  • 通過 3.2 萬條人類評分驗證了上述評估指標的有效性,并對 17 個當前最先進的模型進行了基準測試,提供了關于架構選擇和數據構建的設計洞見。

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

MMIG工作臺概述

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

MMIG Bench中標簽的統計。左上角:T2I任務中文本的組成類別和高級類別的數據分布。左下:自定義任務中文本提示的數據分布。右:參考圖像的類別統計

更多結果

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

總結速覽

解決的問題

  • 當前多模態圖像生成模型(如 GPT-4o、Gemini 2.5 Pro 等)雖在理解復雜指令、圖像編輯和概念一致性方面表現優異,但評估體系仍存在顯著不足:
  • 文本生成圖像(T2I)基準缺乏多模態條件輸入;
  • 定制圖像生成基準忽視組合語義和常識性理解;
  • 評估工具分散:缺乏統一的評估基準;
  • 現有基準局限性
  • 缺乏細粒度的語義對齊評估方法。

提出的方案

  • 構建了第一個面向圖像生成的綜合多模態基準測試集——MMIG-Bench,統一多模態圖像生成任務的評估。
  • 核心設計包括:
  • 收集 380+ 個主體(人類、動物、物體、風格等);
  • 提供 1,750 張多視角參考圖像;
  • 構建 4,850 條富含標注的文本提示,涵蓋組合性、風格性、寫實性和常識性。
  • 任務統一與多模態輸入支持
  • 三層次評估體系
  1. 低層級:評估視覺偽影與物體身份保持;
  2. 中層級:提出新指標AMS(Aspect Matching Score),基于 VQA,衡量語義對齊;
  3. 高層級:評估圖像美學質量與人類偏好。

應用的技術

  • 數據構建
  • 多視角圖像采集與標注;
  • 富語義提示語設計,涵蓋組合性、風格、否定、比較等多種語言現象。
  • 評估方法
  • 基于圖像分析的低層級指標;
  • 基于視覺問答(VQA)的中層級指標(AMS);
  • 基于人類評分的高層級審美與偏好評估。
  • 大規模人類評估驗證
  • 收集32,000 條人類評分,用于驗證指標有效性。

達到的效果

  • 統一評估框架:將 T2I 與定制生成任務統一于一個基準中,實現靈活、全面的評估。
  • 指標有效性驗證:AMS 等指標與人類主觀判斷高度相關。
  • 模型對比分析
  • 對 17 個最先進的圖像生成模型(如 Gemini 2.5 Pro、FLUX、DreamBooth、IP-Adapter 等)進行系統評估;
  • 提供關于模型架構與訓練數據設計的深入洞見。
  • 推動研究發展
  • 計劃公開數據集與評估代碼,促進多模態圖像生成領域的標準化評估與創新。

數據整理

概述

多模態圖像生成通常涉及參考圖像和文本提示作為輸入。因此,基準測試的數據收集分為兩個部分:分組圖像收集和文本提示生成(如下圖 3 所示)。首先從現有的文本生成圖像(T2I)基準中提取實體(如[28, 27, 57])。在收集了超過 2,000 個不同實體后,我們保留了使用頻率最高的 207 個實體以供后續使用。

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

使用 GPT 生成文本提示

為了實現可擴展且多樣化的提示生成,我們使用 GPT-4o 和若干預定義的指令模板(如圖 3 所示)。通過將實體和指令模板作為輸入,我們總共生成了 4,350 條合成提示,涵蓋兩個任務。此外,我們從已有工作中手動篩選了 500 條人工書寫的提示。為確保語義方面的廣泛覆蓋,我們將提示分為兩個主要類別:組合類和高層類。


組合類包括五個子類:物體、計數、屬性、空間關系(如 next to、atop、behind)和復雜關系(如 pour into、toss、chase)。高層類包括七個子類,包括風格(固定模式、自然、專業、人類書寫)、寫實性(想象類)以及常識(否定、比較)。


為了更好地控制提示的要素、風格和結構,我們設計了八種指令模板,以 T2I 任務為例。當提示需要組合性和特定結構時,我們使用以下格式:"[scene description (optional)] + [number][attribute][entity1] + [interaction (spatial or action)] + [number (optional)][attribute][entity2]"。


當提示需要更接近自然語言、人工書寫風格時,使用更靈活的指令:"Please generate prompts in a NATURAL format. It should contain one or more "entities / nouns", (optional) "attributes / adjective" that describes the entities, (optional) "spatial or action interactions" between entities, and (optional) "background description"."

為確保生成提示的質量和安全性,我們進一步過濾有毒或低質量內容,并使用 FineMatch 生成密集標簽,使數據集更加靈活且適用于研究用途。

分組主體圖像收集

以物體為中心且寫實的分組參考圖像在以往基準中通常缺失。然而,多張參考圖像在多個任務中已被證明是有效的,包括圖像定制、視頻生成和三維重建。為填補這一空白,我們收集了大量分組參考圖像。


目標物體選自我們之前識別出的 207 個常見實體。聘請標注員從 Pexels中整理分組物體圖像,遵循以下準則:

  1. 每組包含 3–5 張同一物體的圖像;
  2. 每組中物體呈現不同的姿勢或視角;
  3. 優先選擇具有復雜標志或紋理的物體。


此外,還收集了 12 種風格的藝術圖像(如素描、低多邊形、油畫)以支持風格遷移任務。

總計收集了來自 386 個組的 1,750 張圖像,涵蓋四個主要類別——動物、人類、物體和風格 —— 如下圖 2(右)所示。為確保圖像質量,進行了過濾和裁剪以去除無關內容?;谒占瘓D像中的實體,我們使用上述方法生成相應的文本提示。

用于中層級評估的數據整理

中層級評估的目標是從細粒度維度分析文本與圖像的對齊情況,使得生成細節的評估更具可解釋性。為此,借鑒 FineMatch,從“物體、關系、屬性、計數”四個方面分析細粒度的文本-圖像對齊。首先使用 GPT-4o 從輸入提示中提取所有相關方面的短語,然后利用上下文學習提示 GPT-4o 生成相應的問答對。

提示解析

遵循 FineMatch的方法,從文本提示中整理方面短語,并使用 GPT-4o 進行方面圖解析,因為其具備優越的組合解析能力。具體而言,GPT-4o 在顯式指令和上下文示例的指導下,準確提取并分類短語為四類:物體、關系、屬性和計數查詢。

問答對生成

參考以往基于 VQA 的評估框架,如[59, 15, 4, 16, 49, 14, 32, 18],繼續為每個方面短語生成高質量的問答(QA)對。首先,領域專家為每一類別(物體、關系、屬性、計數)人工整理了一組示例問答對。這些人工整理的問答對在隨后的上下文學習階段作為上下文示例。

隨后,使用這些示例提示 GPT-4o 為所提取的方面短語生成全面的問答對,確保其與細粒度評估維度的一致性。該自動生成過程通過調整指令和示例進行迭代優化,以提升覆蓋率、清晰度和一致性。

人工驗證

為了保證數據集的質量、可解釋性和可靠性,引入經過訓練的人工標注員,執行結構化的驗證流程。標注員執行多個質量保障任務,包括:

  • 毒性與適宜性過濾:標注員篩查生成的問答對中是否存在有害、冒犯或不當內容,以確保在研究環境中的倫理合規性和可用性。
  • 問答對校正與驗證:每一個由 GPT-4o 生成的問答對都經過嚴格的人工驗證,以確認其邏輯一致性、準確性以及與原始方面短語的相關性。標注員會優化含糊的問題、修正事實錯誤,并確保問題與答案之間的精確對應關系。
  • 方面短語優化:提取的方面短語會被仔細檢查并優化語言清晰度和語義準確性。標注員審查每一個短語,以確保其正確且全面地代表預期的組合性方面(物體、關系、屬性、計數)。

經過這些嚴格的人工驗證步驟后,我們獲得了一個高質量的數據集,共包含 28,668 條驗證后的問答對(其中 T2I 任務為 16,819 條,自定義任務為 11,849 條),專為支持細粒度文本-圖像對齊的詳細分析而設計。

提出指標 - MMIG-Bench

低層級評估指標

低層級評估的目標是評估生成圖像中的偽影,并評估生成圖像與提示之間,以及生成圖像與參考圖像之間的低層特征相似性。為此,我們借助已有的評估指標:

  • CLIP-Text:衡量生成圖像與輸入提示之間的語義對齊;
  • CLIP-Image、DINOv2CUTE:衡量身份保持程度;
  • PAL4VST:通過分割模型評估生成偽影的數量。

這些指標共同提供了對視覺質量和一致性的全面評估。

中層級評估指標

中層級評估的目標是評估生成圖像與文本提示之間的細粒度語義對齊。我們使用與四個方面對應的收集問答對,設計了一個新的可解釋評估框架 —— Aspect Matching Score(AMS)。

Aspect Matching Score

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

我們將 Aspect Matching Score 定義為答對的 VQA 問題所占的比例:

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

其中1(.)  是一個指示函數,當預測答案與真實答案完全匹配時返回 1,否則返回 0。

AMS 提供了一個直接且可解釋的度量,用于衡量生成圖像與提示中每個語義組成部分的對齊程度。更高的 AMS 表示更好的細粒度對齊,能夠捕捉到粗粒度指標常常忽略的失敗情況。

高層級評估指標

高層級評估的目標是評估生成圖像的美學質量和人類偏好。為此借助已有的評估指標,如 Aesthetic、HPSv2 和 PickScore。這些指標為生成結果的視覺吸引力和與人類偏好的對齊程度提供了全面評估。

實驗

人類評估

為了評估最先進生成模型的語義保持能力,并比較基于 VQA 的指標與人類之間的相關性,進行了五項用戶研究。我們在五個方面評估了 12 個文本到圖像(T2I)模型:屬性、關系、計數、物體和一般提示遵循性。對于前四個方面,隨機選擇了 150 個提示;對于最后一個方面,使用了 300 個提示。


在每項研究中,用戶會看到一個提示和一張生成圖像,并被要求根據目標方面在 1–5 分的尺度上對語義對齊程度進行評分(詳見附錄)??偣矎某^ 8,000 名 Amazon Mechanical Turk 用戶處收集了 32,400 條評分。結果見下表 3。

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

自動化指標與人類標注的相關性

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

排行榜

使用多層級評估框架,比較了最先進模型在 T2I 任務(下表 1)和自定義任務(下表 2)中的表現。

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

根據得分,可以得出以下結論:

在 T2I 任務中:

  • 與擴散模型相比,自回歸模型(JanusFlow 和 Janus-Pro7B)在視覺質量方面表現明顯較差,更容易生成偽影,并且在美學和人類偏好評分中得分最低;
  • HiDream-I1 是參數量最大的模型(17B),在所有生成器中表現最優;它利用了修正流和來自 FLUX.1-schnell 的 VAE;
  • FLUX.1-dev(第二大模型,參數為 12B)在大多數指標中排名第二;
  • HiDream-I1 和 FLUX.1-dev 的表現表明擴展生成模型規模的重要性;
  • 雖然 GPT-4o 并非在所有指標中都是最優,但其生成能力非常穩健,在各項指標中均具競爭力。

在自定義任務中,得出以下結論:

  • 在大多數評估身份保持的低層級指標中,DreamBooth 是表現最強的模型;其多視角輸入和測試時微調極大提升了身份學習能力;
  • GPT-4o 的身份保持能力較弱,甚至低于一些早期模型,如 Emu2 和兩個基于編碼器的模型(BLIP Diffusion 和 IP-Adapter);
  • GPT-4o 在視覺質量和語義對齊方面排名第一;
  • MS Diffusion 通常在生成質量方面排名第二,驗證了其 grounding resampler 和 MS cross-attention 的有效性。然而,它在身份保持方面表現不佳。

質性分析

在下圖 4 中展示了多模態圖像生成的質性結果。前六行展示了僅以文本為條件的生成;后三行展示了以圖像和文本為條件的生成。

終結評測割裂!MMIG-Bench發布:首創三層評測框架,多模態圖像生成統一標尺-AI.x社區

主要觀察如下:

在 T2I 任務中:

  • Hunyuan-DiT-V1.2 在實體生成方面表現不佳,常常遺漏物體、重復生成或生成錯誤的對象;
  • Pixart-Sigma-XL2 顯示出更明顯的視覺偽影(如在長椅、椅子和電腦周圍),這與其在表 1 中較低的 PAL4VST 得分一致。

在自定義任務中:

  • 非剛性物體(例如狗)往往會呈現出更為多樣的姿態;
  • MS-Diffusion 在保持物體身份方面表現最差,而 DreamBooth 表現最好;這一點與表 2 中的 CLIP-I 和 DINOv2 得分高度一致;
  • 盡管 DreamBooth 在身份保持方面表現強勁,但它常常無法生成正確的場景、動作或附加實體,表明其組合性對齊能力較差。

討論與結論

MMIG-Bench,這是第一個將多模態圖像生成視為單一任務而非兩個分離任務的基準測試集。展示了通過將 1,750 張多視角參考圖像與 4,850 條密集標注的提示配對,MMIG-Bench 能夠對純文本到圖像、圖像條件自定義以及二者之間的所有混合形式進行并列評估。


所提出的三層級評估框架提供了全面、可解釋的評估方式,彌補了 T2I 和自定義任務中評估的空白。通過與 17 個最先進模型的 32,000 條人類評分對比,評估指標被證明與人類偏好高度一致。


對圖像生成器在本基準上的深入評估提供了關于模型容量、模型架構及其他因素如何影響圖像質量的見解。一個限制是人類評分尚未涵蓋視覺質量;計劃在未來的研究中擴展至這一維度。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/o8Q1NRHhb1NSLpbNAHhrAA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产伦精品一区二区三区四区视频 | 国产乱码精品一区二区三区五月婷 | 蜜桃官网| 91最新入口 | 精品伦精品一区二区三区视频 | 国产va| 日本成人中文字幕 | 伊人春色在线观看 | 精品一区二区三区不卡 | 久久国产成人精品国产成人亚洲 | 午夜影院在线视频 | 日韩免费视频一区二区 | 日本三级电影在线看 | 一区二区久久精品 | 亚洲情侣视频 | 高清一区二区三区 | 亚洲激情av | 中文成人无字幕乱码精品 | 国产一级在线 | 久久久久久久久一区 | 高清亚洲 | 欧美中文字幕一区二区三区亚洲 | 久久久噜噜噜www成人网 | 国产精品久久久亚洲 | 免费黄色在线 | 久久久国产一区二区三区 | 日韩中文av在线 | 性欧美精品一区二区三区在线播放 | 亚洲欧美在线一区 | 91九色视频 | 久久久国产一区二区三区 | 日本视频在线播放 | 日韩精品久久久久久 | 羞羞的视频在线看 | 精品日韩一区二区 | 欧美video| 亚洲第一成人影院 | 日韩精品久久久久久 | 中文字幕一区在线观看视频 | 91 视频网站 | 91免费在线视频 |