成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?

發布于 2025-6-6 06:14
瀏覽
0收藏

背景

隨著 GPT-4o 在圖像生成任務上的橫空出世,以及越來越多采用 自回歸架構(auto-regressive architecture) 的文本到圖像(T2I)模型迅速發展,當前一代的生成模型在理解與執行用戶復雜指令(prompts)方面,已經實現了飛躍式突破?。

如今的 T2I 模型不僅能識別多個屬性(如顏色、材質、風格等),還能處理帶有 邏輯推理結構甚至復雜修辭的超長自然語言指令。

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

A square image containing a 4 row by 4 column grid containing 16 objects on a white background. Go from left to right, top to bottom. Here's the list:

1.a blue star;2.red triangle;3. green square;4.pink circle;5.orange hourglass;6.purple infinity sign;7.black and white polka dot bowtie;8.tiedye "42";9. an orange cat wearing a black baseball cap;10.a map with a treasure chest;11. a pair of googly eyes;12.a thumbs up emoji;13. a pair of scissors;14.a blue and white giraffe;15.the word "OpenAI" written in cursive;16.a rainbow-colored lightning bolt

例如:GPT-4o生圖的官方例子,prompt涉及數百個單詞,以及非常復雜的屬性與位置關系組合

?? 然而問題也隨之暴露:現有主流的 T2I Benchmark 明顯滯后,無法有效衡量這些強模型的真實能力。

?? 我們總結出當前 T2I 評測基準面臨的四大問題:

1?? Prompt 設計簡化、結構單一:許多 benchmark 中的大多數prompt 長度極短,而且大多為模板化句式(如“a photo of a [object] with [attribute]”),難以反映真實使用場景中復雜需求的處理能力。

2?? 語義多樣性嚴重不足:以 GenAI Bench 為例,其 prompt 集中度極高,只有不到 30% 的 prompts 是語義獨立的(semantic unique),導致模型評測分數逐漸“內卷收斂”,難以區分強模型和弱模型的能力差異。

3?? 缺乏真實場景長指令:現實中,用戶往往會輸入多屬性、帶有條件關系和上下文邏輯的自然語言描述。而現有 benchmark 極少覆蓋這類“設計師風格”或“專業用戶需求”指令,導致模型訓練和評測脫節。

4?? 評測方法粗糙且與人類直覺不符:目前大多數 benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)進行自動評測。這類評測手段僅能判斷“是否與文本概念大致對齊”,卻無法評估圖像中每個細節是否精準反映用戶意圖(例如無法區分“a boy under a bee”和“a bee under a boy”),也無法體現人類真實偏好??。

現有Bench的不足之處

Prompt 設計的不足:簡化、結構單一,語義多樣性與文法多樣性不足,且缺乏真實場景長指令:

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

長度偏短且固定(右圖):常見bench中的絕大多數prompt都不大于30個單詞,這和現實場景中T2I模型所面對的prompt長度gap很大;

缺乏真實使用場景下的長指令(左下圖):常見Bench的最長prompt也是較為簡單的句子,TIIF-Bench包含了許多從AIGC論壇上手工收集的復雜、真實用戶prompt;

語義重復性高(左上圖):我們使用CLIP提取了不同Bench中所有prompts的文本語義特征并計算了consine相似度,以0.85為threshold,發現GenAI Bench中只有不到30%的prompt是semantic unique的,Compbench++中只有不到60%,而TIIF-Bench中semantic unique prompts大于90%;

文法復雜度低(中間圖):我們將不同Bench的所有prompts的CLIP文本語義特征進行了t-SNE降維,TIIF-Bench的range范圍最大;


然而實驗表明:即使核心語義相同,不同長度的prompt對T2I model有很大影響:

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

 現有的bench完全缺乏這一維度的考量!

評測方法的不足:粗糙且與人類直覺不符

目前大多數 benchmark 仍依賴 CLIP 相似度(CLIPScore 或類似變體)和其它一些專家模型進行自動評測:

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

然而CLIP無法評估圖像中每個細節是否精準反映用戶意圖(例如無法區分“a boy under a bee”和“a bee under a boy”),也無法體現人類真實偏好??。UNIDet等開集檢測模型則無法對現代T2I model生成的復雜圖像進行有效檢測。

TIIF-Bench的構建

我們設計了一個 多階段的 prompt 生成流程:

1?? 概念池構建(Concept Pool Construction)

?首先對現有 benchmark 的 prompt 進行語義分組,借助 GPT-4o 自動提取核心的“物體–屬性/關系”結構。

?最終我們構建了 10 個概念維度,并將其劃分為三大類:屬性類(Attribute)、關系類(Relation) 和 推理類(Reasoning),詳見:

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區圖片

2?? 屬性組合(Attribute Composition)

?從上述概念池中采樣屬性組合,使用 GPT-4o 自動生成自然語言指令。我們設計了 36 個不同的組合模式,并為每種組合搭配了專屬的 meta-prompt 引導生成。

?組合策略分為:

?Basic Following:只涉及同一類屬性的組合;

?Advanced Following:跨類別組合,內容更復雜;

3?? 新評測維度

?Text Rendering:衡量T2I模型生成復雜非自然紋理的能力!我們專門設計了新指標GNED來對其進行評測,難度歸類為Advanced Following;

?Style Control:衡量T2I模型整體的內容理解與控制能力!我們從手動AIGC社區挑選了10個最常用的風格,難度歸類為Advanced Following;

?Real World:衡量T2I模型的綜合能力!我們手動從AIGC社區篩選了100個受歡迎、內容復雜、有趣的設計師級別prompt,難度單獨歸類為Designer Level Following;

4?? 長度擴展(Length Augmentation)

?為每條 prompt 自動生成一個 長文本版本,通過 GPT-4o 進行語言豐富化和風格潤色,測試模型對不同語言復雜度指令的適應能力。

TIIF-Bench的評測流程

我們提出了一種基于 屬性級問答匹配(Attribute-Specific QA Matching) 的評測框架:

? 核心步驟:

1.概念抽取:          
   從生成指令中提取出 N 個核心語義概念(如物體屬性、物體間關系、邏輯關系等);?

2.問題生成:          
   由 GPT-4o 為每個概念自動生成一個二選一問句(Yes/No Question),如“這張圖中有紅色汽車嗎?”、“人是在汽車的左邊嗎?”;?

3.答案匹配:          
   將生成圖像和所有問題一起輸入到多模態大模型(如 GPT-4o 或 QwenVL),獲取預測答案,并與標準答案進行比較;?

4.評分計算:          
   通過平均匹配準確率得出最終分數,避免了使用全 prompt 的語言偏見與幻覺。?

?? 特殊維度評測:

?Designer-Level Prompt:每條指令搭配人工制定的專屬問句,確保高可靠性。

?Text Rendering:使用OCR Recall和全新提出的指標 GNED(Global Normalized Edit Distance):

?用于衡量圖中文字與目標文本在字符層面的匹配度;

?同時懲罰遺漏、冗余、錯誤字形等問題;

?相比 PNED 更穩定、魯棒,適用于任意文本長度與格式。

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

一些有趣的insights

我們將模型分為三類進行分析:

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

1?? Diffusion 架構的開源模型

代表模型包括:SD 系列、FLUX.1 Dev、SANA 系列、PixArt 系列、Playground 系列等。

?整體表現:SD 3.5 在短指令上得分最高;而 FLUX.1 Dev 在長指令場景中表現最強,得益于其 MMDiT 架構和更大模型規模。

?文字生成(Text Rendering):僅有 FLUX.1 Dev、SANA 系列、SD 系列部分版本支持文本生成。其中 FLUX.1 Dev 在短長指令下均表現穩定。

?風格控制(Style Control):部分模型(如 Playground)在長 prompt 下風格生成質量反而更好,因為長指令提供了更多語義上下文;而 SD 3.5、PixArt-Sigma 等模型更依賴短標簽提示,長 prompt 會稀釋風格信號。

?設計師級指令:這類 prompts 是最具挑戰性的維度,模型在該維度的排名通常也代表其綜合實力。

?對 prompt 長度的魯棒性:如 FLUX.1 Dev、SD 3.5、PixArt-Sigma 等表現穩定;而弱模型(如 SDXL、PixArt-Alpha)在長指令下明顯退化。T2I模型的指令理解能力與其綜合生成能力呈正相關!

2?? 自回歸(AR)架構的開源模型

代表模型包括:Janus-Pro、Infinity、Show-o 等

?整體表現:Janus-Pro 表現最佳,得益于其融合生成與理解的訓練策略。

?文字生成能力較弱,但 Janus-Pro 和 Show-o 可生成基本文字。

?風格控制能力強,對復雜風格語義理解更到位。

?視覺保真度略遜一籌,但在復雜邏輯理解、長 prompt 指令跟隨方面表現亮眼。

全新的 TIIF-Bench基準帶你測試你的T2I模型是否真的看懂了你的prompt?-AI.x社區

自回歸T2I模型雖然在生成圖像畫質方面表現一般,但是在理解指令方面表現優異

3?? 閉源模型

包括:GPT-4o、DALL·E 3、MidJourney V6/V7、Flux.1 Pro 等

?GPT-4o 在所有維度遙遙領先,不僅圖像質量極高,指令理解也最強,是唯一在復雜邏輯推理(如否定、比較等)任務上始終保持穩定的模型。

?文字渲染上,GPT-4o 成功率遠高于其他模型。

?風格控制與設計師指令執行能力方面也顯著優于所有閉源/開源對手。

?值得注意的是,Flux.1 Pro 的表現竟不如開源的 Flux.1 Dev,尤其是在長 prompt 情境下,閉源不一定優于開源!

?? 與其他 Benchmark 對比

我們選取了四個開源模型(SD 3.5、SANA 1.5、PixArt-Sigma、Janus-Pro)和四個閉源模型(GPT-4o、DALL·E 3、MidJourney V6、Flux.1 Pro),在三個 Benchmark 上進行橫向評測:TIIF-Bench、CompBench++、GenAI Bench。

?? 對比發現

?GenAI Bench 和 CompBench++ 中存在評分收斂、模型難以區分的問題,例如多個模型得分完全一樣。

?CompBench++ 中,專家模型打分與 GPT 打分存在顯著偏差。

?TIIF-Bench 在評測維度細致度、模型區分能力方面更強,能夠穩定給出符合模型能力的排序。

本文轉載自??AI-PaperDaily??,作者:AI-PaperDaily


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产日韩欧美在线 | 成人免费在线电影 | 久久亚洲国产精品 | 亚洲欧美一区二区三区1000 | 国产精品成人久久久久a级 久久蜜桃av一区二区天堂 | 国产精品久久久 | 亚洲色图图片 | 国产精品 欧美精品 | 免费人成在线观看网站 | 亚州成人 | 日本久久久影视 | 日韩欧美在线播放 | 99久久久久久久久 | 亚洲成人一区 | 亚洲一区二区日韩 | 91社区在线观看高清 | 国产综合久久 | 久久久久国产精品午夜一区 | 99精品国产一区二区青青牛奶 | 男人天堂网址 | 蜜桃av一区二区三区 | 黄一区二区三区 | 99亚洲精品 | 国产清纯白嫩初高生在线播放视频 | 久久婷婷国产麻豆91 | 欧美一区二区三区在线播放 | 亚洲欧美成人 | 99久久婷婷国产亚洲终合精品 | 天天干com | 国产一区二区三区在线观看免费 | 亚洲精品1| 国产精品一区在线 | 亚洲精品久久久一区二区三区 | 九九九视频精品 | 最新免费av网站 | 久久久久久99 | 国产欧美一区二区三区久久手机版 | 成人在线视频网 | 国产高清视频在线观看 | 久久精品亚洲成在人线av网址 | 成人在线免费观看 |