交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025) 原創(chuàng)
摘要
許多現(xiàn)實(shí)世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了 ISG,這是一個(gè)用于交錯(cuò)文本 - 圖像生成的綜合評(píng)估框架。ISG 利用場(chǎng)景圖結(jié)構(gòu)來捕捉文本和圖像塊之間的關(guān)系,在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果:整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多層評(píng)估允許對(duì)一致性、連貫性和準(zhǔn)確性進(jìn)行細(xì)致入微的評(píng)估,并提供可解釋的問答反饋。結(jié)合 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試 ISG - BENCH,涵蓋 8 個(gè)類別和 21 個(gè)子類別中的 1150 個(gè)樣本。這個(gè)基準(zhǔn)數(shù)據(jù)集包含復(fù)雜的語(yǔ)言 - 視覺依賴關(guān)系和標(biāo)準(zhǔn)答案,以便在以視覺為中心的任務(wù)(如風(fēng)格轉(zhuǎn)換,這是當(dāng)前模型面臨的一個(gè)具有挑戰(zhàn)性的領(lǐng)域)上有效地評(píng)估模型。使用 ISG - BENCH,我們證明了最近的統(tǒng)一視覺 - 語(yǔ)言模型在生成交錯(cuò)內(nèi)容方面表現(xiàn)不佳。雖然結(jié)合單獨(dú)的語(yǔ)言和圖像模型的組合方法在整體級(jí)別上比統(tǒng)一模型有 111% 的性能提升,但它們?cè)趬K級(jí)別和圖像級(jí)別上的性能仍然不盡如人意。為了推動(dòng)未來的工作,我們開發(fā)了 ISG - AGENT,這是一個(gè)采用 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道來調(diào)用工具的基線代理,實(shí)現(xiàn)了 122% 的性能提升。
圖1:各生成模型在(視覺 - 語(yǔ)言主導(dǎo))任務(wù)上的性能差異示例,僅文本和圖像輸出無法解決用戶問題。關(guān)于我們?nèi)绾味x(視覺主導(dǎo))和(語(yǔ)言主導(dǎo)),請(qǐng)參見3.2節(jié)。左:文本生成;中:圖像生成;右:交錯(cuò)文本和圖像生成。
1. 引言
隨著多模態(tài)語(yǔ)言模型的普及,很明顯用戶希望模型能夠同時(shí)生成文本和圖像(Huang 等人,2016;Miech 等人,2019)。考慮這樣一個(gè)場(chǎng)景,用戶問 “如何制作蛋炒飯?”(圖 1)。用語(yǔ)言回答 —— 列出一系列步驟 —— 是一種合理的答案。但更符合實(shí)際應(yīng)用場(chǎng)景的回答方式是遵循烹飪食譜的風(fēng)格,即在列出步驟的同時(shí),提供烹飪過程中的中間步驟圖像。通過結(jié)合語(yǔ)言生成模型(Yuan 等人,2022;Gómez - Rodríguez 和 Williams,2023)和單獨(dú)的圖像生成模型(Rombach 等人,2022;Betker 等人,2023;Blattmann 等人,2023),實(shí)現(xiàn)這種多模態(tài)響應(yīng)是可能的。但是,使用兩個(gè)模型會(huì)減慢推理速度,因?yàn)楸仨氁来渭虞d和運(yùn)行這兩個(gè)模型。許多實(shí)際應(yīng)用,如編寫故事書(Huang 等人,2016)或生成帶插圖的說明(Miech 等人,2019),都需要生成交錯(cuò)的圖像和文本。
研究社區(qū)已經(jīng)開始設(shè)計(jì)具有為上述用例生成交錯(cuò)文本和圖像能力的統(tǒng)一模型(Zhou 等人,2024a;Li 等人,2024b;Chern 等人,2024)。然而,生成多種模態(tài)是具有挑戰(zhàn)性的。不同模態(tài)之間的生成需要在多個(gè)圖像之間、多個(gè)句子之間以及生成的圖像和句子之間保持一致性。針對(duì)這些挑戰(zhàn)的基準(zhǔn)測(cè)試仍處于起步階段(Chen 等人,2024e)。第一,以前的基準(zhǔn)測(cè)試主要集中在語(yǔ)言主導(dǎo)的任務(wù)上,這意味著查詢僅通過文本輸出就可以解決,因此無法充分評(píng)估多模態(tài)生成能力(Liu 等人,2024d)。第二,現(xiàn)有基準(zhǔn)測(cè)試中的查詢是自由形式的,沒有參考答案,這使得評(píng)估多模態(tài)指令跟隨生成變得模糊(An 等人,2023)。第三,現(xiàn)有的基準(zhǔn)測(cè)試主要使用一種稱為 “大語(yǔ)言模型作為評(píng)判者(LLM - as - a - Judge)” 的評(píng)估范式(Chen 等人,2024a;Ye 等人,2024),其中使用 GPT4 或等效模型,憑借其預(yù)訓(xùn)練知識(shí)進(jìn)行整體評(píng)估(Xia 等人,2024)。但目前需要更細(xì)粒度的評(píng)估,以驗(yàn)證每個(gè)文本和圖像的語(yǔ)義、圖像之間的一致性、每個(gè)文本與其相鄰圖像之間的聯(lián)系等。
我們提出了交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH,ISG),這是一個(gè)用于交錯(cuò)圖像和文本生成的評(píng)估框架。從概念上講,ISG 借鑒了場(chǎng)景圖表示法,將其作為連接圖像和文本的底層語(yǔ)義表示(Krishna 等人,2017;Johnson 等人,2018)。ISG 自動(dòng)將查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。我們將塊定義為連續(xù)的文本序列或圖像標(biāo)記序列。基于這種圖表示,ISG 提出了一種跨越四個(gè)粒度級(jí)別的評(píng)估協(xié)議:整體(評(píng)估整個(gè)響應(yīng))、結(jié)構(gòu)(評(píng)估塊之間的關(guān)系)、塊(評(píng)估每個(gè)塊內(nèi)的準(zhǔn)確性)和圖像(評(píng)估圖像的內(nèi)容)。該框架將用戶查詢轉(zhuǎn)換為類似 TIFA(Hu 等人,2023)的可解釋問答形式,在每個(gè)級(jí)別上實(shí)現(xiàn)系統(tǒng)的、可解釋的評(píng)估,填補(bǔ)了現(xiàn)有研究中的一個(gè)關(guān)鍵空白。
基于 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試,其中包含用戶查詢以及詳細(xì)的問答,用于在四個(gè)級(jí)別上評(píng)估每個(gè)查詢。ISG - BENCH 由 8 個(gè)類別、21 個(gè)子類別(根據(jù)指令類型分類)和 1150 個(gè)手動(dòng)收集的樣本組成,所有樣本都包含語(yǔ)言 - 視覺依賴關(guān)系和標(biāo)準(zhǔn)答案,以解決上述問題。所有樣本均經(jīng)過精心收集,部分來自以前的數(shù)據(jù)集,部分是重新構(gòu)建的,以保證高質(zhì)量。與現(xiàn)有基準(zhǔn)測(cè)試不同,我們優(yōu)先考慮以視覺為中心的任務(wù),如風(fēng)格轉(zhuǎn)換,這類任務(wù)對(duì)圖像輸出有特定要求。表 1 展示了當(dāng)前交錯(cuò)基準(zhǔn)測(cè)試和數(shù)據(jù)集之間的差異。為了驗(yàn)證我們?cè)u(píng)估的準(zhǔn)確性,我們將自動(dòng)評(píng)估結(jié)果與人工標(biāo)注的判斷在四個(gè)級(jí)別上進(jìn)行了比較。ISG 的皮爾遜相似度達(dá)到了 0.718 和 0.907,在與人類判斷的一致性方面優(yōu)于以前的評(píng)估方法。
使用 ISG - BENCH,我們?cè)u(píng)估了九種可訪問的交錯(cuò)文本和圖像生成方法,包括五種最近流行的統(tǒng)一模型(例如,Show - o(Xie 等人,2024),Anole(Chern 等人,2024)),以及四種組合框架(例如,Claude + SD3(Esser 等人,2024))。實(shí)證結(jié)果表明,當(dāng)前的統(tǒng)一模型在指令跟隨和生成質(zhì)量方面仍有很大的改進(jìn)空間。組合框架在生成高質(zhì)量多模態(tài)內(nèi)容方面明顯優(yōu)于統(tǒng)一模型,平均整體得分達(dá)到 6.262,而表現(xiàn)最好的統(tǒng)一模型 CoMM - MiniGPT - 5 的得分僅為 2.961。然而,由于它們獨(dú)立的理解和生成結(jié)構(gòu),在塊級(jí)別和圖像級(jí)別進(jìn)行準(zhǔn)確生成時(shí)仍然存在不足,特別是在視覺主導(dǎo)的任務(wù)中。
基于組合框架的優(yōu)越性能,我們提出了 ISG - AGENT,作為未來比較的組合基線。ISG - AGENT 通過 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道(Wang 等人,2024)生成交錯(cuò)的文本和圖像。具體來說,它首先生成工具使用計(jì)劃,隨后執(zhí)行這些先進(jìn)工具進(jìn)行交錯(cuò)生成,接著進(jìn)行優(yōu)化過程,以實(shí)現(xiàn)更好的文本和圖像對(duì)齊并修復(fù)錯(cuò)誤。值得注意的是,ISG - AGENT 在所有四個(gè)評(píng)估級(jí)別上都優(yōu)于所有其他基線。它實(shí)現(xiàn)了令人印象深刻的結(jié)構(gòu)準(zhǔn)確率 0.871,明顯超過了之前 Gemini 的最佳成績(jī) 0.385。這些結(jié)果強(qiáng)調(diào)了 ISG - AGENT 在生成連貫交錯(cuò)內(nèi)容方面的有效性,為多模態(tài)生成和創(chuàng)意應(yīng)用中更先進(jìn)的指令跟隨代理鋪平了道路。
2. 相關(guān)工作
2.1 交錯(cuò)文本和圖像生成
最近,多模態(tài)大語(yǔ)言模型(MLLMs,GeminiTeam,2023;OpenAI,2024;2023;Li 等人,2024a)和擴(kuò)散模型(Rombach 等人,2022;Esser 等人,2024;Flux,2024)的進(jìn)展引發(fā)了大量旨在整合自回歸架構(gòu)(Liu 等人,2024c;Sun 等人,2024a)的研究,用于多模態(tài)理解(Yue 等人,2024;Li 等人,2023b)和生成任務(wù)(Ghosh 等人,2024;Huang 等人,2023)。在理解方面,早期研究通過簡(jiǎn)單的視覺標(biāo)記化(Li 等人,2023a)或投影方法(Li 等人,2023c;2024a)有效地將視覺感知與預(yù)訓(xùn)練的大語(yǔ)言模型(LLMs)相結(jié)合,取得了有前景的結(jié)果。另一方面,多模態(tài)生成最初是通過預(yù)訓(xùn)練的文本到圖像模型(Li 等人,2024b;Wu 等人,2023)或通過自回歸過程實(shí)現(xiàn)的,在自回歸過程中,生成的標(biāo)記被解碼為圖像(Team,2024;Chern 等人,2024;Koh 等人,2024)。最近,研究人員開始探索 Transformer 和擴(kuò)散模型的集成,旨在在單個(gè)框架內(nèi)統(tǒng)一多模態(tài)理解和生成任務(wù)(Zhou 等人,2024a;Xie 等人,2024;Wu 等人,2024b),這在文本和圖像的交錯(cuò)生成方面展現(xiàn)出了潛力。
2.2 自動(dòng)交錯(cuò)文本和圖像評(píng)估
自動(dòng)交錯(cuò)文本和圖像評(píng)估起源于自然語(yǔ)言處理(NLP)中早期的文本摘要(Narayan 等人,2018),基于問答(QA)的評(píng)估方法自動(dòng)將提示轉(zhuǎn)換為問題,并使用它們來驗(yàn)證生成的內(nèi)容(Durmus 等人,2020;Deutsch 等人,2020;Eyal 等人,2019)。在多模態(tài)領(lǐng)域,特別是在文本到圖像生成中,基于視覺問答(VQA)的評(píng)估方法將文本轉(zhuǎn)換為原子問題,并進(jìn)行視覺問答以驗(yàn)證生成的圖像,從而提供更細(xì)粒度和可解釋的基準(zhǔn)測(cè)試結(jié)果(Cho 等人,2023;Lin 等人,2024)。值得注意的是,TIFA(Hu 等人,2023)率先使用視覺問答進(jìn)行自動(dòng)評(píng)估,隨后有多項(xiàng)改進(jìn)(Lu 等人,2024;Ghosh 等人,2024;Cho 等人,2024;Chen 等人,2024a)。然而,評(píng)估交錯(cuò)生成仍然具有挑戰(zhàn)性。表 1 顯示,現(xiàn)有基準(zhǔn)測(cè)試(An 等人,2023;Liu 等人,2024d)嚴(yán)重依賴零樣本的 “大語(yǔ)言模型作為評(píng)判者” 或傳統(tǒng)指標(biāo)(Chen 等人,2024e;b),導(dǎo)致評(píng)估結(jié)果粗略且粒度較大。
3. 交錯(cuò)場(chǎng)景圖
我們引入了 ISG(圖 2),這是一個(gè)用于交錯(cuò)文本和圖像生成評(píng)估的綜合自動(dòng)評(píng)估框架。通過使用 ISG,我們還引入了 ISG - BENCH,這是一個(gè)用于評(píng)估圖像和文本生成的基準(zhǔn)測(cè)試。
圖2:ISG首先將用戶的查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),以便在三個(gè)層面上進(jìn)行細(xì)粒度的評(píng)估:1)在結(jié)構(gòu)層面,ISG預(yù)測(cè)查詢的交錯(cuò)結(jié)構(gòu);2)在塊層面,節(jié)點(diǎn)代表由需求邊連接的文本-圖像塊;3)在圖像層面,圖由實(shí)體、它們的屬性及其關(guān)系組成。最后,ISG將圖結(jié)構(gòu)中的每個(gè)元素轉(zhuǎn)化為問題,使用問答模塊評(píng)估模型的交錯(cuò)輸出,并隨后將這些結(jié)果匯總為一個(gè)全面的評(píng)估。
3.1 評(píng)估框架
該框架自動(dòng)將查詢解釋為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。基于這種圖表示,我們可以進(jìn)行四個(gè)級(jí)別的全面評(píng)估:整體、結(jié)構(gòu)、塊和圖像。在每個(gè)級(jí)別,框架會(huì)生成幾個(gè)問答對(duì),用于評(píng)估生成的響應(yīng)是否適當(dāng)?shù)鼗卮鹆瞬樵儭T诤暧^層面,結(jié)構(gòu)和整體問題分析整體響應(yīng)的連貫性和質(zhì)量;而塊和圖像問題則評(píng)估每個(gè)內(nèi)容模塊對(duì)用戶指令的遵循程度。
結(jié)構(gòu)問題評(píng)估響應(yīng)是否嚴(yán)格遵循用戶查詢中的結(jié)構(gòu)要求。如圖 2 所示,給定 “先生成圖像,然后給出說明” 的結(jié)構(gòu)要求,正確的結(jié)構(gòu)應(yīng)該由 4 個(gè)圖像和 4 個(gè)文本塊交錯(cuò)組成。我們利用大語(yǔ)言模型根據(jù)查詢預(yù)測(cè)生成的結(jié)構(gòu),隨后通過直接的結(jié)構(gòu)匹配來評(píng)估答案。
整體問題通過將多模態(tài)查詢、響應(yīng)和人工標(biāo)注的標(biāo)準(zhǔn)答案輸入到多模態(tài)大語(yǔ)言模型中,來評(píng)估整體的文本 - 圖像對(duì)齊、連貫性和有用性,然后多模態(tài)大語(yǔ)言模型會(huì)對(duì)整個(gè)答案輸出判斷。基于先前的工作(An 等人,2023;Liu 等人,2024d),我們通過使用帶有標(biāo)準(zhǔn)答案的 “大語(yǔ)言模型作為評(píng)判者” 以及 “先分析后判斷” 的思維鏈(Chain - of - Thought,CoT)(Wei 等人,2022)來改進(jìn)這個(gè)過程。這允許進(jìn)行更符合人類判斷的評(píng)估,評(píng)估生成質(zhì)量、文本 - 圖像對(duì)齊以及有用性,從而得出一個(gè)綜合分?jǐn)?shù)。
塊問題評(píng)估每個(gè)塊內(nèi)的細(xì)粒度細(xì)節(jié)。我們最初將提示 P 表示為 “主語(yǔ) - 賓語(yǔ) - 關(guān)系” 元組(sub,obj,r),例如在圖 2 的示例中 < Text 1,Image 1,Describe>,其中 {sub,obj} 是表示圖像或文本塊的節(jié)點(diǎn),r 是表示原子開放詞匯要求的邊。隨后,我們從這些元組生成問題,并使用視覺問答模塊進(jìn)行評(píng)估,大語(yǔ)言模型提供 “是或否” 和 “1 - 10 分” 的答案。我們也嘗試使用 CLIPScore(Hessel 等人,2021)來評(píng)估文本 - 圖像關(guān)系,但由于文本塊超過了文本編碼器 77 個(gè)標(biāo)記的限制而失敗。
圖像問題評(píng)估圖像的語(yǔ)義內(nèi)容。我們將多模態(tài)查詢轉(zhuǎn)換為依賴感知元組,這些元組包含實(shí)體、關(guān)系和屬性,每個(gè)都與特定生成的圖像相關(guān)聯(lián),特別是對(duì)于以視覺為主導(dǎo)的任務(wù),如 “風(fēng)格轉(zhuǎn)換” 和 “多角度物體”,這些任務(wù)有具體的參考答案,而 “繪畫” 任務(wù)只需要生成最終圖像的準(zhǔn)確性。相比之下,像 “HowTo” 這樣的任務(wù)要求包含特定對(duì)象,但在其他方面允許有一定靈活性。我們根據(jù)答案中對(duì)圖像生成的要求對(duì)任務(wù)進(jìn)行分類,如表 2 所示。這些元組可能包括 < Image 1,Entity,Cat > 和 < Image 1,Relation,Cat,on the right of,Dog>。隨后,我們使用大語(yǔ)言模型生成帶有依賴關(guān)系的問題,并通過視覺問答模塊(Cho 等人,2023)使用這些問題評(píng)估圖像生成。
為了在塊級(jí)別和圖像級(jí)別生成視覺問答問題,我們使用少樣本示例進(jìn)行上下文學(xué)習(xí)(Dong 等人,2022)來實(shí)現(xiàn) ISG,并根據(jù)人工標(biāo)注的地面真實(shí)情況仔細(xì)驗(yàn)證這些生成的問題。關(guān)于 ISG - BENCH 的評(píng)估,請(qǐng)參考 4.1 節(jié),技術(shù)細(xì)節(jié)見附錄 D.1。
圖 3:左:ISG - BENCH 概述。右:查詢和標(biāo)準(zhǔn)答案的文本內(nèi)容長(zhǎng)度和圖像數(shù)量分布分析
3.2 基準(zhǔn)測(cè)試
基于 ISG,我們開發(fā)了第一個(gè)用于交錯(cuò)文本和圖像生成的基準(zhǔn)測(cè)試 ISG - BENCH,以評(píng)估各種任務(wù)中的多模態(tài)理解和生成能力。如表 2 所示,ISG - BENCH 由 1150 個(gè)樣本組成的分類平衡數(shù)據(jù)集,涵蓋 8 個(gè)日常交錯(cuò)生成場(chǎng)景中的 21 個(gè)子任務(wù)。每個(gè)樣本都包括詳細(xì)的指令和結(jié)構(gòu)要求,例如 “生成四張圖像,并在生成的圖像后提供簡(jiǎn)短的文本描述”,以評(píng)估指令跟隨能力和交錯(cuò)生成能力。每個(gè)查詢都被設(shè)計(jì)為:第一,依賴于視覺和語(yǔ)言,這意味著它不能僅使用單一模態(tài)的信息來解決;第二,與精心收集的標(biāo)準(zhǔn)答案配對(duì)。所有樣本均通過交叉驗(yàn)證和 BERTScore(Zhang 等人,2019)進(jìn)行相似性過濾后收集和人工篩選,詳細(xì)信息見附錄 B.3。
數(shù)據(jù)收集和質(zhì)量控制:我們的基準(zhǔn)測(cè)試收集過程主要包括三個(gè)階段。首先,我們根據(jù)任務(wù)定義回顧現(xiàn)有數(shù)據(jù)集,并檢索高質(zhì)量、不重疊的視覺元數(shù)據(jù),作為查詢和標(biāo)準(zhǔn)答案中的視覺信息,其中一些數(shù)據(jù)是我們自己收集的(例如,“多視圖場(chǎng)景生成”)。然后,我們策劃自然語(yǔ)言查詢,這些查詢引用圖像以進(jìn)行自動(dòng)評(píng)估。每個(gè)查詢都指定了輸出所需的結(jié)構(gòu)。使用多模態(tài)大語(yǔ)言模型為每個(gè)任務(wù)生成文本答案,隨后由人工注釋者進(jìn)行審查以確保準(zhǔn)確性。由于擔(dān)心基礎(chǔ)模型中的數(shù)據(jù)污染(Balloccu 等人,2024;Xu 等人,2024),注釋者被要求創(chuàng)建自由形式的查詢,并從頭開始開發(fā)查詢和相應(yīng)的標(biāo)準(zhǔn)答案。最后,我們獲得了一個(gè)多樣化、高質(zhì)量的交錯(cuò)多模態(tài)基準(zhǔn)測(cè)試,其中查詢 - 答案對(duì)來自各種來源。為了確保樣本的質(zhì)量,我們?cè)诓煌⑨屨咧g進(jìn)行交叉驗(yàn)證,以檢查格式一致性和拼寫錯(cuò)誤。附錄 B 中提供了詳細(xì)的定義、收集流程和更多示例。
模態(tài)特定評(píng)估:我們通過決策樹(圖 8)將 ISG - BENCH 中的每個(gè)任務(wù)分為三種模式(即圖像、語(yǔ)言和兩者兼有),以確定其主要貢獻(xiàn)輸出的模態(tài)。例如,“HowTo” 任務(wù)需要視覺和語(yǔ)言內(nèi)容來解決問題,“藝術(shù)風(fēng)格轉(zhuǎn)換” 主要依賴于視覺生成;而 “帶有圖像生成的視覺問答” 主要依賴于文本輸出,答案的質(zhì)量和準(zhǔn)確性主要?dú)w因于語(yǔ)言部分,生成的圖像作為補(bǔ)充信息。
4. 實(shí)驗(yàn)與分析
我們首先將 ISG 與人工注釋進(jìn)行對(duì)比驗(yàn)證(4.1 節(jié)),展示其與人類判斷的一致性。隨后我們對(duì)交錯(cuò)生成的評(píng)估(4.2 節(jié))揭示了統(tǒng)一模型的局限性和組合方法的部分成功,強(qiáng)調(diào)了當(dāng)前交錯(cuò)生成在指令跟隨方面面臨的挑戰(zhàn)。
4.1 評(píng)估 ISG - BENCH
?實(shí)驗(yàn)設(shè)置:我們利用最受歡迎的多模態(tài)大語(yǔ)言模型之一 GPT-4o(OpenAI,2024)作為 ISG 的問題生成和視覺問答模塊。我們開展實(shí)驗(yàn),在不同樣本規(guī)模和指標(biāo)設(shè)定下,驗(yàn)證 ISG 在每個(gè)步驟的性能表現(xiàn),詳見表 3。此外,我們?cè)诟戒?E.2 中驗(yàn)證了 ISG-BENCH 的 “多模態(tài)依賴” 特性。
所有結(jié)果都通過交叉驗(yàn)證,與人工標(biāo)注的基準(zhǔn)事實(shí)進(jìn)行對(duì)比。圖 4 展示了 ISG-BENCH 中視覺問答實(shí)例的分布情況。對(duì)于問題生成模塊,如果生成結(jié)果的主語(yǔ)和賓語(yǔ)與基準(zhǔn)事實(shí)匹配,且 BertScore(Zhang 等人,2019)高于 0.8,則認(rèn)定為正確。我們?cè)?ISG 的視覺問答模塊實(shí)驗(yàn)中采用 “先分析再判斷” 的思維鏈(CoT)框架(Wei 等人,2022),設(shè)置了兩種模式:“1-10 分” 評(píng)分(Lin 等人,2024)和直接 “是或否” 判斷(Cho 等人,2023)。我們還對(duì)視覺輸入、作為文本信息的圖像字幕以及少樣本提示進(jìn)行了消融實(shí)驗(yàn),以探究 ISG 的最佳設(shè)置。對(duì)于 “大語(yǔ)言模型作為評(píng)判者”(MLLM-as-a-Judge),我們遵循先前研究,使用人工一致性作為評(píng)估指標(biāo)(Chen 等人,2024a;f)。
?ISG 在各任務(wù)的每個(gè)模塊中表現(xiàn)出色:如表 3 所示,ISG 的每個(gè)模塊都與人工標(biāo)注高度吻合。在結(jié)構(gòu)方面,ISG 在所有任務(wù)中均展現(xiàn)出一致的卓越性能,這表明其在捕捉交錯(cuò)生成指令中的結(jié)構(gòu)要求方面具有強(qiáng)大潛力。在問題生成(Q-Gen)和視覺問答模塊中,ISG 能夠成功提取細(xì)粒度的要求,與基準(zhǔn)事實(shí)高度一致。對(duì)于視覺問答模塊,評(píng)分方法始終優(yōu)于 “是或否” 方法,這表明更細(xì)致的判斷與人工評(píng)估更為契合,尤其是在附錄 D.1.1 中強(qiáng)調(diào)的模糊案例中。與其他任務(wù)相比,視覺引導(dǎo)的任務(wù)表現(xiàn)始終較差,在問題生成和視覺問答模塊中均出現(xiàn)顯著下降,這凸顯了自動(dòng)評(píng)估交錯(cuò)文本和圖像生成細(xì)粒度方面的挑戰(zhàn)。在整體評(píng)估中,借助標(biāo)準(zhǔn)答案的評(píng)估方式顯著優(yōu)于大語(yǔ)言模型的零樣本判斷設(shè)置,在視覺引導(dǎo)任務(wù)中優(yōu)勢(shì)更為明顯,平均提升幅度達(dá)到 20%。
?視覺輸入和少樣本提示的消融研究:為進(jìn)行更全面的研究,我們?cè)谝曈X輸入和少樣本示例這兩種條件下對(duì) ISG 展開評(píng)估。如表 4 所示,多模態(tài)輸入在塊級(jí)和圖像級(jí)問題生成中存在差異,圖像級(jí)問題生成有輕微提升。此外,少樣本上下文學(xué)習(xí)在這兩個(gè)任務(wù)中都帶來了顯著提升,塊級(jí)任務(wù)性能提高超過 30%,圖像級(jí)任務(wù)提高 10% 以上,在視覺 - 語(yǔ)言引導(dǎo)任務(wù)中通過對(duì)預(yù)測(cè)生成內(nèi)容的要求進(jìn)行限制,提升效果更為明顯。對(duì)于語(yǔ)言引導(dǎo)任務(wù),少樣本學(xué)習(xí)使塊級(jí)性能提升 70%,進(jìn)一步證明了針對(duì)此類創(chuàng)意生成任務(wù)建立準(zhǔn)確評(píng)估框架的可行性。
4.2 基準(zhǔn)測(cè)試交錯(cuò)文本和圖像生成
?實(shí)驗(yàn)設(shè)置:我們?cè)u(píng)估了 10 種能夠生成交錯(cuò)文本和圖像內(nèi)容的框架,包括 4 種最近發(fā)布的統(tǒng)一模型 Show-o^{1}(Xie 等人,2024)、Anole(Chern 等人,2024)、Minigpt-5(Li 等人,2024b)、CoMM-Minigpt-5(Chen 等人,2024e)、SEED-LLaMA(Li 等人,2023b),以及兩種組合設(shè)置,使用 Gemini-1.5-Pro(GeminiTeam,2023)和 Claude-3.5-Sonnet(Anthropic,2024)作為多模態(tài)預(yù)處理器^{2},SD3(Esser 等人,2024)作為生成器,并使用 SD2.1(Rombach 等人,2022)進(jìn)行對(duì)比研究。對(duì)于 ISG,我們采用 4.1 節(jié)中表現(xiàn)最佳的設(shè)置,以實(shí)現(xiàn)完全自動(dòng)的評(píng)估設(shè)置。詳細(xì)的實(shí)驗(yàn)設(shè)置和成本分析請(qǐng)參考附錄 D 和 E.1。
?統(tǒng)一模型在準(zhǔn)確交錯(cuò)生成方面表現(xiàn)不佳:如表 5 所示,所有統(tǒng)一模型在按照我們的指令生成交錯(cuò)文本和圖像內(nèi)容方面都存在顯著缺陷。許多模型僅生成一到三張圖像,有些甚至根本無法生成圖像。因此,這些模型無法進(jìn)行塊級(jí)和圖像級(jí)的評(píng)估。在整體評(píng)估中,這些模型在語(yǔ)言主導(dǎo)的任務(wù)中表現(xiàn)出較強(qiáng)的能力,但在視覺主導(dǎo)的任務(wù)中表現(xiàn)明顯不佳。這種差異進(jìn)一步證實(shí)了當(dāng)前統(tǒng)一模型的訓(xùn)練數(shù)據(jù)集缺乏足夠的視覺主導(dǎo)指令調(diào)整樣本的假設(shè),例如 “風(fēng)格遷移” 和 “圖像分解” 任務(wù)的樣本。值得注意的是,Show-o 作為首批統(tǒng)一自回歸模型之一,具有較強(qiáng)的結(jié)構(gòu)準(zhǔn)確性,但存在幻覺問題 —— 根據(jù)系統(tǒng)提示而非用戶指令生成圖像,如圖 39 所示。同樣,Anole 在統(tǒng)一模型中實(shí)現(xiàn)了 SOTA 性能,凸顯了其架構(gòu)設(shè)計(jì)的潛力。
?視覺主導(dǎo)的任務(wù)對(duì)所有模型都具有挑戰(zhàn)性:鑒于這些組合框架對(duì)圖像的感知和生成是分開進(jìn)行的,并非端到端的方式,這意味著它們由于其固有結(jié)構(gòu),自然無法在諸如精確圖像編輯等任務(wù)中表現(xiàn)出色。另一方面,盡管這些統(tǒng)一模型有潛力以端到端的方式理解和生成圖像,并宣稱在 “圖像生成” 或 “圖像編輯” 等視覺生成任務(wù)中具備能力,但在理解多模態(tài)查詢以生成包含多個(gè)圖像的交錯(cuò)內(nèi)容方面仍存在不足。如圖 6 所示,表現(xiàn)最佳的統(tǒng)一模型 Anole 無法理解輸出格式,并且偏離了輸入圖像的上下文,這表明它們?cè)谝曈X上下文學(xué)習(xí)中的圖像生成能力存在缺陷(Sun 等人,2024b)。
?大語(yǔ)言模型作為評(píng)判者無法評(píng)估細(xì)粒度的準(zhǔn)確生成:如表 5 和表 6 所示,整體評(píng)估結(jié)果與三個(gè)細(xì)粒度級(jí)別的評(píng)估結(jié)果之間的不一致,揭示了大語(yǔ)言模型作為評(píng)判者在全面評(píng)估響應(yīng)方面存在顯著局限性,即使提供了用戶指令和正確的標(biāo)準(zhǔn)答案。具體而言,大語(yǔ)言模型作為評(píng)判者難以根據(jù)細(xì)粒度標(biāo)準(zhǔn)評(píng)估響應(yīng),例如輸出結(jié)構(gòu)(包括圖像數(shù)量)和提示中規(guī)定的詳細(xì)文本 - 圖像關(guān)系。此外,我們對(duì)表 7 結(jié)果的分析揭示了大語(yǔ)言模型作為評(píng)判者存在固有偏差,即 “圖像質(zhì)量偏差”,即使這些響應(yīng)可能違反用戶的指令要求和評(píng)判準(zhǔn)則,具有更高質(zhì)量圖像內(nèi)容的響應(yīng)也始終會(huì)獲得更高的分?jǐn)?shù)。這種偏差表明,即使提供了標(biāo)準(zhǔn)答案,大語(yǔ)言模型作為評(píng)判者仍然無法對(duì)符合特定要求的交錯(cuò)響應(yīng)進(jìn)行準(zhǔn)確評(píng)估。
5. ISG-AGENT:設(shè)計(jì)一個(gè)基線代理
盡管統(tǒng)一生成模型(Chern 等人,2024;Zhou 等人,2024a;Team,2024)在多模態(tài)交錯(cuò)生成方面顯示出潛力,但即使經(jīng)過微調(diào),生成交錯(cuò)文本和圖像內(nèi)容仍然具有挑戰(zhàn)性。受先前視覺生成任務(wù)組合框架(Gupta 和 Kembhavi,2023;Surís 等人,2023;Ma 等人,2024)的啟發(fā),我們提出了 ISG-AGENT,這是一個(gè)供未來基準(zhǔn)測(cè)試使用的基線代理。
5.1 代理設(shè)置
圖 5 展示了 ISG-AGENT 的概述,它由三個(gè)組件 —— 規(guī)劃、執(zhí)行和優(yōu)化 —— 協(xié)同工作,用于交錯(cuò)文本和圖像生成。
?規(guī)劃:該組件作為解釋用戶多模態(tài)查詢的接口,并以 JSON 格式生成相應(yīng)的工具使用計(jì)劃。該計(jì)劃概述了主要涉及工具調(diào)用的順序步驟。通過利用大語(yǔ)言模型作為骨干,它確保創(chuàng)建一個(gè)準(zhǔn)確的交錯(cuò)生成計(jì)劃,嚴(yán)格遵守用戶指令,包括對(duì)細(xì)粒度文本 - 圖像塊要求的規(guī)范。每個(gè)步驟都包括明確的工具執(zhí)行功能和后續(xù)工具使用的自然語(yǔ)言描述。
?工具使用:該組件負(fù)責(zé)執(zhí)行帶有日志記錄的工具(Schick 等人,2024)。在每個(gè)步驟中,它從工具庫(kù)中選擇最合適的工具,并為指定工具提供經(jīng)過優(yōu)化的描述性文本和圖像,例如使用大語(yǔ)言模型進(jìn)行圖像字幕生成,使用擴(kuò)散模型進(jìn)行圖像生成。為避免工具使用過程中可能出現(xiàn)的偏差,代理被設(shè)計(jì)為生成與指令緊密對(duì)齊的描述,專門用于工具調(diào)用。
?優(yōu)化:該組件負(fù)責(zé)審查和提高上一步生成內(nèi)容的質(zhì)量,通過分析錯(cuò)誤消息或不適當(dāng)?shù)纳桑⑼ㄟ^使用更詳細(xì)和精確的執(zhí)行指令重建錯(cuò)誤步驟來解決問題,直到問題得到解決(Wu 等人,2024a)。此外,該代理通過轉(zhuǎn)換代詞、添加連詞和刪除重復(fù)描述來優(yōu)化文本,以提高一致性和文本質(zhì)量,從而創(chuàng)建更連貫且文本 - 圖像對(duì)齊的內(nèi)容,而不是幾個(gè)離散的片段。
這種用于交錯(cuò)文本和圖像生成的 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道確保最終輸出緊密符合用戶指令,同時(shí)自主高效地處理各種任務(wù)。我們?cè)趫D 37 和圖 38 中提供了兩個(gè) ISG-AGENT 性能的示例。更多技術(shù)細(xì)節(jié),請(qǐng)參考附錄 D.2。
5.2 實(shí)驗(yàn)
?設(shè)置:我們利用 GPT-4o 進(jìn)行規(guī)劃和驗(yàn)證代理,使用 Claude-3.5-Sonnet 進(jìn)行工具選擇,使用 SD3 作為圖像生成器,并使用多種工具(UltraEdit(Zhao 等人,2024)、DynamiCrafter(Xing 等人,2023)、SV3D(Voleti 等人,2024)和 DreamMover(Shen 等人,2024))。
?ISG-AGENT 在視覺主導(dǎo)任務(wù)中表現(xiàn)出色,但在語(yǔ)言引導(dǎo)任務(wù)中有所欠缺:如表 6 所示,ISG-AGENT 嚴(yán)格遵循用戶要求生成交錯(cuò)內(nèi)容,在各種任務(wù)的塊級(jí)和圖像級(jí)評(píng)估中,與人類的標(biāo)準(zhǔn)答案取得了可比的結(jié)果,尤其是在 “風(fēng)格遷移” 和 “3D 場(chǎng)景” 等視覺主導(dǎo)任務(wù)中。在 “漸進(jìn)式轉(zhuǎn)換” 任務(wù)中的 SOTA 結(jié)果也展示了圖像內(nèi)容的良好連貫性,甚至與人類收集的答案相符。盡管 “大語(yǔ)言模型 + 擴(kuò)散” 框架在準(zhǔn)確的指令跟隨方面存在不足,但它們?cè)谝恍┱Z(yǔ)言主導(dǎo)任務(wù)的整體評(píng)估中取得了 SOTA 結(jié)果,展示了其在文本信息生成方面的高質(zhì)量。
?增強(qiáng)組件提高了一般響應(yīng)質(zhì)量:兩個(gè)圖像生成模型之間的對(duì)比分析(表 6)和對(duì)工具的消融研究(表 7)一致表明,在采用增強(qiáng)組件時(shí),ISG-AGENT 在各種任務(wù)級(jí)別上都表現(xiàn)出卓越的性能,從而強(qiáng)調(diào)了先進(jìn)工具在生成更準(zhǔn)確和高保真內(nèi)容方面的重要性。此外,優(yōu)化模塊的加入顯著有助于改善文本 - 圖像對(duì)齊,大幅提高了塊級(jí)和整體性能,這突出了在組合框架中優(yōu)化單個(gè)組件以實(shí)現(xiàn)精確交錯(cuò)生成的潛力。
6. 結(jié)論
本文通過引入首個(gè)自動(dòng)多粒度評(píng)估框架交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH)、提出包含 8 種不同任務(wù)的 1150 個(gè)多模態(tài)查詢的 ISG-BENCH 基準(zhǔn)測(cè)試,以及用于探索該任務(wù)的代理框架 ISG-AGENT,推動(dòng)了交錯(cuò)文本和圖像生成評(píng)估領(lǐng)域的發(fā)展。我們的全面研究評(píng)估了 10 種前沿的多模態(tài)交錯(cuò)生成框架,為未來研究提供了關(guān)鍵見解并奠定了堅(jiān)實(shí)基礎(chǔ)(見附錄 A)。我們強(qiáng)調(diào)了持續(xù)努力開發(fā)更好的交錯(cuò)生成模型和評(píng)估框架的重要性。
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Dongping Chen等
