MMIE:用于大型視覺語言模型的大規(guī)模多模態(tài)交錯理解基準(ICLR 2025) 原創(chuàng)
摘要
交錯多模態(tài)理解與生成能力 —— 使模型能夠以任意順序生成和解釋圖像與文本 —— 已成為多模態(tài)學習的關(guān)鍵領(lǐng)域。盡管已有顯著進展,但對這一能力的評估仍顯不足。現(xiàn)有基準在數(shù)據(jù)規(guī)模、范圍和評估深度上存在局限,而當前評估指標往往成本高昂或帶有偏見,在實際應用中缺乏可靠性。為應對這些挑戰(zhàn),我們推出 MMIE,這是一個大規(guī)模知識密集型基準,用于評估大型視覺語言模型(LVLMs)的交錯多模態(tài)理解與生成能力。MMIE 包含 20,000 個精心策劃的多模態(tài)查詢,涵蓋 3 個類別、12 個領(lǐng)域和 102 個子領(lǐng)域,包括數(shù)學、編程、物理、文學、健康和藝術(shù)等。它支持交錯的輸入和輸出,并提供選擇題和開放式問題格式的混合,以評估多樣化的能力。此外,我們提出了一種可靠的自動化評估指標,利用通過人工標注數(shù)據(jù)和系統(tǒng)評估標準微調(diào)的評分模型,旨在減少偏差并提高評估準確性。大量實驗證明了我們的基準和指標在全面評估交錯 LVLMs 方面的有效性。具體而言,我們評估了八種 LVLMs,結(jié)果顯示即使是最佳模型也有顯著的改進空間,大多數(shù)僅取得中等結(jié)果。我們相信 MMIE 將推動交錯 LVLMs 發(fā)展的進一步突破。我們在??https://mmie-bench.github.io/??公開發(fā)布我們的基準和代碼。
1 引言
“真正的評估在于不同模態(tài)的無縫交織。”
隨著大型視覺語言模型(LVLMs)的發(fā)展,多模態(tài)學習取得了顯著進步(Liu 等人,2023a;Zhu 等人,2023;Dai 等人,2023),這些模型能夠處理涉及圖像和文本的各種任務。盡管如此,大多數(shù)這些模型僅限于用于文本生成的多模態(tài)任務,如視覺問答(VQA)和圖像描述,這并未充分反映多模態(tài)能力的潛力。為了拓寬其應用,交錯的文本和圖像生成已成為一個關(guān)鍵研究領(lǐng)域(Liu 等人,2024)。它要求模型以任意順序生成圖像和文本,從而增強多模態(tài)系統(tǒng)的通用性和有效性。這為各種復雜應用開辟了可能性,如多步推理(Lu 等人,2024;Kazemi 等人,2024)、多模態(tài)情境分析(Yang 等人,2021)和視覺敘事(Huang 等人,2016)。
盡管最近的 LVLMs 正在發(fā)展以支持交錯的文本和圖像生成(Team,2024;Xie 等人,2024;Chern 等人,2024;Zhou 等人,2024),但由于以下兩個挑戰(zhàn),全面的評估基準仍然滯后:
1.1 構(gòu)建模態(tài)一致基準的難度
第一個挑戰(zhàn)在于構(gòu)建模態(tài)對齊的多模態(tài)數(shù)據(jù)集的困難,其中輸入和輸出都包含圖像和文本。當前基準主要關(guān)注單模態(tài)輸出任務(Fu 等人,2023;Li 等人,2024a;Zhang 等人,2023),僅評估生成圖像或文本的質(zhì)量,而沒有對模態(tài)之間的關(guān)鍵聯(lián)系進行基準測試,例如文本 - 圖像的連貫性和一致性。盡管有一些數(shù)據(jù)集支持 LVLMs 的交錯多模態(tài)評估方法(Liu 等人,2024),但其數(shù)據(jù)集受到規(guī)模有限和查詢格式狹窄的限制,主要集中在 VQA 任務上。
1.2 缺乏自動化評估指標
第二個挑戰(zhàn)是缺乏適用于交錯生成的自動化評估指標。人工評估成本高且耗時,難以在實際應用中擴展。當前的自動化評估指標通常要么評估生成文本的質(zhì)量(例如 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)),要么評估生成圖像的質(zhì)量(例如 FID(Heusel 等人,2017))。盡管最近的評估策略,如使用 CLIPScore(Hessel 等人,2021)和視覺語言模型(VLMs)(Chen 等人,2023;Liu 等人,2024),可以評估不同模態(tài)之間的聯(lián)系,但它們嚴重依賴特定模型的預訓練知識(例如 CLIP 訓練數(shù)據(jù))或遵循嚴格的人工定義規(guī)則。這些方法在一定程度上會引入偏差和不確定性,常常導致結(jié)果不一致(Mahmoud 等人,2024)。
圖1 MMIE基準的典型樣本,展示其支持多圖像輸入和輸出,并為每個查詢提供真實標簽。MMIE跨不同領(lǐng)域評估模型,確保對其能力的全面評估。#注釋:該圖呈現(xiàn)了MMIE基準中具有代表性的樣本,直觀體現(xiàn)出基準在多圖像模態(tài)交互方面的支持情況,以及其評估的全面性。
為解決這些限制,我們引入 MMIE,這是一個用于 LVLMs 的大規(guī)模多模態(tài)交錯理解評估基準,并提出了可靠的自動化指標。MMIE 從四個多模態(tài)數(shù)據(jù)集精心策劃而來,涉及 3 個類別、12 個領(lǐng)域和 102 個子領(lǐng)域,包括數(shù)學、物理、編程、統(tǒng)計、文學、哲學、教育、金融、健康、體育、藝術(shù)和 EECS(電氣工程與計算機科學)。該數(shù)據(jù)集包含 20,000 個多模態(tài)問題,支持交錯的輸入和輸出。它具有選擇題和開放式問題格式的混合,以評估各個領(lǐng)域的廣泛能力。如表 2 所示,MMIE 在深度和廣度上都超越了現(xiàn)有的交錯多模態(tài)基準,特別是在解決復雜問題和開放式創(chuàng)意任務方面。基于精心策劃的數(shù)據(jù)集,我們進一步提出了一種由評分模型驅(qū)動的自動化指標。具體來說,我們首先為每個類別設(shè)計全面的評估標準。然后,我們策劃一個細粒度的人工標注評分數(shù)據(jù)集,并使用該數(shù)據(jù)集微調(diào) InternVL2(Chen 等人,2024c)以獲得評分模型。使用 MMIE,我們評估了四個開源交錯多模態(tài) LVLMs,以及先進 LVLMs(如 GPT-4o)與文本到圖像生成模型(如 Stable Diffusion 3(Esser 等人,2024))的組合。我們的主要貢獻總結(jié)如下:
?我們推出了用于評估 LVLMs 的最大高質(zhì)量交錯多模態(tài)基準 MMIE,該數(shù)據(jù)集將公開發(fā)布。
?MMIE 對 LVLMs 提出了重大挑戰(zhàn),表現(xiàn)最佳的模型(例如 GPT-4o + SDXL)得分僅為 65.47%,突顯了巨大的改進空間。
?所提出的評分模型可靠,已證明與人工評估相當。
2 相關(guān)工作
2.1 交錯多模態(tài)理解與生成
多模態(tài)學習發(fā)展迅速,在整合文本和圖像模態(tài)方面取得了重大進展。大型視覺語言模型(LVLMs)的最新進展(Liu 等人,2023a;Zhu 等人,2023;2024;Dai 等人,2023;Xia 等人,2024b;c),要么通過整合如 Stable Diffusion(Rombach 等人,2022)這樣的擴散模型驅(qū)動,要么使用如 Chameleon(Team,2024)和 Show-o(Xie 等人,2024)這樣的基于令牌的混合模態(tài)結(jié)構(gòu),使模型不僅能夠理解和生成跨模態(tài)的內(nèi)容,還能進行交錯多模態(tài)理解和生成。隨著對更豐富、更交互式 AI 的需求增長,交錯多模態(tài)理解和生成正在成為下一代 LVLMs 發(fā)展的重要組成部分。
2.2 LVLM 基準
盡管多模態(tài)學習發(fā)展迅速,但評估基準仍遠非完美。以前的基準主要關(guān)注評估 LVLMs 的基礎(chǔ)感知能力(Lu 等人,2022;Gurari 等人,2018),例如 GQA(Hudson & Manning,2019),缺乏評估高級推理所需的深度。最近,已提出了幾個高質(zhì)量的評估基準來評估這些模型的推理能力(Li 等人,2024a;Zhang 等人,2023;Liu 等人,2023a;b;Yu 等人,2023;Xia 等人,2024a;Jiang 等人,2024b;Zhang 等人,2024b;b;c;Jiang 等人,2025),例如 MMMU(Yue 等人,2024)和 MME(Fu 等人,2023)。然而,這些基準不支持交錯的圖像和文本理解與生成。像 MINT-1T(Awadalla 等人,2024)、MANTIS(Jiang 等人,2024a)和 OBELICS(Laurenc?on 等人,2024)這樣的大規(guī)模交錯多模態(tài)數(shù)據(jù)集主要是為預訓練模型開發(fā)的。然而,它們?nèi)狈ξ谋竞蛨D像之間的精確對齊,不適合評估和基準測試。最近引入了一個小規(guī)模的交錯多模態(tài)基準(Liu 等人,2024),但其有限的數(shù)據(jù)規(guī)模和查詢質(zhì)量阻礙了其評估的全面性。MMIE 填補了這一空白,提供了一個支持交錯多模態(tài)理解和生成的全面評估框架。我們的數(shù)據(jù)集包括多個領(lǐng)域的多樣化查詢。通過評估 LVLMs 的感知和生成能力,它提供了更全面的評估。
2.3 多模態(tài)任務的評估指標
傳統(tǒng)評估指標,如用于文本質(zhì)量的 BLEU(Papineni 等人,2002)、BERTScore(Zhang 等人,2020)和用于圖像質(zhì)量的 FID(Heusel 等人,2017),僅適用于單模態(tài)輸出任務。最近的指標,如 CLIPScore(Hessel 等人,2021)和 X-IQE(Chen 等人,2023),已嘗試通過引入多模態(tài)模型來評估文本和圖像之間的一致性來解決這一問題。然而,這些指標僅衡量對齊,缺乏對輸出質(zhì)量的全面評估。此外,許多多模態(tài)指標依賴于基于 GPT 的模型(Liu 等人,2024),給整個評估系統(tǒng)帶來了不可控的偏差。為了克服這些缺點,我們提出了一種自動指標,以最大限度地減少偏差并提供對生成結(jié)果的全面分析。
3 MMIE 基準
3.1 概述
在本節(jié)中,我們介紹 MMIE,這是一個多樣化和全面的基準,用于評估跨廣泛任務的交錯多模態(tài)理解和生成。如表 2 所示,MMIE 由 20,103 個精心策劃的樣本組成,涵蓋 12 個領(lǐng)域,包括數(shù)學、物理、編程、統(tǒng)計、文學、哲學、教育、金融、健康、體育、藝術(shù)和 EECS。每個查詢都經(jīng)過精心選擇、篩選和完善,以確保在所涵蓋的主題中具有高質(zhì)量和相關(guān)性。此外,MMIE 強調(diào)對三種基本能力的評估:感知、推理和生成。與以前評估單模態(tài)(Fu 等人,2023;Yue 等人,2024;Li 等人,2024b)輸出結(jié)果的基準不同,MMIE 專門設(shè)計用于評估模型理解和生成任意順序的交錯文本和圖像的能力。這種評估超越了基本感知,要求模型進行復雜推理,利用不同模態(tài)的特定主題知識。
表2 MMIE與其他LVLM基準的比較。Inter-I:交錯輸入;Inter-O:交錯輸出;Multi-I:多圖像輸入;Multi-O:多圖像輸出。#注釋:該表通過多維度對比,清晰展現(xiàn)了MMIE基準相較于其他LVLM基準在數(shù)據(jù)規(guī)模、模態(tài)支持、領(lǐng)域覆蓋等方面的優(yōu)勢。
3.2 數(shù)據(jù)集策劃
MMIE 中的數(shù)據(jù)策劃過程包括兩個階段,每個階段都旨在確保我們基準中各個類別的全面覆蓋和高質(zhì)量表示。我們詳細說明如下:
在第一階段,我們收集并重組四個多模態(tài)數(shù)據(jù)集,以符合交錯的圖像和文本格式,并將它們分類為三個類別 —— 情境分析、基于項目的學習和多步推理,如圖 2 所示。具體來說,對于基于項目的學習,我們從 Wikihow(Yang 等人,2021)中提取數(shù)據(jù),該數(shù)據(jù)最初設(shè)計用于測試模型根據(jù)給定的文本和圖像上下文選擇正確程序步驟的能力。我們將其調(diào)整為交錯的文本和圖像格式。對于情境分析,我們從 VIST(Huang 等人,2016)中抽取樣本,這是一個自然交錯的多模態(tài)數(shù)據(jù)集,設(shè)計用于視覺敘事任務,挑戰(zhàn)模型無縫整合敘事文本和圖像。情境分析和基于項目的學習數(shù)據(jù)集都具有交錯的輸入和輸出。為了用更復雜和多樣化的任務擴展基準,我們進一步引入了支持交錯輸入的專注于多步推理的數(shù)據(jù)集。為此,我們從 MathVista(Lu 等人,2024)和 ReMI(Kazemi 等人,2024)中獲取示例,它們共同提供了 3,600 個涵蓋從函數(shù)到統(tǒng)計主題的問題。這些查詢的答案格式包括選擇題(從幾個選項中選擇一個)和開放式問題(直接生成內(nèi)容)。從這四個數(shù)據(jù)集中提取樣本后,我們通過壓縮、重組和整合來自多個來源的問題,將它們合并并完善為一個有凝聚力的基準,確保與我們的評估目標一致。
圖2 MMIE中類別和領(lǐng)域的分布。#注釋:此圖以可視化方式呈現(xiàn)了MMIE基準在類別和領(lǐng)域上的分布情況,有助于直觀理解其覆蓋的范圍和結(jié)構(gòu)。
在第二階段,我們實施了多步驟質(zhì)量控制過程,以確保數(shù)據(jù)集的完整性和一致性。首先,我們應用詞匯重疊和源 URL 相似性檢查,以識別和標記潛在的重復條目,然后對其進行人工審核和刪除。接下來,對每個數(shù)據(jù)集進行精心審核,以確保格式和排版的一致性,確保符合標準化結(jié)構(gòu)。差異得到糾正,以在整個數(shù)據(jù)集中保持統(tǒng)一性。最終,我們總共收集了 12 個領(lǐng)域的 20,103 個實例,包括數(shù)學、物理、編程、統(tǒng)計、文學、哲學、教育、金融、健康、體育、藝術(shù)和 EECS。詳細的分類和數(shù)據(jù)集統(tǒng)計數(shù)據(jù)見表 1。有關(guān)數(shù)據(jù)集策劃的更多信息,請參閱附錄 A.1。
表1 數(shù)據(jù)集統(tǒng)計。#注釋:此表對MMIE數(shù)據(jù)集的各項統(tǒng)計數(shù)據(jù)進行了匯總,包括問題總數(shù)、不同類別占比、格式分布等關(guān)鍵信息。
3.3 自動化評估指標
由于傳統(tǒng)指標如 BLEU、BERTScore 和 CLIP-Score 無法提供對多模態(tài)輸出質(zhì)量的全面評估,現(xiàn)有基準使用 GPT-4 系列作為評分模型,這可能在評分過程中引入固有偏差(Liu 等人,2024)。為了確保對各種 LVLMs 的全面和無偏評估,如圖 3 所示,我們提出了一種由我們微調(diào)的 LVLM 驅(qū)動的自動化評估指標,以協(xié)助評分。在這里,我們選擇 InternVL-2-4B(Chen 等人,2024c)作為我們評分系統(tǒng)的基礎(chǔ),因為它在多模態(tài)推理任務中的強大性能和對多圖像輸入的支持。此外,我們微調(diào) InternVL-2-4B 以減輕潛在偏差。
圖3 評分模型的流程。#注釋:該圖展示了MMIE評分模型的工作流程,體現(xiàn)了從數(shù)據(jù)處理到評分生成的完整過程。
具體來說,我們首先構(gòu)建一個高質(zhì)量的多模態(tài)評分數(shù)據(jù)集,涵蓋我們基準的所有方面,并附帶詳細的評分標準和參考答案。在此過程中,我們從四個 LVLMs——MiniGPT-5(Zheng 等人,2023)、EMU-2(Sun 等人,2024)、GILL(Koh 等人,2023)和 Anole(Chern 等人,2024)收集了 800 個響應。基于地面真實標簽,我們使用帶有明確標準的六點評分量表定義評估標準。一組專家為每個級別生成參考答案,并將所有分數(shù)統(tǒng)計轉(zhuǎn)換為百分比格式。這些標準和參考答案共同構(gòu)成了 MMIE 的強大評分標準。遵循該標準,人工注釋者嚴格對響應進行評分。評分標準和構(gòu)建過程的詳細示例在附錄 A.9 和附錄 A.3 中提供。
構(gòu)建評分數(shù)據(jù)集后,我們微調(diào) InternVL-2-4B 模型,并使用微調(diào)版本作為我們的評分模型。為了驗證其性能,我們隨機選擇 200 個帶有人工評分標簽的新樣本,并將我們模型的結(jié)果與其他評分模型的結(jié)果進行比較。結(jié)果表明,與其他 LVLMs 相比,微調(diào)模型顯著提高了人工評分與我們模型生成評分之間的一致性,從而在各種任務中實現(xiàn)了更準確和可靠的評估。我們將在第 4.3 節(jié)中詳細討論實驗結(jié)果。
3.4 與現(xiàn)有多模態(tài)基準的比較
MMIE 在三個關(guān)鍵方面超越了現(xiàn)有基準。首先,大多數(shù)以前的多模態(tài)基準僅支持單模態(tài)輸入或輸出,而 MMIE 通過實現(xiàn)交錯的文本和圖像理解與生成來彌補這一差距。我們的數(shù)據(jù)集確保了強大的模態(tài)對齊,將多模態(tài)問答對重構(gòu)為交錯的文本和圖像指令格式,然后進行人工審核以保證質(zhì)量。此外,這些場景反映了現(xiàn)實世界的應用,如多模態(tài)腳本生成、數(shù)據(jù)圖表分析和多模態(tài)故事生成。其次,與最近的交錯理解基準(Liu 等人,2024)相比,MMIE 規(guī)模更大,涵蓋的主題范圍更廣,包含推理和時間理解技能,允許進行更全面的評估。最后,MMIE 引入了一個由微調(diào) LVLM 驅(qū)動的可靠評分系統(tǒng),顯著提高了評分的準確性和可靠性。表 2 突出了我們的基準與現(xiàn)有基準之間的差異,展示了 MMIE 在規(guī)模、多樣性和評分方法方面的優(yōu)勢。
4 實驗
MMIE 為支持交錯多模態(tài)輸入和輸出的現(xiàn)有開源 LVLMs(交錯 LVLMs)以及最先進的 LVLMs 與文本到圖像生成模型(集成 LVLMs)的集成提供了系統(tǒng)評估。在本節(jié)中,我們旨在回答以下關(guān)鍵問題:(1)哪種交錯 LVLM 在 MMIE 上總體表現(xiàn)最佳?(2)集成 LVLMs 的效果如何?(3)評估的 LVLMs 是否對某個領(lǐng)域有偏好?(4)與傳統(tǒng)指標和其他 LVLM 評估相比,我們提出的模型驅(qū)動指標有多有用?
4.1 實驗設(shè)置
基線模型
我們首先對四個開源交錯 LVLMs 進行基準測試。(1)MiniGPT-5(Zheng 等人,2023),一種結(jié)合了 MiniGPT-4 和 Stable Diffusion 的多模態(tài)模型,專門用于連貫的圖像 - 文本生成。(2)EMU-2(Sun 等人,2024),一種 37B 參數(shù)模型,擅長上下文學習和多模態(tài)推理,(3)GILL(Koh 等人,2023),一種專門用于生成和檢索交錯輸出的模型,(4)Anole(Chern 等人,2024),基于 Chameleon(Team,2024),一種擅長文本質(zhì)量的模型,增加了視覺和多模態(tài)生成能力。
為了擴大比較范圍,我們還與由文本輸出 LVLMs(即 GPT-4o(Achiam 等人,2023)、Gemini-1.5(Reid 等人,2024)、LLaVA-v1.6-34b(Liu 等人,2023a)和 Qwen-VL-2-72b(Wang 等人,2024))和文本到圖像生成模型(即 Openjourney(ope)、Stable Diffusion 3 Medium(Esser 等人,2024)、Stable Diffusion XL turbo、Flux.1-dev(flu))組成的集成 LVLMs 進行比較。我們將交錯的文本和圖像輸入提供給 LVLM 以生成文本,然后將該文本饋送到文本到圖像生成模型以生成圖像。此過程產(chǎn)生的多模態(tài)輸出被視為用于評估的交錯輸出。
人工注釋者
我們組織了一組頂級高校的高年級學生,他們?yōu)樵u分數(shù)據(jù)集的策劃做出了貢獻。為確保評估的全面性和一致性,我們?yōu)榛鶞实拿總€類別制定了詳細的標準(詳細信息見附錄 A.9)。
評估指標
我們使用第 3.3 節(jié)中提出的指標評估所有模型的性能,該指標由基于 InternVL-2-4B(Chen 等人,2024c)微調(diào)的 LVLM 驅(qū)動,以確保可靠的評分。
4.2 主要結(jié)果
在本節(jié)中,我們展示了在 MMIE 基準上的綜合評估。交錯 LVLMs 和集成 LVLMs 的詳細性能分別如表 3 和表 4 所示。我們的主要發(fā)現(xiàn)總結(jié)如下:
表3 四個支持交錯圖像和文本輸入輸出的開源LVLMs在MMIE上的性能,以百分比顯示。#注釋:此表呈現(xiàn)了不同開源LVLMs在MMIE基準上的具體性能表現(xiàn),為評估模型能力提供了數(shù)據(jù)支撐。
表4 與最先進的集成文本到圖像模型的LVLMs(稱為集成LVLMs)在MMIE上的比較。*:LLaVA僅支持單圖像輸入,因此跳過所有多圖像查詢。#注釋:該表對比了集成LVLMs與其他模型的性能,突出了集成模型在某些任務中的表現(xiàn)。
具有挑戰(zhàn)性的評估和有希望的方向
如表 3 所示,所有評估的交錯 LVLMs 表現(xiàn)不佳,平均得分為 50.80%。即使集成了 GPT-4o 等先進模型和文本到圖像生成模型,如表 4 所示,達到的最佳分數(shù)(GPT-4o + SDXL)為 65.47%。這凸顯了 MMIE 的高難度和挑戰(zhàn)性。有趣的是,最新的交錯 LVLM Anole(Chern 等人,2024)與之前的交錯 LVLMs 相比有顯著改進,平均得分分別比 MiniGPT-5、GILL 和 EMU-2 高 8.4%、7.0%、21.8%。這表明交錯的文本和圖像模型作為多模態(tài)理解和生成未來進展的有希望方向的潛力越來越大。為了促進 MMIE 的更廣泛采用,我們提取了 1,000 個樣本以創(chuàng)建一個迷你集。詳細結(jié)果可在附錄 A.5 中找到。
交錯 LVLMs 與集成 LVLMs 之間的差距
現(xiàn)有的交錯 LVLMs 仍然相當有限。為了增強我們對基準的評估和分析,我們在實驗中將非交錯 LVLMs 與 T2I 模型集成。這種集成 LVLMs 方法在所有類別中平均比以前的開源交錯 LVLMs 性能提高了 25.2%。具體而言,集成模型在情境分析、基于項目的學習和多步推理中分別比交錯模型的最佳性能高出 14.6%、26.3% 和 16.1%。令人驚訝的是,集成 LVLMs 在基于項目的學習中表現(xiàn)異常出色,所有基于 LLaVA-34b 的模型得分都在 70% 以上。這些發(fā)現(xiàn)表明,將非交錯 LVLMs 的強大理解能力與 T2I 模型的生成能力相結(jié)合,為未來的研究提供了一條有希望的途徑。
不同領(lǐng)域的模型性能
如之前在表 3 和表 4 中所示,模型性能因數(shù)據(jù)的不同類別而異,在基于項目的學習中取得最佳結(jié)果,在情境分析中得分最低。這表明模型的性能因類別而異,可能是由于訓練數(shù)據(jù)分布的固有問題。例如,Anole(Chern 等人,2024)在基于項目的學習數(shù)據(jù)中得分為 59.05%,但在情境分析中僅為 48.95%,表明它擅長創(chuàng)造性的開放式生成,但在處理詳細的特定學科知識方面有所不足。深入到更細粒度的領(lǐng)域,如圖 4 所示,不同的模型對某些領(lǐng)域的數(shù)據(jù)表現(xiàn)出偏好。在基于項目的學習的七個領(lǐng)域中,包括教育、金融、健康、哲學、體育、藝術(shù)和 EECS,幾乎所有模型在更容易理解的領(lǐng)域,如哲學、藝術(shù)和教育中表現(xiàn)良好,但在需要更高推理能力的更復雜領(lǐng)域,如金融和 EECS 中面臨挑戰(zhàn)。圖 4 還顯示,在文本和圖像質(zhì)量、文本 - 圖像連貫性、方法質(zhì)量和實用性、創(chuàng)造力和參與度、風格一致性和對應性等標準的得分普遍逐漸下降,表明所有模型都嚴重缺乏文本和圖像對齊以及使用交錯輸出來解決現(xiàn)實世界問題的能力。詳細結(jié)果可在附錄 A.7 中找到。
圖4 基于我們的標準,每個模型在基于項目的學習的七個領(lǐng)域中的平均和總分。我們?nèi)PT-4o、Gemini-1.5、LLaVA-v1.6-34b和Qwen-VL2-72b在四個文本到圖像擴散模型上的平均值。#注釋:此圖展示了不同模型在基于項目的學習的多個領(lǐng)域中的表現(xiàn)情況,反映出模型在不同領(lǐng)域的能力差異。
4.3 我們的模型驅(qū)動指標與人工注釋的一致性如何?
在本節(jié)中,我們進一步驗證了我們提出的指標的有效性。在這里,我們進行了一項實驗,使用幾種差異和相似性指標,即余弦相似度、均方誤差(MSE)、平均絕對誤差(MAE)和皮爾遜系數(shù),來評估其與人工注釋的相關(guān)性。為了進行比較,我們報告了傳統(tǒng)多模態(tài)對齊指標(即 CLIPScore)和 LVLMs(包括 GPT-4o)判斷的分數(shù),GPT-4o 已在(Liu 等人,2024)中用作指標。如表 5 所示,我們的指標與人工評估結(jié)果表現(xiàn)出最接近的一致性,證明是最可靠的。我們的評分模型有效地捕捉了圖像和文本序列的多模態(tài)特征,并通過精確的復雜推理對其進行判斷。相比之下,其他 LVLMs 和 CLIPScore 往往主要關(guān)注理解序列信息,但在把握序列之間的關(guān)系和準確判斷它們之間的對齊方面有所不足。總之,實驗表明我們的指標是評估交錯多模態(tài)生成的穩(wěn)健和可靠的標準。我們在附錄 A.4 和 A.8 中分別提供了 MMIE-Score 的評分偏差和泛化性分析。
表5 評分LVLMs和傳統(tǒng)圖像文本對齊指標的比較。#注釋:該表對不同評分模型和傳統(tǒng)指標進行了對比,驗證了MMIE提出的指標的可靠性和優(yōu)越性。
5 錯誤分析
本節(jié)對評估過程中發(fā)現(xiàn)的錯誤進行了詳細分析。我們將關(guān)鍵挑戰(zhàn)分為兩類:時間理解和推理能力。具體而言,時間理解問題涉及多模態(tài)信息理解和跨模態(tài)連貫性,而推理問題涉及復雜推理和生成能力。這一分析源于專家注釋者在評分過程中的觀察,不僅突出了模型當前的局限性,還為未來的發(fā)展提供了潛在的改進方向。詳細示例見圖 5。更多案例可在附錄 C 中找到。
5.1 時間理解能力
主要錯誤在于跨模態(tài)連貫性和生成適應性。許多模型難以生成與伴隨文本準確對應的圖像,導致嚴重的信息差距、扭曲和冗余。
跨模態(tài)連貫性
最常見的錯誤之一是文本和圖像生成之間的不連貫。由于多模態(tài)對齊的不足,生成的圖像中的細節(jié)通常模糊或完全缺失,使其難以與文本中描述的上下文對齊。一個典型的例子如圖 5 所示,模型正確理解了 “瀏覽器圖像:HowToUseSkypes.png” 方法并產(chǎn)生了準確的文本響應。然而,它生成的相應圖像僅由顏色塊組成,缺乏與文本建立連貫性和對齊所需的必要細節(jié)。
生成適應性
另一個重大錯誤是生成響應的不靈活性。例如,模型只能理解給定的文本并產(chǎn)生簡單、缺乏細節(jié)的響應。例如,在圖 5 中,模型的回復僅包含標題 “下一步是編寫”,而沒有進一步詳細說明所涉及的步驟或過程,這與提供的查詢示例不同。這個問題可能源于文本理解和生成的弱點。
圖5 模型失敗的示例。介紹并分類了四種典型的錯誤類型,即文本和圖像生成之間的不連貫、生成響應的不靈活性、多模態(tài)信息理解差以及無法處理復雜推理任務。#注釋:該圖通過具體示例展示了模型在評估中出現(xiàn)的典型錯誤類型,為分析模型缺陷提供了直觀參考。
5.2 推理能力
在評估模型的推理能力時,最普遍的錯誤類型出現(xiàn)在多模態(tài)信息理解和復雜推理中。值得注意的是,許多模型甚至在理解交錯信息方面表現(xiàn)出重大錯誤(Jin 等人,2024b;a;Chen 等人,2024a;b;Zhang 等人,2024a),這不可避免地導致后續(xù)推理錯誤。
多模態(tài)信息理解
評估 LVLMs 推理能力的一個關(guān)鍵錯誤是它們難以理解多模態(tài)查詢,特別是從圖像中提取視覺信息。一個常見的問題是,模型正確解釋了查詢的文本組件,但未能完全理解圖像中的視覺細節(jié)。例如,在比較四個數(shù)據(jù)集體積的條形圖的情況下,每個數(shù)據(jù)集由 y 軸上具有相應高度的條形表示,模型可能識別圖表的標題和標簽,但忽略條形本身傳達的關(guān)鍵信息 —— 例如數(shù)據(jù)集的相對大小。這凸顯了模型傾向于關(guān)注表面級文本線索,而不深入探究圖像中嵌入的更深層次的圖形含義。這也凸顯了一個更廣泛的趨勢:LVLMs 表現(xiàn)出強烈的偏向于處理文本,而不是從視覺數(shù)據(jù)和其他非文本模態(tài)中提取細微信息。
復雜推理
另一個重大錯誤是模型無法處理復雜推理任務。如圖 5 所示,模型在多步推理中表現(xiàn)出明顯的弱點。例如,在生物系統(tǒng)的影響分析中,模型正確預測毛毛蟲的減少會導致鳥類種群的下降,但未能推斷出次級效應 —— 植物種群會增加。另一個例子見于算術(shù)問題,其中模型犯了明顯的錯誤,例如未能計算三角形的精確長度。這些例子強調(diào)了加強模型多步推理能力的必要性,使其在處理復雜任務時更加穩(wěn)健和可靠。
6 結(jié)論
本文介紹了 MMIE,這是一個用于交錯圖像和文本理解與生成的大規(guī)模、多樣化基準。MMIE 跨越廣泛的領(lǐng)域,提供了用于交錯多模態(tài)理解和生成的全面評估框架,具有 20,000 個查詢。該數(shù)據(jù)集涵蓋廣泛的領(lǐng)域,確保了對 LVLMs 各個維度的高質(zhì)量評估。此外,我們提出的模型驅(qū)動指標基于輸入的圖像 - 文本上下文,有效地評估了輸出的圖像 - 文本信息的質(zhì)量。我們的大量實驗進一步表明,我們提出的指標提供了穩(wěn)健的、類似人工的評估性能,顯著減少了錯誤和偏差。盡管如此,我們觀察到現(xiàn)有模型表現(xiàn)不佳,特別是在復雜和深度交錯的多模態(tài)任務中,凸顯了該領(lǐng)域未來面臨的挑戰(zhàn)和機遇。
倫理聲明
本文專注于交錯大型視覺語言模型的評估。使用新構(gòu)建的人工注釋數(shù)據(jù)集來微調(diào)評分模型。該數(shù)據(jù)集是按照倫理指南策劃的,以確保不包含敏感信息,并在注釋過程中盡量減少偏差。評估過程旨在透明和可重復,遵循研究完整性和倫理行為的高標準。沒有收集或處理個人可識別數(shù)據(jù)。
可重復性聲明
為了確保我們結(jié)果的可重復性,我們已做出大量努力提供所有必要的細節(jié)和材料。具體而言,我們在第 3 節(jié)中包括了數(shù)據(jù)集創(chuàng)建過程的全面描述,包括注釋指南和數(shù)據(jù)收集方法,并在附錄 A.1 中進一步闡述。基準和評估程序在第 4 節(jié)中詳細描述,所使用的指標明確定義,以促進獨立驗證。
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Diji Yang等
