多模態大模型能力評測基準全面綜述:理解、推理、生成、應用、趨勢 精華
隨著人工智能的快速發展,多模態大型語言模型(MLLMs)已經成為理解視覺數據和語言上下文的關鍵技術。這些模型能夠處理和生成結合文本、圖像和其他模態的內容,但如何有效評估它們的性能一直是個挑戰。本文通過全面回顧現有的多模態基準測試,為研究人員提供了評估MLLMs性能的工具和方法,這對于推動人工智能技術的發展具有重要意義。
多模態大型語言模型(MLLMs)的快速發展為人工智能帶來了重大進步,顯著增強了理解和生成多模態內容的能力。盡管以往的研究主要集中在模型架構和訓練方法上,但對用于評估這些模型的基準測試的徹底分析仍然鮮有探索。本綜述通過系統回顧211個評估MLLMs的基準測試,填補了這一空白,涵蓋了理解、推理、生成和應用四個核心領域。我們提供了任務設計、評估指標和數據集構建的詳細分析,跨越了多種模態。我們希望本綜述能夠通過提供基準測試實踐的全面概述并確定未來工作的有前途的方向,為MLLM研究的持續進步做出貢獻。相關的GitHub倉庫收集了最新的論文。
1 引言
人工智能(AI)的快速發展與健壯基準測試的發展密切相關。這些基準測試提供了評估和比較AI模型性能的客觀指標。作為計算機視覺的先驅,ImageNet提供了一個大規模且注釋良好的數據集,為開發既高度準確又廣泛泛化的模型鋪平了道路。AI模型和基準測試的發展是互補的。例如,隨著分類基準測試在數據量和類別多樣性方面的增長,其上訓練的模型顯著改進,從而在現實世界中的性能得到了提升。這種特定任務基準測試與模型架構之間的協同作用一直是AI實際應用的基石。
最近在大型語言模型(LLMs)方面的突破,例如ChatGPT,已經在眾多研究領域引起了重大變化,并深刻影響了各種社會和工業部門。利用LLM作為大腦,多模態大型語言模型(MLLMs),例如GPT-4v和Gemini,彌合了視覺數據和語言上下文之間的差距,使這些模型能夠理解和生成結合文本、圖像和其他模態的內容。盡管它們具有巨大的潛力,但基準測試的發展并沒有總是跟上相應MLLMs的演變。傳統基準測試通常關注增加數據量或類別數量,難以充分評估MLLMs的多方面能力。
這引出了一個自然的問題:我們如何有效地評估這些大型AI模型的各種能力和可靠性?目前,用于AI模型的多模態基準測試領域豐富多樣(見圖1),包括視覺問答和圖像字幕等多種任務。這種多樣性無疑推動了MLLMs的發展,為研究人員提供了多個途徑來探索和改進他們的模型。然而,眾多基準測試是一把雙刃劍。眾多基準測試的數量使其難以導航,尤其是對于新手來說:
- 目標不一致:每個基準測試都有不同的目標,導致研究領域碎片化。研究人員必須投入大量時間來確定現有基準測試是否充分測試了MLLMs的能力,這使得開發新的、一致的基準測試變得復雜。
- 任務飽和:由多樣化目標驅動的任務激增,導致了一個壓倒性的領域。這種飽和使得很難辨別真正創新或有影響力的基準測試,導致寶貴的資源被忽視或利用不足。
- 指標演變與差異:盡管一些研究提出了設計良好的指標,但它們的采用受到基準測試快速演變和頻繁更新的阻礙。這種不一致性迫使研究人員在傳統和新指標之間進行復雜的平衡,使得公平比較變得復雜,并阻礙了對MLLMs的全面評估。為了解決這一差距,我們提出了一個全面的綜述,系統回顧了當前多模態基準測試的能力、任務設計、數據集構建和特定設計的指標。
本綜述從理解、推理、生成和應用的角度審視這些方面:
理解。它指的是從多模態數據中提取和整合特征以執行跨模態分析的能力。這涉及解釋視覺表示、識別關鍵細節、把握語義含義并準確回應相關問題的任務。評估這些能力是基礎性的,因為它們構成了MLLMs在多樣化任務和應用中更廣泛功能的基礎。
推理。它超越了基本理解,包括執行復雜推理和跨模態得出邏輯結論的能力。這包括需要模型處理和操縱信息的任務,使它們能夠基于跨模態數據解決問題和做出決策。強大的推理能力對于MLLMs處理需要更深層次認知處理的復雜任務至關重要。
生成。它涉及基于多模態輸入創建新內容,例如從圖像生成描述性文本或從文本描述生成視覺內容。這種能力對于需要創造力、連貫性和準確性的實際應用至關重要。
應用。它探索了評估MLLMs在現實世界場景中的實際應用的基準測試。它包括具身AI、基于智能體的任務和特定領域的應用,如醫療診斷和自主系統。這一類別的基準測試評估模型如何整合多種模態以在動態和交互式環境中執行復雜任務。
2 理解基準測試
2.1 背景和分類
MLLMs的快速發展突出了全面基準測試的必要性,以評估它們在多種數據類型中的理解能力[64],[217]。本節回顧了旨在評估MLLMs感知和理解以各種格式呈現的信息的多模態理解基準測試。這些基準測試對于微調MLLMs至關重要,確保它們在現實世界應用中的健壯性和泛化能力[77],[189]。最近的理解決基準測試關注于評估MLLMs的多個方面,例如,視覺感知、上下文理解和特定模態理解。
2.1.1 視覺感知
視覺感知能力是理解基準測試的一個基礎方面。它涉及提取顯著特征和準確識別和解釋視覺元素(例如,多個對象、文本信息和復雜的情感或隱含線索)的能力[45]。本節將視覺感知基準測試分為三組:低級感知、細粒度感知、高階感知和綜合感知。
- 低級感知。MLLMs中的低級感知涉及檢測和解釋基本視覺屬性(例如,顏色、照明、構圖)和扭曲(例如,模糊、噪聲、偽影)的能力,這些不需要推理或外部知識[7],[8]。這些低級感知能力對于各種應用至關重要,包括推薦系統、相機系統指導和視覺質量增強[7]。
- 細粒度感知。這個核心維度代表了圖像理解的復雜水平,關注于視覺內容的詳細和微妙方面。它包括識別和解釋微妙特征的能力,例如文本識別(OCRBench [12])、視覺-語言概念和模式(例如,SPEC [9] 和 MMVP [15]),以及在高分辨率圖像中識別小對象(例如,V* Bench [11] MagnifierBench [21],P2GB [18])。具體來說,MDVPBench [19]專注于評估模型對細粒度像素級理解的能力,包括詳細描述、相互關系分析和跨多樣化視覺元素的復雜推理。此外,一些基準測試還強調視覺-語言對齊,這指的是模型準確鏈接視覺元素與相應文本描述的能力。例如,Eqben [17]專注于“稍微”錯位的對的等變對話,這些對的語義漂移最小,與明顯不匹配的對相比,它們更難區分。與視覺概念識別和對齊不同,MMUBench [20]評估MLLMs中的機器遺忘能力,即有效遺忘視覺概念識別的能力。而MM-SAP [14]評估MLLMs的自我意識能力,即理解它們能和不能從圖像中感知什么。
- 高階感知能力
- 綜合感知。綜合感知基準測試全面評估MLLMs執行廣泛視覺識別任務的能力[28]– [30],[32],[34],[36],[38]–[40],涉及各種類型的視覺內容。根據輸入語言類型,基準測試分為:1) 單語言感知,評估在廣泛使用的英語中跨多樣化內容類型的總體視覺識別[29],[35]– [37],[43]。具體來說,MM-Vet專注于不同核心VL能力的整合能力,即識別、OCR、知識、語言生成、空間意識和數學。與感知評估不同,DenseFusion-1M [45] 和 IT [33] 創建了超詳細的圖像注釋,以賦予MLLMs詳細的文本識別和高分辨率圖像感知能力,以及一些圖像描述質量的評估基準,例如DID-Bench,D2I-Bench和LIN-Bench [33]。2) 多語言感知,評估模型理解和解釋多種語言中的視覺內容的能力,強調它們在不同語言和文化背景下的適應性[47],[49]–[53]。
2.1.2 上下文理解
它指的是MLLMs理解和解釋受周圍上下文影響的信息的能力。根據不同的輸入上下文格式,這些基準測試分為以下幾組:
- 上下文依賴理解。CODIS [54]定義上下文依賴理解為模型準確識別單個圖像中的視覺元素的能力,帶有補充的上下文文本信息(例如,位置和方向)[54]。這對于使用上下文線索解決歧義至關重要。
- 長上下文理解。它評估MLLMs從長序列中保持連貫性和提取相關信息的能力[55]–[57]。這對于MLLMs尤其重要,特別是在現實世界應用中,如多輪對話[219],動作識別[220]和科學論文理解[93]。
- 多圖像理解。這種能力涉及比較多個圖像之間的一致性和變化,使模型能夠通過識別模式和解釋復雜的視覺動態來獲得更全面的見解。它通常由MuirBench [58],Mementos [59],Mantis-Eval [61]和MMIU [60]評估。
- 交錯圖像-文本理解。它表示MLLMs有效管理和解釋混合的文本和視覺數據流的能力,這對于現實世界設置中的動態多媒體交互至關重要[64],[66]。具體來說,VL-ICLBench [67]評估多模態上下文學習能力,其中MLLMs在不更新模型參數的情況下,從幾個輸入-輸出示例中學習新任務。而MMMU [68]專注于具有特定領域知識的多學科多模態理解。鑒于示例和學科的交錯圖像-文本格式,這些能力被認為是一種交錯圖像-文本理解。
2.1.3 特定模態理解
在多模態理解中,MLLMs被評估其處理和整合來自不同感官模態的輸入的能力,如視頻、音頻、3D數據和全模態環境。每種模態都提出了獨特的挑戰,要求模型在內部分析信息并在不同輸入類型之間進行綜合。以下是每種模態所需的關鍵能力:
- 視頻。與靜態圖像不同,視頻捕獲動態序列,要求模型解釋空間和時間信息。1) 空間-時間感知。這涉及區分不同的時間方面,如速度、方向(例如,TempCompass [71])和對象狀態變化(例如,OSCAR [221]),以及理解隨時間演變的復雜概念[69]。因為許多人類語言中的關鍵概念,例如動作,具有超出靜態圖像范圍的時間維度,VITATECS [72]專注于時間概念理解。2) 長視頻理解。長視頻由于計算復雜性、內存需求以及模型需要維持長期時間連接的需要,提出了額外的挑戰[73]。典型的基準測試是MovieChat-1K [73],EgoSchema [74],MLVU [77]。TimeChat [75]通常專注于內在時間戳定位能力。由于視頻中缺乏豐富的事件,MLLMs可能遭受捷徑偏差。因此,Event-Bench [78]專門評估事件理解,專注于原子、復合和整體事件理解。3) 綜合感知。Video-MME [80]和Video-Bench [83]包含對時間和空間動態的全面理解,整合多層感知以完全理解視頻中的連續性和上下文。AutoEval [81]和WorldNet [79]專注于現實世界場景,分別針對開放式的視頻理解和狀態轉換。此外,ADLMCQ [76]專注于日常生活活動場景,進一步豐富了對視頻中日常人類動作的理解。
- 音頻。音頻數據挑戰模型解釋復雜的聽覺信息,包括語音、音樂和環境聲音,要求理解時間模式和上下文細微差別。Dynamic-SUPERB測試了語音模型在廣泛的音頻處理挑戰中的泛化能力,使用指令調整,強調它們在零樣本情況下處理多樣化和未見場景的能力。AIR-Bench [86]評估大型音頻-語言模型在音頻中心交互能力上理解并解釋廣泛的音頻信號,從人類語音到自然聲音,通過基于文本的格式促進無縫交互。MuChoMusic [87]專注于評估MLLMs中的音樂理解,檢查它們在不同文化和功能背景下把握和推理各種音樂概念的能力。
- 3D。與2D圖像不同,3D數據要求模型理解深度、體積和空間關系,挑戰它們解釋復雜形狀和結構[88]。3DCoMPaT-GRIN [88]評估模型的部件感知理解能力,以識別和分割3D對象的部件,這有助于彌合當前MLLMs能力和復雜的人類類感知之間的差距。LLaNA [89]作為NeRFs的第一個基準測試,專注于模型的NeRFs理解能力,直接處理NeRF權重,捕獲有關3D場景的幾何和外觀的詳細信息。M3DBench [90]通過結合多模態輸入擴展了3D理解,推動模型整合空間推理和視覺理解,以與復雜的3D環境互動。
- 全模態理解。它評估MLLMs同時處理和整合來自多種模態的輸入的能力,展示它們識別跨多樣化感官數據的共同模式和相關性的能力。MCUB [91]評估MLLMs在無縫解釋和綜合來自各種來源的輸入的能力,增強跨模態推理和泛化。MUIE [92]進一步挑戰MLLMs在細粒度多模態基礎定位,測試它們在跨文本、音頻、圖像和視頻輸入提取和鏈接信息的熟練程度。
2.2 多模態任務和指標
理解基準測試的多模態任務和指標設計圍繞兩個主要維度構建:面向能力的任務和指標,衡量特定能力,以及面向格式的指標,確保評估與生成的輸出類型一致。更多詳細信息顯示在表1中。
2.2.1 面向能力的任務和指標
本節概述了各種理解基準測試的任務和指標設計。低級感知。正如Q-bench [7]所提出的,低級屬性識別涉及與扭曲和其他低級屬性相關的問題,例如光線。除了單圖像,Q-bench+ [8]進一步引入了圖像對之間的比較。這兩個基準測試然后擴展到低級描述任務,使MLLMs描述圖像的質量和其他低級信息。為了評估精確的質量評估能力,Q-Bench [7]引入了一種基于softmax的質量評估策略,而不是直接解碼標記,提取“好”和“差”結果的對數,并通過在這兩個對數之間應用softmax池化來預測可量化的分數。
細粒度感知。
這些任務旨在評估模型解釋和分析視覺內容的詳細和微妙方面的能力。具體來說,給定輸入圖像,子任務可以分為
1) 多類識別:識別圖像中是否存在某些對象[9],[10]。
2) 對象屬性:識別對象的特定屬性,如顏色、紋理和狀態[11],[15]。
3) 對象計數:確定圖像中特定對象的實例數量[9]。
4) 對象位置:表示對象相對于圖像的位置[9],[13]。由于上下文在對象檢測中的重要性,CODE基準測試[13]通過上下文豐富的環境更好地評估模型,增強了任務設計。
5) 空間關系:推理兩個或多個對象之間的空間關系[9]。
6) 光學字符識別(OCR):識別查詢區域內的文本[12]。具體來說,CV-Bench [16]將2D細粒度感知擴展到3D,并引入了深度順序和相對距離任務。與視覺概念識別不同,MM-SAP [14]設計了三個自我意識評估任務:BasicVisQA測試“已知已知”問題,通過提出五個多項選擇答案,包括一個拒絕選項。KnowVisQA評估視覺知識(例如,品牌、地標)與類似的多項選擇輸出。BeyondVisQA關注“已知未知”,要求模型識別無法回答的問題并選擇拒絕選項。
高階感知。
1) 情感識別:從圖像中識別情感表達。EmoBench [26]擴展了這些通用情感任務,增加了情感應用任務(例如,幽默、仇恨和諷刺檢測)。
2) 含義理解:給定圖像和一組多項選擇問題,具有固定的可能答案,模型必須選擇最能解釋圖像的視覺隱含含義[24]或價值[25]的正確答案。
3) 美學理解:如UNIAA [22]所定義,它首先通過問題從圖像中識別美學屬性(例如,內容和主題),然后提供美學描述,最后通過數量分數進行美學評估。AesBench [23]進一步結合了美學解釋,使MLLMs解釋和分析美學質量的原因。
綜合感知。
例如LVLMeHub [28],TinyLVLM [29],LAMM [30]和OwlEval [31]的基準測試,結合了人類判斷或基于GPT的評估,以提供全面的評估,但可能會引入偏差。為此,像MME [32]和MMBench [34]這樣的基準測試使用了像二元判斷陳述或多項選擇問題這樣的結構化格式,以提供更客觀的評估。然而,相對較小的規模可能導致不穩定性。因此,SEED-Bench [35],以及SEED-Bench2 [36]和SEED-Bench-2-Plus [37],在多樣化多模態生成、層次化和文本豐富的場景中分別提供了大規模評估。超越傳統的識別任務,像Blink [38]和MMTBench [39]這樣的基準測試測試了微妙的感知能力和多模態推理,而MM-Vet [40]設計了能力整合任務。然而,多項選擇格式有時未能捕捉到現實世界的復雜性,這更好地由開放式基準測試如TouchStone [41]和OpenVQA [42]解決。ChEF [43]引入了相對ICL準確性和相對魯棒性,用于多選QA,以衡量上下文學習和魯棒性,特別強調超越隨機猜測的改進。M3GIA [49]引入了通用智能準確性(GIA)指標,利用驗證性因子分析來驗證MLLMs的認知結構與人類智能的一致性。然而,傳統評估方法在多模態訓練期間難以處理數據泄露,MMStar [46]通過引入兩個指標來解決這個問題:多模態增益(MG)衡量視覺輸入的改進,以及多模態泄漏(ML)檢測意外的數據暴露,確保公平比較。
上下文依賴理解。
衡量這種能力的典型任務是上下文依賴圖像消歧:給定一個查詢和一個帶有兩種不同上下文的圖像,MLLMs需要生成正確的響應[54]。為了更好地衡量在不同上下文中識別的能力,CODIS [54]設計了上下文意識指標。
多圖像理解。
它通常結合多圖像輸入任務,如動作識別和圖表理解[58],[60]。具體來說,Mementos [59]專注于復雜任務的監控和解密圖像序列中對象的位置變化。它使用GPT-4可靠地提取和標準化AI生成的描述中的對象和行為關鍵詞,將這些列表與人類基準進行比較以評估準確性。
長上下文理解。
最近的基準測試[55]–[57]采用針 haystack任務:這項任務通過在長無關圖像和文本語料庫(haystack)中準確找到相應的信息(針)來評估MLLM的長上下文理解能力。具體來說,MMNeedle [55]引入了“圖像haystack”,其中模型必須定位由給定標題描述的特定子圖像。MileBench [56]擴展了這個概念,包括“文本針在haystack中”和“圖像針在haystack中”任務。在文本任務中,模型從密集的多模態上下文中提取7位密碼,而在圖像任務中,它識別并檢索嵌入在圖像中的文本,需要OCR能力。MM-NIAH [57]進一步測試多模態文檔中的長上下文理解,專注于跨不同“多模態針”的檢索、計數和推理任務。MMNeedle [55]引入了一組評估指標,即存在準確性、索引準確性和精確準確性,全面評估MLLMs在序列、圖像和子圖像級別的表現。
交錯圖像-文本理解。
通常,給定交錯的圖像-文本內容(例如,上下文示例),模型必須有效地響應查詢(例如,QA或字幕格式)[24],[65],[66],[68]。VEGA [63]引入了交錯圖像-文本理解任務,其中模型不僅基于更長的圖像-文本序列回答問題,還識別與響應相關的特定圖像索引。VL-ICLBench [67]通過包括八個任務擴展了這一點,評估多模態上下文學習能力。
空間-時間感知。
VideoNIAH [69]涉及檢索、排序和計數插入到視頻序列中的視覺“針”,挑戰模型準確處理和分析長上下文視頻中的空間和時間信息。對于時間感知,VTATES [72]通過使用反事實描述來識別六個細粒度方面——方向、強度、序列、定位、組合性和類型——同時保持靜態內容一致,修改只有時間信息。
長視頻理解。
Event-Bench [78]專注于以事件為導向的長視頻理解,并提出了層次化任務分類法,包括原子事件理解(例如,事件描述)、復合事件理解(例如,時間推理)和整體理解(例如,上下文推理)。由于一些長期視頻任務實際上是短期任務的偽裝,EgoSchema [74]引入了時間證書的概念,以衡量視頻剪輯的內在時間復雜性。
綜合視頻理解。
Video-Bench [83]包括10個精心設計的任務,涵蓋三個不同的層次:視頻專有理解、基于先驗知識的問題回答和理解與決策。MVBench [84]系統地將靜態圖像任務轉換為動態視頻任務,使評估在開放世界場景中的一系列時間技能成為可能。與專注于計算任務(例如分類)的現有基準測試不同,PerceptionTest [82]強調技能(記憶、抽象、物理、語義)和推理類型(描述性、解釋性、預測性、反事實性)在視頻、音頻和文本模態上的跨模態,提供了一個全面且高效的評估工具。
音頻理解。
Dynamic-SUPERB [85]專門關注六個維度的分類任務——內容、說話者、語義、退化、副語言學和音頻處理——使用指令調整來評估模型處理已見和未見場景的能力。AIR-Bench [86]獨特地結合了基礎和基于聊天的音頻任務的層次化評估,涵蓋所有音頻類型。
3D理解。
為了評估3D MLLMs的部件感知理解能力,3DCoMPaT-GRIN [88]引入了兩個新任務:部件感知點定位和部件感知點定位字幕。在部件感知點定位中,模型根據用戶指令預測部件級別的分割掩模。在部件感知點定位字幕中,模型生成一個詳細的字幕,包括部件級別的描述,每個描述對應一個分割掩模。對于NeRF理解,LLaNA [89]專注于像字幕和QA這樣的任務,以評估模型如何通過NeRF權重解釋3D場景的幾何和逼真表示。
全模態理解。
MCUB [91]評估模型識別來自不同模態的輸入實體的共同點的能力,挑戰它從四個給定選項中選擇最合適的答案。具體來說,MUIE [92]強調視覺定位,并引入了地面多模態通用信息提取的概念,涉及跨文本、圖像、音頻和視頻輸入提取和關聯信息,確保實體和事件準確鏈接到它們對應的模態。
2.2.2 面向格式的指標設計
在評估MLLMs時,使用不同的輸出格式來評估模型準確和適當地響應各種類型查詢的能力。根據格式,指標可以分為以下類別:
- 二元/多項選擇:1) 二元選擇。模型以簡單的是/否響應,測試其直接決策的能力。2) 多項選擇:模型被呈現幾個可能的答案,通常被鼓勵選擇一個字母(例如,A/B/C/D)[21]。這種格式有效地測試了模型在區分密切相關的選項并做出明確選擇的能力。典型的指標包括準確性、精確度和召回率。為了增強魯棒性,MMBench [34]引入了CircularEval指標,其中模型必須在多次通過中正確回答問題,以測試其在多次傳遞中的一致性。具體來說,如果MLLMs輸出自由形式的文本,一個LLM(例如,GPT-4)被用作選擇提取器,將自由形式的答案與預定義的選擇匹配[34]。相比之下,SEED系列[35]–[37]采用了答案排名策略[222],[223]來評估模型性能,評估生成的內容與正確選擇匹配的可能性。為了從MLLMs的輸出中提取選擇,MMTBench [39]遵循OpenCompass [224]中的三步協議:檢查選項字母,用ChatGPT檢查選項內容,并將選擇設置為默認選項字母,以避免隨機分配[68]。
- 定義形式:要求模型以定義的格式輸出。例如,生成的格式被定義為(索引,行,列)的元組在MMNeedle [55]中。具體來說,對于分類任務:準確性用于評估正確預測標簽的百分比。對于檢測和定位任務,平均精度均值(mAP)用于評估模型預測對象標簽和邊界框的準確性。
- 自由形式:與二元和多項選擇格式不同,這些格式是預定義的,自由形式響應允許模型生成開放式答案[21],[42]。這種格式更好地反映了現實世界的場景,用戶通常不提供預定義的選項,模型必須依賴于其理解和創造力來生成上下文適當的響應。像BLEU和ROUGE-L這樣的指標通過測量與參考文本的n-gram重疊來評估生成的字幕的質量[23],[30],[47],[56]。受到LLM-asa-Judge [225]的啟發,一些基準測試采用了基于LLM的評估,利用LLMs(例如,GPT-4,Gemini)來驗證生成的響應的準確性和質量,確保與人類評估的一致性。例如,在MM-VET [40]中,GPT-4作為主要評估者,根據正確性在0到1的范圍內對開放式輸出進行評分。AutoEval [81]利用GPT-4根據特定實例的提示和規則評估答案的正確性。為了確保魯棒性,QBench [7]通過GPT輔助的5輪評估過程來評分MLLM-描述的完整性、精確性和相關性,類似于MM-Bench [34]。而TinyLVLM [29]引入了ChatGPT集成評估(CEE)指標,使用多樣化的提示和集成投票。
3 推理基準測試
3.1 背景和分類
推理,從給定信息和獲得的知識中得出結論的能力,是人類水平機器智能的基石。隨著MLLMs的不斷進步,評估它們在多樣化模態和場景中的推理能力已成為迫切需要和有價值的研究課題。本節提供了專門設計來評估MLLMs推理能力的基準測試的全面回顧,這些能力對于它們在需要復雜決策的環境中部署至關重要。
為了系統分析MLLMs推理評估的格局,我們將現有的基準測試分為五個不同的組,基于它們的主要關注點。請注意,這些組并不是相互排斥的。在以下小節中,我們介紹每個類別并討論其重要性。
特定領域推理 [93]–[109],[109]–[117]指的是在特定領域或學科內應用專門知識和邏輯過程。與通用推理不同,它需要對特定領域的獨特概念、規則和方法論有深入的理解。這種推理形式在不同學科和各種復雜性水平上都是基礎性的。為特定領域推理設計的基準測試不僅調查MLLMs獨立解決特定領域任務的潛力,還探索MLLMs是否可以支持并增強特定領域內人類專家的能力。
關系推理 [118]–[129]指的是MLLMs識別、操縱和推理不同實體或概念之間關系的能力。現有工作主要涉及三種類型的關系:i) 空間關系——理解實體在物理上相對于彼此的位置或方向;ii) 時間關系——把握不同狀態之間事件的順序或時間的流逝;iii) 邏輯關系——理解概念或命題之間的抽象聯系或依賴性;以及iv) 相對關系——理解對象、場景或情境之間的比較概念。關系推理的基準測試評估MLLMs通過理解元素之間的聯系而不是僅僅它們的個體屬性來解決問題的能力。這些評估對于開發能夠處理復雜、相互連接的數據和任務的AI系統至關重要,這些任務需要對信息關系有細微的理解。
多步推理 [101],[130]–[132]對于需要導航一系列相互連接的邏輯步驟的復雜認知任務至關重要。相關基準測試關注兩個關鍵方面:i) 使用預定義或上下文依賴規則進行推理;以及ii) 通過思維鏈(CoT,將復雜任務分解為更簡單、可管理的子任務)進行推理。邏輯推理要求應用明確的邏輯規則從給定的前提中得出結論。與此同時,思維鏈允許MLLM通過將困難問題分解為一系列更簡單、更直接的任務來接近它。這一類別的基準測試測試MLLMs在廣泛的推理序列中保持邏輯連貫性的能力,確保每一步都邏輯地跟隨上一步并與任務的總體目標一致。
反思推理 [133]–[137]包括MLLMs評估和提煉思想、知識等方面的能力。當前的努力主要調查三個方面:i) 反事實思維——考慮替代場景和結果;ii) 分析性提問——制定和評估獲取知識的查詢;以及iii) 知識推理——評估現有知識并更新非事實、過時或未知的知識。反思推理對于開發能夠基于反饋調整策略并提高決策準確性的MLLMs至關重要。關注這種推理類型的基準測試衡量MLLMs在自我評估、識別和調整偏差以及進行必要的更正以提高可靠性和性能方面的有效性。
3.2 多模態任務和指標
推理基準測試的輸出格式與理解基準測試相似。本節僅介紹與推理能力相關的任務和評估指標。更多詳細信息可以在表2中找到。特定領域推理。當前特定領域推理的任務可以根據它們所需的專門知識分為幾個組:i) 數學中心任務[95]–[97],[101],[105]。它們通?;诂F有的基于文本的數學推理數據集,結合額外的模態,如圖形的視覺表示。ii) 多語言和中文多學科中心任務[94],[100],[103],[107],[110],[116]。它們通常來源于中文或多種語言環境中的多學科問題,從高中到博士水平的考試、筆記等。iii) 科學論文中心任務[93],[98],[115]。這些是專門為評估MLLMs在解釋各種領域科學研究文章中的復雜圖形和表格方面的熟練程度而設計的。iv) 其他專門領域任務。由于空間限制,我們列出這一類別的額外任務,關注于地理和地理空間推理[102]、思維導圖結構分析[104]、圖表圖像分析[108],[109],[109],[113],[114],表格圖像分析[111],[117],網頁分析[112],文檔分析[99],以及計算密集型場景[106]。所有列出任務的評估指標主要關注中間結果和最終答案的準確性。
關系推理。MLLMs的關系推理任務可以廣泛分為三種主要類型。第一種類型側重于預測關系,無論是實體之間還是模式之間。以實體為中心的任務[121]涉及檢測對象及其成對關系,而以模式為中心的任務[127],[129]旨在從給定的視覺模式中推斷關系,以預測后續模式。召回率和準確性分別用于評估以實體為中心和以模式為中心的任務。第二類涉及空間中心關系,如地面空間推理[122],[128],3D空間定位[125]和細粒度空間推理[120]。像基于IoU(交并比)的準確性這樣的指標用于評估性能。第三類涉及時間中心關系,如基于不同視頻片段回答問題[123],或執行時間和語言定位[124]。這些任務的常見評估指標包括準確性、BLEU、BERT分數和召回率。最后,以比較為中心的任務[118]側重于在對象、場景或情境之間進行相對比較。準確性用于評估。
多步推理。現有的多步推理任務可以廣泛分為兩種主要類型:基于規則的任務和思維鏈(CoT)任務。在基于規則的任務[101],[131]中,模型被期望應用預定義的規則或推斷底層模式來解決問題。例如,在尋找數學謎題中缺失值的任務[101]中,模型必須從給定的信息中推斷出控制規則。另一方面,CoT任務[130],[132]強調模型將問題分解為一系列邏輯的、順序的步驟的能力。一個突出的例子是VisualCoT [130],它要求模型識別關鍵圖像區域并通過問題逐步推理。VisualCoT提供了中間邊界框和推理注釋以促進評估。VideoCoT [132]共享CoT推理的相同精神,但側重于視頻而不是圖像。這些基準測試的指標通常評估最終解決方案的準確性以及模型的中間推理步驟與人類注釋的地面真實情況的一致性。
反思推理。反思推理任務可以廣泛分為三種類型:反事實思維、分析性提問和知識編輯。在反事實VQA [133]中,MLLMs被要求通過基于給定事實的假設場景生成答案,從而評估它們執行反事實推理的能力。例如,一個典型的問題可能會問“如果地面是干的,人們戴著太陽帽而不是舉著傘,天氣可能會是什么?”。LOVA3 [138]認為,現有工作主要集中在問答上,而留下了分析性提問——包括提問和評估技能——在很大程度上未被探索。前兩種任務類型的評估通常使用標準指標,如準確性、精確度和F1分數。第三種類型的任務,知識編輯[134]–[137],評估MLLMs更新知識的能力,特別是當面對過時或不準確的信息時。例如,VLKEB [135]引入了一跳和多跳推理任務,用于知識編輯。知識編輯的指標更為微妙,包括可靠性、普遍性、局部性、可移植性和一致性等措施。
4 生成基準測試
4.1 背景和分類
MLLMs的進步不僅提高了理解能力,還提高了在各種格式和上下文中的生成能力。與簡單的文本到圖像生成基準測試不同,本節探討了旨在評估MLLMs不僅生成連貫、一致的格式,而且生成健壯、真實和安全內容的能力的基準測試。
4.1.1 以格式為中心的生成
- 交錯圖像-文本生成。它代表了MLLMs無縫生成視覺和文本內容的能力,這些內容不僅同步,而且上下文相關且視覺準確[64]。它挑戰模型在生成的輸出中保持敘述和視覺連貫性。最近的基準測試,如MMC4 [64],OBELICS [65]和CoMM [66]在構建通用交錯圖像-文本對方面發揮了關鍵作用,這些對對于預訓練或微調這些能力在MLLMs中很有用。超越這一點,OpenLEAF [141]引入了開放領域的交錯圖像-文本生成,支持多樣化格式并擴大了MLLMs的應用潛力。在更專門的領域,StorySalon [139]和StoryStream [140]專注于視覺敘事,強調特定風格的交錯內容創作。此外,StoryStream [140]通過生成長序列,提出了更具挑戰性的設置。
- 代碼生成。它反映了MLLMs自主生成語法正確且功能精確的編程代碼的能力[227]。這個基準測試測試了MLLMs解釋軟件需求和算法約束的能力,生成的代碼不僅能夠編譯,而且能夠根據指定的功能執行。早期的基準測試,如CodeXGLUE [227],DeepCode [228]和Codex [229]在通過結構化的問題陳述開發和細化這些能力方面發揮了關鍵作用。更近期的基準測試,如Web2Code [142]和PlotCode [143],將這些挑戰擴展到多模態代碼生成,解決了代碼必須與多樣化數據形式交互或從其生成的復雜場景,如網頁和圖形圖表。
- 指令遵循。它表示生成與特定指令一致的內容的能力,這對于自動化內容創作、編程和交互式系統基準測試中的應用至關重要。IFEval [230]評估MLLMs遵循清晰、可驗證指令的能力,而InfoBench [231]使用分解要求遵循比率(DRFR)將復雜指令分解為更小、更易于管理的組件。然而,兩者主要關注基于文本的場景。相比之下,LLaVA-Bench [148]專注于視覺指令遵循,而DEMON [144]主要以交錯的視覺-語言指令為特色,這與傳統的單圖像數據集不同。隨后,VisIT-Bench [145]評估指令遵循以響應真實世界的圖像上下文、開放式請求。它還強調評估指令條件字幕和推理。此外,CoIN [146]通過檢查持續的指令調整來擴展評估,調查模型在學習新知識時如何保留現有技能。與此同時,MIA-Bench [147]探索了MLLMs遵循分層指令并生成上下文適當響應的能力,提供了對指令遵循和適應性更細致的視角。
4.1.2 以內容為中心的生成
幻覺緩解。術語“幻覺”通常指的是生成的響應包含在視覺內容中不存在的信息的情況[232]–[235]。減少幻覺對于需要高事實保真度的應用至關重要,如新聞寫作和學術內容生成。在MLLMs領域,幻覺通常被分為三種不同的類型:對象、屬性和關系[235]–[237]。
- 對象幻覺。當模型生成在視覺輸入中不存在或不相關的對象時,就會發生對象幻覺[160]。這些錯誤通常源于對視覺元素的誤解或過度泛化,導致在生成的描述中包含與目標圖像不一致的對象。這為視覺-語言(VL)模型提出了重大挑戰,因為它通常導致無意義或不忠實的響應[172],損害了輸出的事實完整性。解決對象幻覺對于需要精確對象識別和準確場景理解的任務至關重要,如自動圖像字幕和視覺推理應用。
- 屬性幻覺。屬性幻覺指的是錯誤生成對象特征[32],如狀態(例如,顏色或形狀),數量(例如,圖像中對象出現多次)或動作(例如,人類或動物的移動)[158],這些都偏離了視覺內容中呈現的。當模型誤解圖像中現有對象的屬性時,就會出現這些錯誤,導致不準確性,如生成錯誤的動作或數量。這種誤解可能會誤導下游任務,包括細粒度識別和產品檢索,因此在感知模型中緩解這些問題至關重要,以確保準確性和可靠性。
- 關系幻覺。當模型不準確地推斷對象之間的關系時,就會產生關系幻覺,例如空間排列、互動或因果聯系,這些在視覺輸入中并未描繪。這種類型的幻覺需要更復雜的推理能力,因為它涉及圖像中的至少兩個對象,并且可以通過感知(例如,空間術語如“在...上”或“在...后面”)或認知角度(例如,抽象動作如“吹”或“觀看”)[162]發生。這些錯誤可能會嚴重損害模型的推理能力,特別是在需要多模態分析或視頻理解的任務中。減少關系幻覺對于提高生成輸出的連貫性和可靠性至關重要。具體來說,對于視頻模態,VideoHallucer [171]檢測視頻-語言模型中的幻覺,并將其分為內在和外在類型,包括對象-關系、時間和語義細節幻覺的子類別。
安全性。安全性能力確保MLLMs生成的輸出在道德上是健全的,避免有害、誤導或不適當的響應。這對于在敏感環境中的實際部署和維護公眾信任至關重要。例如,MM-SafetyBench [177]測試MLLMs對基于查詢的相關圖像攻擊的彈性,評估它們如何處理對抗性查詢。與此相輔相成的是,RTVLM [180]通過引入紅隊評估來擴展安全性的范圍,在這些評估中,模型在對抗性、道德上具有挑戰性或有害的場景中進行測試,重點關注關鍵領域,如真實性、隱私、安全性和公平性。此外,MLLMGUARD [179]擴展到雙語安全評估,涵蓋五個維度的方面,確保全面性、嚴謹性和健壯性。與這些基準測試不同,MOSSBench [178]評估MLLMs的過度敏感性,關注它們如何不當地拒絕良性查詢。
可信度。可信度測試MLLMs生成的內容的可信度,評估信息是否可靠、來源準確,并以維護道德標準的方式呈現。這對于新聞生成、教育內容和其他信息完整性至關重要的應用領域尤為重要。具體來說,Shield [183]旨在評估MLLMs在多個模態中檢測面部偽造和偽造攻擊的有效性。相比之下,MTruthfulQA [182]旨在評估多語言場景中LLMs的真實性。更全面地,MultiTrust [181]首次統一評估MLLMs在五個關鍵維度上的可信度:真實性、安全性、健壯性、公平性和隱私性,重點關注多模態風險和跨模態影響。
健壯性。MLLMs的健壯性指的是它們在面對分布偏移或輸入擾動時保持一致性能的能力[181]。為了探索這一點,BenchLMM [187]檢查跨風格的視覺能力,即MLLMs如何處理三種不同的風格:藝術、傳感器和基于應用的變化,揭示了模型在面對非標準視覺上下文時的弱點。同樣,MMCBench [186]擴展評估,測試在文本、圖像和語音中的常見腐敗下的自一致性,提供了對MLLMs跨模態健壯性的更全面視圖。在不同的背景下,MMR [185]針對誤導性提示的健壯性,揭示了MLLMs經常在正確理解視覺內容的情況下與引導性問題作斗爭。此外,JailBreakV-28K [184]專注于可轉移性,研究針對LLMs的越獄技術如何轉移到MLLMs,強調了文本和基于圖像的對抗性攻擊中的漏洞,并強調了在多模態設置中需要更強的防御。CorrelationQA [188]和MM-SPUBENCH [189]都關注于評估MLLMs對偶然偏見的易感性。雖然CorrelationQA揭示了誤導性的圖像-文本對如何誘導幻覺,但MM-SPUBENCH通過測試MLLMs對九個類別中偶然相關性的脆弱性,提供了更全面的評估。
4.2 多模態任務和指標
本章介紹了與每種生成能力相關的設計任務和評估指標。更多詳細信息顯示在表3中。
4.2.1 面向能力的任務和指標
交錯圖像-文本生成。給定包含文本和圖像的提示,此任務旨在評估模型在模態間生成連貫、交錯內容的能力。CoMM [66]引入了一個更具挑戰性的變化,基于給定問題的交錯圖像-文本生成,模型僅基于給定的問題生成交錯內容,而不提供初始圖像信息,推動模型推理和預測結果。StorySalon [139]和StoryStream [140]都專注于故事領域,涉及任務如多模態故事延續和多模態故事生成。前者專注于用文本和圖像擴展給定的敘述,而后者挑戰模型從頭開始創建整個敘述序列,無縫整合文本和視覺內容。此任務的主要評估方向是生成的交錯圖像和文本的連貫性和一致性[66],[140]。例如,OpenLEAF [141]利用BingChat [238]評估交錯圖像-文本內容中的實體和風格一致性。通過采用思維鏈方法,BingChat逐步檢測和分析常見主題和視覺風格因素,如色彩調色板和氛圍,以生成最終的定量分數。
代碼生成。它涉及從各種格式的輸入創建編程代碼,如文本和圖像[143],甚至更復雜的網頁[142]。此任務旨在整合MLLMs的優勢,它們可以理解和處理多樣化數據類型,促進將復雜的、多方面的規范轉換為可執行代碼。對于HTML代碼生成評估,Web2Code [142]從網頁圖像生成HTML代碼,通過將代碼轉換回圖像并與地面真實情況進行比較,專注于視覺保真度,而不是傳統的代碼級指標。Plot2Code [143]強調功能性和視覺準確性,通過整合傳統的代碼執行檢查與使用GPT-4v和詳細文本匹配指標的高級視覺評估,提供超出標準代碼通過率的全面評估。
指令遵循。此任務要求MLLMs生成嚴格遵循給定指令或指令的輸出。正如DEMON [144]所示,查詢輸入通常結合了定義目標和格式的任務指令,以及提供多模態上下文的特定任務實例。對于每個指令,VisIT-Bench [145]收集了指令條件字幕,這些字幕不僅提供圖像的一般描述,還強調與給定指令相關的特定信息。
幻覺。視覺幻覺(VH)[154]指的是在視覺問答期間模型生成關于圖像的錯誤細節的實例。這包括錯誤的前提、上下文不足和解釋視覺數據的挑戰,如基準測試HaloQuest [164]所捕獲的。此外,“我知道(IK)”幻覺[156]發生在模型提供錯誤答案時,適當的響應應該是“我不知道”,突出了MLLMs中不確定性識別的需要。CHAIR [232]通過測量模型響應中幻覺對象的頻率來評估幻覺。在此基礎上,AMBER [158]通過結合幻覺問題的精確度和召回率以及整體準確性,增強了評估,從而在生成和判別任務中提供了更平衡的評估。此外,MMECeption [153]提供了一種無需注釋的方法,通過多次迭代評估跨模態語義一致性,生成GC@T分數來量化模型的幻覺傾向。與此同時,IDK指標[156]關注模型識別和傳達不確定性的能力,如果包含預定義的IDK關鍵詞,則將響應標記為正確。Halr [162]旨在測量判別和生成任務中的幻覺頻率,確保在不同任務類型中保持一致的評估框架。此外,MediHall Score [174]引入了一個特定于醫療的評估指標,采用分層評分系統,考慮幻覺的嚴重性和類型,實現對其潛在臨床影響的細致評估。為了提高可信度并解決MLLMs中的幻覺,BEfore-AFter幻覺數據集(BEAF)[165]引入了四個關鍵指標:真理解(TU)、無知(IG)、固執己見(SB)和猶豫不決(ID)。TU評估模型是否正確回答了關于移除對象的問題,而IG在給出錯誤答案時測量無知。SB評估模型堅持初始答案的傾向,SBp和SBn表示一致的“是”或“否”響應。最后,ID跟蹤與移除對象無關的問題的答案的不必要變化。
安全性。安全性任務確保MLLMs的響應不會導致有害或非法的結果。對于毒性評估,它提供了輸入,如NSFW圖像(例如,暴力或露骨內容)與字幕查詢配對,以評估模型傾向于生成有害響應的趨勢[181]。對于越獄,它涉及測試模型對旨在繞過安全協議的提示的抵抗力(例如,帶有嵌入文本截圖的圖像詢問非法查詢),并衡量模型是否以不違反安全指南的方式適當響應[181]。具體來說,在RTVLM中,給定單個圖像和紅隊問題,MLLM被要求從安全回答、謹慎回答或拒絕回答中選擇。
可信度。真實性任務通過提供圖像與事實性或誤導性文本查詢配對的輸入來評估MLLMs,并評估它們響應的準確性[181]。具體來說,Shield [183]專注于面部反欺騙和面部偽造檢測任務,要求MLLMs根據不同模態(例如,RGB、深度圖、紅外圖像)的挑戰性輸入,準確識別真實與假面部。此外,它引入了多屬性思維鏈范式,通過分析多個屬性(例如,形狀、顏色、紋理)來增強推理,以實現更可靠和全面的決策。
健壯性。在MMR [185]中,MLLMs被給予圖像,并被要求回答正面問題以評估視覺理解,并回答誤導性問題以測試對欺騙性提示的健壯性,從多個選擇中選擇正確答案。至于偶然偏見,MM-SPUBENCH [189]中的任務通過呈現圖像和文本提示來評估MLLMs,其中兩個輸入都包含核心和偶然特征。根據模型的響應如何專注于本質的核心特征,同時忽略不相關、誤導性的偶然特征,評估其對跨模態偶然偏見的抵抗力。
4.2.2 面向模態的指標設計
- 僅文本。與第2.2節中提到的自由形式格式類似,它們通常應用傳統的圖像字幕指標,例如ROUGE和METEOR,以及基于LLM的評估[66]。
- 僅視覺。對于評估圖像生成質量,像Fréchet Inception Distance(FID)[239],Inception Score(IS)[240]和CLIP分數這樣的指標衡量與地面真實參考的視覺保真度和多樣性。為了評估風格一致性和重建準確性,采用了像結構相似性指數度量(SSIM)和峰值信噪比(PSNR)[66]這樣的指標。
- 跨模態。確保不同模態間內容一致性和敘事連貫性至關重要,這在交錯圖像-文本生成中被強調。評估如OpenLEAF [141],CoMM [66]和StoryStream [140]利用MLLMs評估圖像和文本之間的連貫性或一致性,通過檢查風格、實體、內容趨勢等。
5 應用
5.1 背景和分類
為了全面評估MLLMs的能力,基準測試必須超越一般任務,涵蓋各種應用。本節根據它們的應用導向重點對基準測試進行分類,提供MLLMs在不同領域和環境中的表現見解。
5.1.1 視覺智能體
- 交互式決策制定智能體。這些智能體處理視覺和文本輸入,以在不同平臺上執行實時任務。對于網絡平臺,像MIND2WEB [190],WebArena [192]和VisualWebArena [193]這樣的基準測試評估智能體在基于網絡的任務上的表現,重點關注導航和復雜內容互動。對于專注于移動平臺,像Ferret-UI [195]和Mobile-Eval [196],SPR [197]評估智能體與移動UI互動并僅基于視覺感知執行任務的能力。AITW [191]強調智能體在各種Android設備上理解和執行指令的能力。為了測試跨不同平臺的適應性,CRAB [194]強調跨環境的多功能性,確保在多樣化界面中的一致性能。
- 具身決策制定智能體。這一類別的智能體專注于感官輸入整合與現實世界行動,模仿類似人類的決策制定。MineDoJo [198]和PCA-EVAL [201]挑戰智能體在模擬環境中感知、推理和協調行動的能力。OpenEQA [200]和EgoPlan-Bench [199]專注于現實世界場景,而后者特別針對從第一人稱視角的人類水平規劃能力,要求長期任務跟蹤和高級視覺推理。全面地,VisualAgentBench [202]評估MLLMs作為視覺基礎智能體,專注于它們在復雜、現實世界環境和圖形界面中的多任務能力。
5.1.2 特定領域應用
- 醫療應用。醫療MLLMs旨在增強多個模態和專業中的診斷準確性和臨床決策制定。Asclepius [203]評估Med-MLLMs的診斷熟練能力,以匹配或超過人類水平的診斷推理,確保健壯和臨床有效的評估。M3D-Bench [204]推進了對MLLMs在3D醫學成像中的評估,突出了它們解釋和分析復雜空間數據的能力,這對于現代診斷至關重要。PubMedVision [205]和GMAIMMBench [206]增強了視覺和文本醫學知識的整合,推進了MLLMs通過準確解釋和跨模態推理支持臨床決策制定的能力。
- 機器人應用。機器人應用要求MLLMs有效整合多模態感知、推理和規劃,以適應動態環境。RoboVQA [208]通過處理視頻輸入增強機器人的視覺理解和決策制定能力,以執行復雜的現實世界任務,而MMRo [207]評估關鍵技能,如空間推理、任務規劃和安全意識,確保在安全關鍵場景中的有效任務執行。
- 設計應用。設計應用要求MLLMs綜合細粒度視覺元素與更廣泛的布局理解。DesignProbe [209]和PosterLLaVA [211]都評估MLLMs推理設計特征如顏色、字體和布局的能力,強調在生成內容感知、結構化設計中的適應性。此外,DesignQA [210]作為第一個零樣本基準測試,評估MLLMs在工程背景下綜合復雜多模態數據的熟練程度,專注于它們解釋視覺和文本信息的能力。
- 社交應用。它挑戰MLLMs解釋多模態輸入,整合社交、環境和行為線索。1) 社交媒體。在社交媒體背景下,MLLMs必須導航動態和多樣化的內容,要求對情感、錯誤信息和復雜的社交互動有先進的理解,如MM-SOC [212]所示。2) 交通。TransportationGames [213]評估MLLMs應用交通知識的能力,強調多模態理解、邏輯推理和決策制定。3) 自動駕駛。自動駕駛系統依賴于MLLMs進行空間推理和實時規劃,從多模態感官輸入,以NuScenes-QA [214]和DriveLM-DATA [215]為重點,專注于安全導航和類似人類的響應。4) 遙感。LHRSBench [216]評估MLLMs在解釋地理空間數據方面的能力,要求強大的空間推理和圖像識別,以理解復雜的環境背景。
5.2 多模態任務設計
應用基準測試通常包括與理解、推理和生成相關的任務,這些任務側重于不同的領域。因此,本節還涉及與多樣化應用能力相關的任務和指標。
交互式決策制定智能體。正式地,環境和智能體被建模為部分可觀察的馬爾可夫決策過程(POMDP):E = (S, A, ?, T)。其中智能體接收狀態st ∈ S的部分觀察ot ∈ ?,采取行動at ∈ A,并根據函數T : S × A → S轉換到新狀態,旨在完成像網頁導航或信息檢索這樣的任務。在WebArena [192]的基礎上,VisualWebArena [193]強調視覺定位,要求智能體解釋視覺數據,而不僅僅是依賴于文本或HTML線索。對于跨環境,CRAB [194]將任務定義為元組(M, I, R),其中M是一組環境,I是任務目標,R是獎勵函數。智能體的政策π((m, a) | (I, H, o1, ..., on))根據指令和觀察確定跨環境的行動,測試智能體的適應性和在多個平臺上的性能。由于傳統的目標基礎和軌跡基礎評估的限制,它們未能捕捉到增量進展,CRAB [194]引入了圖形評估器,通過跟蹤關鍵中間狀態,允許進行更細粒度的評估。它引入了完成率(CR),執行效率(EE)和成本效率(CE)等指標,分別評估任務進展、行動效率和資源使用。
具身決策制定智能體。在提供了概述任務目標的語言指令時,人類水平的規劃涉及根據視覺輸入確定下一個合適的行動[199]。這種視覺輸入由顯示過去幀的視頻序列組成,這些幀跟蹤任務進展,最后一幀代表當前的自我中心視圖。
機器人應用。對于MMRo基準測試[207]中的開放式問題,響應使用GPT-4 API進行評估。這種方法改編自LLM-as-Judge框架[225],進行了小幅調整。GPT-4V被要求提供判斷,將模型的響應分類為“A”(正確),“B”(錯誤)或“C”(不確定)。
自動駕駛。DriveLM-DATA [215]引入了圖形視覺問答(GVQA),其中推理任務被構建為問題-答案對內的有向圖,與傳統的自動駕駛視覺問答不同,GVQA利用問題-答案之間的邏輯依賴關系來增強回答過程。
6 數據集構建
由于不同類型的構建過程具有很強的共性,本節是一般介紹常見的數據集構建過程,包括數據集收集和質量控制。
6.1 數據集收集
數據集收集是訓練和評估MLLMs的關鍵步驟。該過程通常涉及多種方法,以確保數據集多樣化和代表性。
- 手工制作:這種方法涉及人工注釋或精心選擇的數據。有時,LLM生成的樣本可能引入偏差,人工努力可以確保高質量和客觀性[35]–[37]。此外,為了減少從公共數據集的數據泄露風險,通過新設計的問題或答案引入了人工注釋,這些可以反映真實世界的場景[32]。
- 自動化規則:應用自動化規則或算法以結構化的方式生成圖像或問答對。例如,VideoHIAN [69]設計了一個合成框架,通過針插入自動生成特定的查詢-響應對。
- 基于LLM的生成:利用LLMs生成問題或圖像數據,能夠有效創建大型數據集。例如,在問題生成中,LVLM-eHub [28]利用像GPT-4這樣的MLLMs,使用上下文學習策略創建正面和負面的視覺指令。同樣,對于圖像生成,SPEC [9]利用StableDiffusion-XL [241]生成具有單個對象的圖像,創建了一個專注的視覺數據集合。MileBench [56]利用DALLE-3 [242]生成隨機卡通風格的圖像針。
6.2 質量控制
質量控制對于確保用于訓練和評估MLLMs的數據集的可靠性和完整性至關重要。各種方法,從人工篩選到自動化過濾,幫助消除錯誤、冗余和不相關數據。
- 人工篩選:人工審查員手動評估數據的準確性、相關性和質量[34]–[37]。它通常用作LLM基于數據生成后的雙重檢查[30],[68]或作為反饋給LLMs的數據生成提示[30]。
- 基于規則的篩選:應用自動化基于規則的過濾應用結構化算法來清理和優化數據集。對于去重復:II-Bench [24]采用圖像相似性算法和OCR過濾重復和以文本為主的圖像。DenseFusion-1M [45]遵循SemDeDup [243],使用來自EVA-CLIP的圖像特征進行k均值聚類,根據設定的閾值移除每個聚類內語義重復的圖像。對于過濾NSFW圖像,一些基準測試[64],[66]使用基于4層多層感知器(MLP)的二元NSFW圖像分類器[244],該分類器在LAION-2B的NSFW數據集[245]上訓練,準確率達到97.4%。預測NSFW概率超過定義閾值的圖像被自動移除。
- 基于LLM的篩選:LLMs可以作為檢查員,確保視覺依賴性,并最小化數據泄露,并要求先進的多模態能力進行解決[46]。例如,一些基準測試直接將純文本問題輸入到多個MLLMs中。通過限制正確率,它們可以過濾與圖像無關的問題[35]–[37]。
7 未來研究方向
隨著我們進入多模態學習的未知領域,雄心勃勃但充滿希望的AI研究前沿將推動范式轉變。我們設想未來的多模態基準測試將包括多功能、以人為本、高效和無偏見的應用。鑒于此,我們提出以下研究方向,這些方向需要創建更動態、交互式和復雜的MLLMs:
任何模態到任何模態。目前,當前多模態基準測試中不同任務的輸入和輸出模態是嚴格預定的。例如,大多數情況下,任務可能要求處理文本和圖像作為輸入,并以文本標簽作為輸出。這種剛性安排與人類智能形成鮮明對比,在日常交流中,人類可以輕松適應不同種類的輸入和輸出模態。一個復雜的MLLM應該理想地容納任何模態的輸入和輸出;例如,它應該處理文本、圖像和語音輸入,并生成文本、圖像、語音甚至動畫。這種靈活性將反映MLLMs在多樣化真實世界環境中更通用和實用的能力。為此,未來的基準測試需要設計來支持和評估這種“任何到任何”模態轉換,作為下一代MLLMs的普遍挑戰和理想標準。
通用表示學習。當前基準測試通常針對特定任務量身定制,從而鼓勵模型為每種模態學習專門的表示。因此,跨所有模態的通用表示學習,這可以說是深度學習的最終目標之一,被擱置一邊。我們假設通過開發能夠學習和轉換跨所有模態的通用表示的MLLMs,將在基準測試和模型效率方面帶來重大好處。這將本質上要求模型無歧義且有效地理解和翻譯跨模態關系。追求這種粒度學習要求在多模態基準測試設計中進行范式轉變:促進模型探索多種模態之間的潛在統一性,從而促進它們學習一組普遍適用的特征的能力。
實時響應。大多數現有基準測試沒有考慮MLLMs響應的時間方面,通常忽略了對實時或至少快速響應的需求。然而,這種時間約束在各種真實世界應用中至關重要,從語音助手到自動駕駛汽車,高延遲簡單地使系統不可接受。為了強調及時性因素,基準測試應整合嚴格的時間約束,并相應地激發方法來加速推理過程。這反過來又會激勵研究,不僅在功能上健壯,而且在時間上高效的MLLMs,從而賦予這些模型以真實世界部署的可靠性。
人在環路(HITL)。當前的基準測試機制通常在隔離中評估AI模型,忽略了人類互動和合作這一不可或缺的部分。然而,為了實現最大效用,AI系統必須能夠與人類進行動態互動,在循環過程中學習,同時隨著時間的推移進行適應和改進。這需要實施HITL基準測試,在這些基準測試中,可以準確捕捉和評估人類行為的細微差別、實時協作決策和雙向通信挑戰。超越關鍵應用領域如對話代理,人機協作可能會揭示一個新的基準測試領域,而不是將AI視為一個孤立的實體,而是完全認識到它作為真實世界應用中的社會技術系統的一部分。
8 結論
本綜述系統回顧了211個多模態基準測試,將它們分類為理解、推理、生成和應用。盡管現有的基準測試顯著推進了MLLM發展,但任務飽和、目標不一致和指標不一致等挑戰仍然存在。解決這些問題被認為是創建更準確反映MLLMs能力和局限性的基準測試所必需的。我們的綜述旨在通過提供基準測試領域的清晰概述并建議未來方向,以實現更有效和全面的評估,為研究人員提供指導。
本文轉載自 ??旺知識??,作者: 旺知識
