成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

識別高分低能,綜合性視覺語言理解新基準,五項挑戰評估多模態模型的推理能力

人工智能 新聞
JourneyBench是一種全新的多模態理解和推理的基準,用于測試模型在各種任務中對不尋?;蛱摌媹D像的理解能力,包括多模態鏈式數學推理、多圖像VQA視覺問答、非常見和虛幻圖像的描述、側重幻覺的視覺問答以及細粒度的跨模態檢索。

多模態模型在學術基準測試中獲得高分,到了真實世界應用時卻表現不及預期,該如何分辨?

新的綜合性視覺語言理解基準JourneyBench,利用基于diffusion模型提示生成的圖像,并采用一種新穎的人機閉環框架,通過五項具有挑戰性的任務來評估多模態模型的推理能力:

  • 多模態鏈式數學推理 (Multimodal Chain-of-Thought)
  • 多圖像視覺問答 (Multi-image VQA)
  • 細粒度跨模態檢索 (Fine-grained Cross-modal Retrieval)
  • 包含幻覺觸發的開放式視覺問答 (VQA with Hallucination Triggers)
  • 非常見圖像的描述 (Unusual Image Captioning)

JourneyBench由哥倫比亞大學、弗吉尼亞理工和加州大學洛杉磯分校的團隊提出,是Google Deepmind的多模態(Gemini)團隊提出的HaloQuest, ECCV 2024的衍生工作。

HaloQuest的第一作者聯合哥倫比亞大學、弗吉尼亞理工和加州大學洛杉磯分校構建了一個綜合性的視覺語言理解的訓練以及評價基準JourneyBench。

團隊認為盡管現有的視覺語言理解的評價基準推動了顯著進展,但它們通常包含有限的視覺多樣性,并且場景的復雜性低于日常生活中遇到的情況:

  • 許多基準因互聯網圖片的版權限制,將其圖像分布限制在像COCO或Flickr這樣的平臺和資源中。
  • 這些基準往往限制于日常常見的物體和場景,而非罕見甚至微抽象的場景。
  • 這些基準的過分同質化的數據在模型的預訓練中也多有出現,模型很容易通過學習到的偏見在測試中表現優異,但不一定真正理解圖像內容。

這種偏見、偏差可能會在學術基準測試中提高分數,但在過渡到真實復雜的世界應用時卻會帶來顯著挑戰。 

此外,用于評估多模態鏈式數學推理的基準常常包含冗余的視覺內容(即視覺信息并不需要,模型就可以回答問題的內容)。當前的多模態鏈式數學推理基準也未能充分解決其他的關鍵問題,例如幻覺現象和預測一致性。在檢索任務的基準測試中,模型的性能接近人類水平,難以區分不同模型。這種性能飽和部分是由于現有檢索基準缺乏細粒度的細節,對當今強大的模型缺乏足夠的挑戰性。 

基于diffusion模型的提示生成的圖像近些年興起,這為創造更具挑戰性和全面的多模態基準提供了獨特的機會。與真實圖像不同,這些生成的圖像避免了版權問題,并提供了多樣化的視覺內容,從而能夠設計更具挑戰性和注重細微差別的測試場景。

  • 生成圖像可以結合罕見的概念,例如“馬卡龍上的大象”,這在傳統數據集中極為罕見,但對于評估模型對視覺概念的真實理解至關重要。例如,COCO中包含的對象關系在常識數據庫ConceptNet中占68%,而我們收集的生成圖像中僅占6%。
  • 此外,隨著生成圖像變得越來越逼真,并在網上大量涌現,將其納入基準以評估模型理解和解釋多樣化視覺場景的能力將變得日益重要。
  • 通過利用基于提示生成的圖像,可以克服現有基準的局限性,提供更好的可控性和視覺內容多樣性。這種方法能夠嚴格測試模型的幻覺傾向、一致性,以及在各種不可預測環境中有效運行的能力。

數據介紹

JourneyBench用五項多模態理解任務測試模型在罕見場景中的推理應用能力:

非常見圖像的描述 (Unusual Image Captioning)

圖像描述是VLU基準測試中的標準任務,JourneyBench旨在測試模型理解和描述虛構圖像的能力。為了利用基于提示生成的圖像進一步推動 VLU 評估的邊界,并測試現有模型在之前評估工作中被忽略的能力,JourneyBench特別關注虛構圖像。被測試模型需要生成一句話的圖像描述,突出使其成為虛構圖像的元素。

細粒度跨模態檢索 (Fine-grained Cross-modal Retrieval)

跨模態檢索是許多基準中包含的一項基礎性多模態理解的任務。給定一張圖像,其目標是檢索匹配的文本,反之亦然。然而現在有的擴模態檢索缺乏樣本為中心的干擾選項,致使模型只需關注圖像之間的整體不同而非object-level的細粒度的不同。

多模態鏈式數學推理 (Multimodal Chain-of-Thought)

在多模態鏈式數學推理任務中,輸入由一張圖像和一個問題組成,兩個模態的信息絕不重合并且強制互補,要求模型整合來自兩種模態的信息來進行鏈式的數學推理。JourneyBench不單單檢測最終答案的準確性,也會評審答題思路的準確性。

多圖像視覺問答 (Multi-image VQA)

該任務要求模型在視覺問答中對多張圖像進行推理。然而,由于真實圖像資源有限,現有數據集主要測試模型的基本能力,例如顏色匹配、圖文匹配和物體計數。相比之下,JourneyBench 評估三個特定的能力且延伸到更有挑戰性的推理類別,比如:第一次提出多圖片的多模態算術推理、將外部知識應用于視覺推理以及識別多模態因果關系。這是目前最大的多圖片視覺問答數據資源。

包含幻覺觸發的開放式視覺問答(VQA with Hallucination Triggers)

基于之前HaloQuest的工作,JourneyBench也包含了容易從三種模態(文字,圖片和外部知識)來觸發模型進行幻覺的問題。這些問題都圍繞著基于diffusion模型提示生成的各種非常見圖像。該任務包含三個類別的問題,對應著三種觸發模態,旨在觸發模型的幻覺:帶有錯誤前提的問題(幻覺觸發存在于語言模態)、詢問挑戰性視覺細節的問題(幻覺觸發存在于視覺模態)和最后缺乏足夠上下文以進行準確解釋的問題(幻覺觸發存在于外部知識)。

數據樣本如下圖所示:

非常見圖像的描述 (Unusual Image Captioning)

圖像描述是多模態理解基準測試中的標準任務,JourneyBench測試模型對非常見圖像的理解和描述能力。

為此,我們要求模型生成一句話的圖像描述,突出點出使該圖像顯得非常見甚至虛構的元素。非常見甚至虛構的圖像與現有基準中的真實圖像有很大不同,JourneyBench將其定義為描述不尋常視覺組合或現實中不可能存在的虛構場景的生成圖像。如果我們分析視覺元素和關系在ConceptNet中的存在比例,COCO數據集中的對象和關系在ConceptNet中有68%的匹配率,而JourneyBench的生成圖像中這一比例僅為6%。

細粒度跨模態檢索(Fine-grainedCross-modalRetrieval)

在MS-COCO和Flickr30K等流行的跨模態檢索基準上。這些基準主要涉及真實圖像,且重點是整體區分圖像和文本的配對。然而,為了使模型能夠準確檢索相關內容,能夠在細粒度層面區分圖像-文本配對至關重要。為了挑戰模型在類似圖像中進行細粒度區分的能力,JourneyBench用對抗性人機閉環框架,為每個查詢樣本創建特定的干擾項,即需要細粒度辨別才能克服的難負樣本。

JourneyBench通過多輪注釋和一致性檢查進行質量保證,以防止出Falsepositive報或Falsenegative。目前領域中常用的數據集通常面臨諸如不一致、FP/FN、模糊性等問題,如下圖所示。這主要源于從原始描述數據集中抽樣的過程。盡管已經有一些努力試圖糾正這些準確性問題,但這些嘗試卻無意中引入了原始數據集中不存在的誤報。JourneyBench的標注過程以及生成圖片自身的多樣性使得上述問題極少存在于樣本中。更高質量的數據使得JourneyBench對模型性能的測試更準確。

多模態鏈式數學推理(Multimodal Chain-of-Thought)

現有的多模態鏈式數學推理數據資源(如MathVista和ScienceQA)通常包含冗余的視覺信息,使得模型僅通過語言輸入就能回答問題。與MathVista和ScienceQA等多模態推理數據不同,在JourneyBench的多模態數學推理中,視覺信息和文本信息是嚴格確認沒有任何重疊信息的,而且是互補的,以確保模型在鏈式數學推理過程中必須從兩種模態中獲取信息才能夠正確解題。

多圖像視覺問答(Multi-imageVQA)

最近,有少數多圖像視覺問答基準被提出,要求模型在VQA視覺問答中對多張圖像進行推理。然而,由于真實圖像資源的有限性,現有數據集主要測試基本能力,例如顏色匹配、圖像-文本匹配和物體計數。相比之下,JourneyBench的多圖像VQA任務拓展了三個具體且更具有挑戰性的推理類別:多圖片算術推理、多圖片的將外部知識應用于視覺的推理,以及多圖片的因果關系的識別。

包含幻覺觸發的開放式視覺問答(VQAwithHallucinationTriggers)

基于Haloquest,JourneyBench也包含了包含幻覺觸發的開放式視覺問答。這個任務是第一次在多模態理解和推理任務重系統的分析了幻覺的觸發形式,特別是很橫跨文字、視覺和外部知識三個模態,找到了對應的三種幻覺觸發模型。這個任務也利用了人機閉路方法收集了問題以及非常見甚至虛幻場景的圖片。為了讓這個任務更有通用性,它結合GoogleDeepmind開發了一款開放性的VQA視覺問答的評價機制,并且證明了其和人體評價的相似性。這個任務第一次提出了用diffusion模型生成的圖片來幫助模型進行挑戰性的評價甚至訓練的范式,并且通過實驗證明了這個范式的可行性。其工作進一步證明了,HaloQuest的訓練數據配合著instructiontuning也能有效的改善現有大模型的幻覺行為。

實驗與分析

研究選取了共21個多模態模型用以不同任務的實驗分析,其中包括:

  • 跨模態檢索模型:ALBEF、CLIP
  • 開源通用模型:MiniGPT4、mPLUG
  • 開源多圖像模型:VILA、Idefics2、Mantis
  • 閉源模型:GPT-4V、GPT-4o

研究發現:

1. 模型在區分細粒度視覺細節方面存在困難。在JourneyBench中的檢索分數低于MS-COCO和Flickr30k,表明模型在從我們數據集中檢索文本和圖像時面臨更大的挑戰。

2. 模型對非常見以及虛構的視覺場景并不適應。大多數模型在JourneyBench上的表現遠遜于在其他圖像描述數據集上的表現,其中大部分模型的CIDEr得分低于30。

3. 跨模態算術推理中具有挑戰性。除GPT和LLaVA外,大多數其他模型得分低于10%。值得注意的是,GPT-4V和GPT-4o在包含眾多物體的視覺環境中,在一致性、幻覺和跨模態方面表現不佳。

4. 多張圖像的跨模態問答極具挑戰性??傮w來看,各種模型在JourneyBench中跨多張圖像問答時遇到了極大的困難,特別實在多圖像的夸模態數學推理,外部知識的推理問答和因果關系的判別。

現有的VLMs視覺和語言的多模態模型在幻覺問題上表現不佳,顯示出較高的幻覺率。這一結果表明模型能力存在顯著不足,并突出了需要有效的幻覺緩解方法。此外,模型規模的增加并不一定代表能提高其對幻覺的抵抗能力。

結論

JourneyBench是一種全新的多模態理解和推理的基準,用于測試模型在各種任務中對不尋?;蛱摌媹D像的理解能力,包括多模態鏈式數學推理、多圖像VQA視覺問答、非常見和虛幻圖像的描述、側重幻覺的視覺問答以及細粒度的跨模態檢索。JourneyBench的任務使之前所有測試過的高評分模型在評估中得分持續較低,突顯出其不尋常或虛構圖像的主題、策略性設計的干擾項、引發幻覺的問題以及需要跨模態共指的問題所帶來的挑戰。這使得JourneyBench成為評估先進多模態視覺和語言模型MM-LLMs能力的理想工具,推動這些模型在理解和解釋能力上的極限。

https://journeybench.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-03-04 17:18:53

技術管理CTO

2025-05-21 08:47:00

2025-05-23 08:47:00

2024-08-08 13:04:28

2024-06-17 18:06:17

2024-08-05 08:46:00

模型測評

2024-09-18 08:15:00

模型數據AI

2024-06-12 11:50:23

2025-05-28 11:55:28

模型AI評估

2024-07-05 15:06:00

2025-04-28 14:04:03

Gemini模型AI

2013-11-04 14:56:17

IT

2024-10-30 15:00:00

AI視頻模型

2025-01-16 08:40:00

2025-06-10 03:30:00

2025-04-07 02:33:00

GPT-4.5GPT-4oAI

2022-03-30 16:02:46

風險分析網絡風險行為風險

2024-03-25 12:40:19

訓練模型

2024-07-23 10:34:57

2024-12-30 12:39:29

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产日韩一区二区三免费高清 | 久久四虎 | 亚洲国产成人精品久久久国产成人一区 | 精品久久久久一区二区国产 | 国产乱肥老妇国产一区二 | 国产精品毛片无码 | 色视频在线观看 | 黄色av网站在线观看 | 成人免费观看网站 | 青青草国产在线观看 | 色888www视频在线观看 | 国产欧美在线观看 | 野狼在线社区2017入口 | 一区二区三区在线播放视频 | 久久高清| 免费xxxx大片国产在线 | a级大片免费观看 | 国产最新网址 | 亚洲va欧美va天堂v国产综合 | 欧美成人第一页 | 2018国产精品 | 日韩伦理一区二区 | 日韩视频在线一区二区 | 99这里只有精品视频 | 亚洲视频免费在线观看 | 亚洲h视频 | www.887色视频免费 | 日韩中文一区二区三区 | 亚洲国产精品久久人人爱 | 天堂免费看片 | 亚洲成人免费在线 | a级免费观看视频 | 人人干人人看 | 日韩欧美一区二区三区免费看 | 黄片毛片免费看 | 精品国产一区探花在线观看 | 国产 亚洲 网红 主播 | 天天久久 | 中文字幕一二三区 | 成人a视频在线观看 | 精品久久久久久 |