成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

o3絞盡腦汁僅答對40%的題目,開源模型基本亂猜?MMSI-Bench:多圖空間智能試金石

人工智能 新聞
這一專為多圖像空間智能設計的MMSI-Bench由上海人工智能實驗室、香港中文大學、浙江大學、清華大學、上海交通大學、香港大學以及北京師范大學的研究者們共同完成。

AI能看圖,也能講故事,但能理解“物體在哪”“怎么動”嗎?

空間智能,正是大模型走向具身智能的關鍵拼圖。

面對1000道多圖推理題,開源大模型集體失守——準確率不到30%,甚至不如瞎猜!就連最強的OpenAI o3,也只答對了41%。

這一專為多圖像空間智能設計的MMSI-Bench由上海人工智能實驗室、香港中文大學、浙江大學、清華大學、上海交通大學、香港大學以及北京師范大學的研究者們共同完成。

圖片

多圖像空間智能VQA基準測試

MLLM在連接語言視覺、理解物理世界方面進展飛速,是通往具身AGI的關鍵。其中,空間智能(即理解物體位置、運動等空間關系的能力)至關重要,是自動駕駛、機器人導航與操作等應用的基礎。

然而,當前評估MLLM空間智能普遍存在一些問題:

  1. 單圖像局限多數僅考察單圖像內的簡單關系。
  2. 低估真實世界復雜性真實空間理解需跨多圖像追蹤、關聯實體。
  3. 多圖像覆蓋不足現有少數多圖像基準對空間智能的覆蓋既不全面也不深入。
  4. 模板化與合成數據依賴模板或合成場景限制了問題的多樣性與真實性。

因此,缺乏能檢驗真實多圖像推理的基準,就無法可靠衡量和提升MLLM的空間認知。為此,MMSI-Bench的提出正是為了彌補這一評測空白。

圖片

MMSI-Bench是一個用于評估MLLM多圖像空間推理能力的VQA基準,設計過程中重點考慮了空間理解的關鍵要素和數據質量的可靠性。

核心理念:人工主導的樣本構建

MMSI-Bench采用完全以人為中心的設計。六位資深3D視覺研究員投入超300小時,從12萬余張圖像中精選并構建了1000個高質量問答對。

每個問題均極具挑戰、答案無歧義,且必須整合多圖像信息解答。問題配有精心設計的干擾項和詳盡的步驟化標準推理過程,并經第二標注員嚴格審核,確保質量。

全面的任務分類:系統評估空間推理維度

圖片

為系統評估多圖像空間推理,MMSI-Bench圍繞相機/智能體、物體、區域三個基本空間元素及其位置關系、屬性、運動狀態構建了全面任務分類。共定義10種基礎空間推理任務和1種多步推理(MSR)類別:

  • 位置關系:相機-相機、相機-物體、相機-區域、物體-物體、物體-區域、區域-區域。
  • 屬性:測量(長度、大小等)、外觀(形狀等)。
  • 運動:相機運動、物體運動。
  • 多步推理 (MSR):整合基礎類型進行復雜順序推理。

除MSR外,其他類別問題均基于兩張圖像,專注核心的多圖像整合能力。

多樣化的數據來源:覆蓋真實世界場景

為確保評估的全面性和真實性,MMSI-Bench圖像全部源于真實的、多樣化的場景數據集,包括ScanNet,Matterport3D(室內3D場景),nuScenes,Waymo(自動駕駛),AgiBot-World(機器人),DAVIS 2017(視頻物體分割),Ego4D(第一人稱視角視頻)及DTU(局部場景重建)。這些豐富數據源使MMSI-Bench能構建覆蓋廣泛真實世界場景的問答對。

實驗結果揭示MLLM短板

圖片

作者在MMSI-Bench上對34個廣泛使用的MLLM(包括商業模型如o3,GPT-4.5,GPT-4o等,以及開源模型如Qwen2.5-VL,InternVL系列等)進行了全面評估。

主要發現包括:

  1. MLLM在多圖像空間推理上舉步維艱即便是最先進的MLLM也表現出顯著局限。多數模型平均分僅略高于25%的隨機猜測。表現最佳的商業模型OpenAI o3準確率僅41.0%,而人類高達97.2%,差距超56%,凸顯了MMSI-Bench的挑戰性?!八伎寄J健钡炔呗蕴嵘邢蓿懊ぱ跥PT-4o”(無圖像輸入)準確率近乎隨機,證明了任務對真實視覺空間推理的依賴。
  2. 先進開源模型仍落后于商業模型表現最佳的開源模型Qwen2.5-VL-72B平均準確率為30.7%,明顯落后于頂尖商業模型。
  3. 多步推理和相機運動理解是重災區多數模型在MSR任務上性能低于單步任務平均水平。尤其開源模型在相機運動任務上表現不佳,暗示MLLM理解自身運動的能力堪憂。
  4. 模型規模擴大增益有限同系列模型增加參數帶來的性能提升有限(如Qwen2.5-VL-72B僅比32B高3%)。這表明數據質量和多樣性可能是當前提升復雜空間推理能力的主要瓶頸,而非模型規模。
  5. 提示工程效果有限語言提示(如Zero-Shot CoT)和視覺提示(如PATS匹配)對性能提升甚微,甚至有負面影響,佐證了模型基礎空間理解能力的缺失。

為探究MLLM在多圖像空間推理上的瓶頸,作者對代表性模型(GPT-4o)的推理過程進行了細致的人工分析,歸納出四種主要錯誤類型:

  • 定位錯誤 (Grounding errors):未能正確識別或定位圖像中的關鍵物體或細節。
  • 重疊匹配與場景重建錯誤 (Overlap-matching and scene-reconstruction errors):無法識別和匹配不同圖像間的對應點,或難以基于此重建連貫場景。此為各類模型中最常見的錯誤。
  • 情境轉換推理錯誤 (Situation-transformation reasoning errors):在不同參考對象或相對/絕對方向間進行空間方向推理時出錯。
  • 空間邏輯錯誤 (Spatial-logic errors):純粹空間邏輯推理缺陷,如幻覺、錯誤應用傳遞性或選錯參照物。

這些錯誤分類清晰指出了當前MLLM在空間智能方面的具體短板。

MMSI-Bench每個問題均附帶高質量的人類標注推理過程,基于此,作者開發了一套自動化的錯誤分析流程,以高效、規?;卦\斷模型失敗原因。

該流程利用強大語言模型(如GPT-4o)作為評估器,結合基準問題、圖像、標準答案及MMSI-Bench提供的人類標注參考推理,判斷待評估模型推理過程的正確性,并從上述四種錯誤類型中識別關鍵錯誤。

此自動化錯誤分析流程的價值:

  • 有效性與標注的重要性:提供人類標注推理步驟時,自動化分析與人類專家判斷的匹配度達71.8%(若僅提供標準答案則降至53.6%),凸顯高質量標注對可靠自動化錯誤分析的關鍵作用。
  • 規?;\斷能力:可對眾多模型在全部MMSI-Bench問題上進行系統性錯誤歸因,為模型改進指明方向。
  • 關注“過程正確”:即便答案正確,推理過程也可能存在嚴重缺陷,強調了評估推理過程本身的重要性。

通過人工洞察與自動化工具的結合,MMSI-Bench不僅衡量模型表現,更深入探究失敗原因,為推動MLLM空間智能發展提供有力支持。

總結與展望

目前已有多個團隊在打造面向多模態大模型(MLLM)的空間智能評測,而MMSI-Bench具備以下特點:

  1. 專注多圖像空間智能:十個基礎任務都基于兩張圖片,進階多步推理任務會用到更多圖片。
  2. 高質量:所有題目均由人工精心設計:從選圖、出題,到干擾項設置與逐步推理標注,全流程把控。
  3. 貼近真實場景:圖片來自自動駕駛、機器人操作、場景掃描等真實環境;題目關注真實場景的理解與推理。沒有使用任何合成數據或者不貼合真實場景的問題。
  4. 評測全面且有挑戰:研究者評測了 34 個模型(幾乎涵蓋所有受眾廣的閉源和開源模型),發現模型與人類表現仍有巨大差距,多數開源模型僅相當于隨機猜測。這可能是目前模型-人類差距最大的基準評測。
  5. 完整推理過程:每個樣本都附帶人類標注的推理流程,可解釋答案正確性,也便于自動化定位模型錯誤。

MMSI-Bench作為專為多圖像空間智能設計的挑戰性綜合基準,通過對34個頂尖MLLM的評估,清晰揭示了其與人類水平的巨大鴻溝。希望MMSI-Bench能成為社區寶貴資源,推動開發空間感知更強、更魯棒的多模態AI系統,加速通往真正理解并與物理世界交互的AGI。

項目主頁: https://runsenxu.com/projects/MMSI_BenchArXiv

論文: https://arxiv.org/abs/2505.23764Hugging Face

數據集:https://huggingface.co/datasets/RunsenXu/MMSI-BenchGitHub

代碼庫: https://github.com/OpenRobotLab/MMSI-Bench

責任編輯:張燕妮 來源: 量子位
相關推薦

2018-02-07 09:05:27

區塊鏈特性優勢

2024-08-30 17:02:31

2020-09-17 14:35:50

運營商網絡覆蓋基站

2024-04-07 01:00:00

模型P圖

2025-05-28 11:43:48

多模態大模型RBench-V

2025-03-10 09:36:00

2013-10-14 09:38:21

虛擬化云計算

2025-04-23 08:30:05

2024-12-24 16:15:04

2015-09-17 09:01:26

創業智能硬件

2025-05-27 15:23:05

智能體訓練AI

2018-03-16 13:17:00

區塊鏈互聯網金融銀行

2010-08-09 17:23:57

IT外包

2025-05-28 00:00:00

2020-12-02 14:50:55

算法人圖片技術

2025-04-17 09:02:00

2019-04-29 14:37:11

虛擬化大數據服務器

2025-06-06 14:17:11

模型訓練AI

2025-04-21 08:22:25

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九热免费看 | 亚洲国产精品久久人人爱 | 国产三级精品三级在线观看四季网 | 国产精品国产a | 国产成人精品一区二区三区四区 | 伊人影院在线观看 | 日韩精品在线免费观看视频 | 国产一区二区在线看 | 久久的色| 亚洲一级毛片 | 欧美亚洲视频在线观看 | 成人在线免费视频 | 天天拍天天色 | 成人福利电影 | 操亚洲 | 欧美日韩在线视频一区 | 国产精品久久久久久久久久久久冷 | 亚洲夜射 | 精久久久久 | 国产精品久久久久久久久久久免费看 | 欧美国产精品一区二区 | 一级片免费在线观看 | 精品欧美激情精品一区 | 久久精品一区二区三区四区 | 老司机深夜福利网站 | 99精品视频一区二区三区 | 亚洲成av人影片在线观看 | 午夜精品久久久久久久久久久久久 | 日韩最新网址 | 最新黄色毛片 | 91动漫在线观看 | 日本网站在线看 | 成人一区在线观看 | 午夜精品一区二区三区在线视频 | 亚洲精品一区二区久 | 欧美一区二区三区大片 | 一级毛片在线看 | 99热首页 | 一区免费观看 | 日韩国产精品一区二区三区 | 午夜在线精品 |