AI能看懂圖像卻算不好距離，上交時間-空間智能基準難倒9大頂尖多模態模型

作者：量子位 2025-04-15 12:14:10

上海交通大學聯合中國地質大學、南洋理工大學、智源研究院以及斯坦福大學的研究團隊推出首個多模態大模型（MLLM）時空智能評測基準STI-Bench（Spatial-Temporal Intelligence Benchmark），向當前最先進的多模態大語言模型發起了關于精確空間時間理解的嚴峻挑戰。

多模態大語言模型（MLLM）在具身智能和自動駕駛“端到端”方案中的應用日益增多，但它們真的準備好理解復雜的物理世界了嗎？

結果顯示，即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等當前最強的多模態大模型，在需要定量分析真實世界空間關系和動態變化的任務上，表現并不盡人意。

從語義理解到時空智能

MLLM在視覺語言理解上成就斐然，并被寄望于成為具身智能和自動駕駛的“端到端”解決方案。但這要求模型超越傳統的語義理解，具備精準的時空智能。

試想AI應用場景中的需求：

自動駕駛： 需知曉與前車的精確距離（米）、行人過馬路的速度（米/秒）、安全過彎的車速限制等。
機器人操作：需判斷目標物體的尺寸位置（毫米級）、物體間的空間布局、高效的抓取路徑與速度。

這些任務的核心是定量化的空間-時間理解能力，而這恰恰可能是當前大模型能力的薄弱環節。STI-Bench正是為了系統評估這一關鍵能力而生。

STI-Bench：”時空智能”的全面基準測試

與現有側重語義的評測不同，STI-Bench直接采用真實世界視頻作為輸入，聚焦于精確、量化的時空理解，旨在評估模型在真實應用場景中的潛力。

基準構建

數據來源包括300多個真實世界視頻，覆蓋三類典型場景：桌面操作（毫米級）、室內環境（厘米級）、戶外場景（分米級）。

評測任務共八項，分屬兩個維度。第一類是靜態空間理解，包括：（1）尺度度量，評估物體大小和物體之間的距離；（2）空間關系，理解物體的相對位置關系；（3）3D視頻定位，預測物體在三維空間中的位置框。第二類是動態時序理解，包括：（4）位移與路徑長度，判斷物體運動距離；（5）速度與加速度，分析物體運動的快慢及其變化趨勢；（6）自我中心方向，估計相機的旋轉角度；（7）軌跡描述，概括物體運動路徑；（8）姿態估計，識別相機或物體在運動過程中的姿態變化。

此外，該數據集還包含2000多對高質量問答（QA），所有問答基于精確標注計算真值，采用GPT-4o生成多樣化問題與答案，并經過多輪人工審核與校準，確保問答內容準確、語言合理、且與對應場景的精度需求高度匹配。

實驗結果

研究團隊對當前最先進的多模態模型進行了全面評測，包括最強的專有模型（GPT-4o、Gemini-2.0-Flash、Gemini-2.5-Pro、Claude-3.7-Sonnet）和知名開源模型（Qwen2.5-VL-72B、InternVL2.5-78B、VideoLLaMA 3等）。

評測結果令人感到擔憂：

整體表現不佳：表現最好的Qwen2.5-VL-72B和Gemini-2.5-Pro也僅不到42%的準確率，僅比隨機猜測(20%)高一些，距離實際應用所需的可靠性還有天壤之別。

定量空間任務成”重災區”：

尺度度量：最高僅34.2%（Gemini-2.5-Pro）
位移路徑長度：最佳成績不到33%
速度與加速度：最高僅36.9%

場景差異明顯：

所有模型在戶外場景表現相對較好（最高約50%）
在對精度要求更高的室內場景和桌面環境中普遍下降（均低于40%）

開源模型嶄露頭角：

Qwen2.5-VL-72B不僅贏過所有開源對手，甚至擊敗了所有專有模型，為開源社區帶來振奮。

錯誤原因分析

為了揭示大模型在空間-時間理解上失敗的根本原因，研究者對Gemini-2.5-Pro在各個場景下各類任務的思考過程進行了詳細錯誤分析，發現了三大核心瓶頸：

1. 定量空間屬性不準確模型往往難以通過單目視頻準確估計視覺輸入中物體的空間屬性，如尺寸、距離，以及無法從視頻中推斷3D信息，影響了所有需要精確空間測量的任務。

2. 時間動態理解缺陷模型在理解隨時間變化的跨幀信息方面表現不佳，難以準確計算和描述運動特征如位移、速度和軌跡。尤其難以區分物體運動與相機運動，這些問題源于跨幀信息整合困難和物理先驗的缺失。

3. 跨模態整合能力薄弱模型無法有效結合理解文本指令與視覺內容，整合非視覺數據與視覺信息。這導致對時間約束的誤解、給定初始條件等使用不當，以及結構化數據，如坐標、姿態等與視覺元素的正確關聯，影響所有依賴多模態信息的任務。

這些問題直指當前MLLM在精準的空間-時間理解上的能力缺陷，也為未來研究指明了方向。

總結

STI-Bench的結果清晰地揭示了當前多模態大模型在精確空間-時間理解方面的嚴重不足。只有當MLLM掌握了可靠、精確的空間-時間理解能力，它們才能在具身智能和自動駕駛等領域發揮真正的價值，邁出從虛擬世界到物理世界的關鍵一步。

STI-Bench的發布，為評估和改進MLLM的空間-時間理解能力提供了一個新的基準和“試金石”，有望引導研究人員更深入地探索解決方案。

目前，該項目的論文、代碼、數據等已經開源。

論文鏈接： https://arxiv.org/pdf/2503.23765
論文主頁： https://mira-sjtu.github.io/STI-Bench.io/
Github： https://github.com/MIRA-SJTU/STI-Bench
Huggingface： https://huggingface.co/datasets/MIRA-SJTU/STI-Bench

責任編輯：張燕妮來源：量子位

模型 AI 圖像

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看