成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

小學數(shù)學題,大模型集體不及格!達摩院推出新基準VCBench

人工智能 新聞
來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態(tài)數(shù)學推理任務而設計的綜合基準。

大模型做數(shù)學題的能力很強,可是它們真的能夠理解基本的數(shù)學原理嗎?

拿小學生的數(shù)學題進行測試,人類平均得分為93.30%,而大模型的表現(xiàn)讓人意外:

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)的綜合表現(xiàn)最佳,但仍未突破50%準確率。

why?

因為大模型可能并不能真正理解基本數(shù)學元素和視覺概念。

現(xiàn)有的視覺數(shù)學基準測試主要集中在知識導向的評估上,容易受到大型語言模型中預先嵌入的知識的影響。

上述結(jié)論來自達摩院推出的新基準VCBench——這是一個專為評估具備顯式視覺依賴性的多模態(tài)數(shù)學推理任務而設計的綜合基準。

該基準主要面向小學 1-6 年級的數(shù)學問題,即并不涉及復雜的數(shù)學或幾何推理,但高度依賴于顯式的視覺依賴性的問題。

解決這種問題,需要模型識別和整合圖像中的視覺特征,并理解不同視覺元素之間的關系。

圖片

△論文標題:Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

VCBench現(xiàn)已全面開源,代碼可見文末。

強調(diào)vision-centric而非knowledge-centric

與以往側(cè)重知識評估的基準不同,VCBench更強調(diào)視覺為核心的評測。

它主要針對無需專業(yè)知識、而是依賴于對數(shù)學圖像和概念的常見感知推理的問題。

這種方法與兒童的學習路徑相符——他們首先掌握的是視覺推理能力,隨后才逐步獲取領域特定的知識

圖片

聚焦多圖推理

VCBench聚焦于多圖(interleave)的問題輸入形式,每個問題平均包含3.9張圖像,顯著高于現(xiàn)有的多圖Benchmark。

這種設計要求模型能夠顯式地整合來自多幅圖像的視覺線索,并推理這些元素如何相互作用,這更符合現(xiàn)實世界中的情境——信息往往分散在多個視覺輸入之中

圖片

全面評估純視覺推理的多種能力

VCBench全面地評估了純視覺推理的多種能力,涵蓋了六大核心認知領域:時間與日歷空間與位置感幾何與形狀物體與運動推理與觀察以及組織與模式

此外,它還評估了五種不同的認知能力:時間推理幾何推理邏輯推理空間推理以及模式識別

圖片

綜合實驗分析結(jié)果

在VCBench的綜合實驗測試中,人類平均得分93.30%,顯著優(yōu)于所有AI模型,表明當前任務對人類而言可解,但對AI系統(tǒng)仍具挑戰(zhàn)性;

閉源模型中Gemini2.0-Flash(49.77%)、Qwen-VL-Max(47.03%)、Claude-3.7-Sonnet(46.63%)表現(xiàn)最佳,但仍未突破50%準確率;

開源模型表現(xiàn)整體趨勢低于閉源模型,且表現(xiàn)參差不齊,可能與架構(gòu)差異、多模態(tài)整合程度或訓練數(shù)據(jù)質(zhì)量有關;

大模型在推理、找規(guī)律一類問題上表現(xiàn)較好,但在空間幾何表現(xiàn)很差,說明在由小學數(shù)學題構(gòu)建的評測基準中,大模型的邏輯推理能力是過剩的,但是視覺和幾何感知則嚴重不足。

圖片

單圖實驗對照結(jié)果

VCBench的一個核心目標是評估模型多圖像依賴的推理能力,但為了驗證模型是否真正具備跨圖像組合推理(compositional reasoning)而非依賴單圖優(yōu)化,需引入單圖實驗作為對照。

如下圖所示,將文字和圖片整合成一張大圖。

圖片

單圖和多圖結(jié)果對比表明,除專為多圖設計的模型外,大多數(shù)模型在單圖場景下表現(xiàn)顯著優(yōu)于多圖(平均提升42.3%)。

例如,Emu2-Chat單圖性能飆升281.5%,Qwen-VL-Max提升21.3%,說明常規(guī)模型更擅長從孤立圖像提取信息,但缺乏跨圖像關聯(lián)和時序推理等關鍵能力。

圖片

思維鏈(CoT)對模型性能的影響分析

VCBench團隊在三個閉源模型上對比了加入CoT以后對模型性能的影響,得到如下結(jié)論:

1、在需要多步邏輯推理的任務中(如模式識別、幾何推理),CoT能帶來顯著性能提升(如Qwen-VL-Max在reasoning任務上提升40%),說明通過顯式分解推理步驟,幫助模型更好地整合視覺和語言信息,減少邏輯跳躍錯誤。

2、效果具有任務依賴性:對感知型任務(如日歷讀取、方向判斷)效果有限甚至產(chǎn)生干擾。這類任務更依賴直接視覺感知而非分步推理,CoT的中間步驟反而可能降低效率。

圖片

錯誤類型分布分析

錯誤類型可分為以下5種:

  • 視覺感知錯誤:模型對視覺內(nèi)容的誤讀或未能準確感知;
  • 計算錯誤:算術計算過程中的失誤;
  • 上下文誤讀:模型錯誤解讀文本內(nèi)容;
  • 邏輯錯誤:推理過程中的出錯;
  • 答案整合錯誤:未能直接回答問題或提供多個相互沖突的答案。

VCBench團隊對四個頂尖模型的所有錯題進行了手動錯誤分類,從而能夠精準識別每個模型在不同錯誤類別中的相對弱點。

圖片

通過分析,得到了如下結(jié)論:

1、視覺感知錯誤在所有模型中占比最高,是當前多模態(tài)模型最薄弱的環(huán)節(jié)。所有模型的視覺感知錯誤占比均超過50%,其中Gemini2-Flash高達62%。這表明基礎視覺理解能力仍是當前多模態(tài)模型的主要瓶頸。

2、計算錯誤(4-7%)和上下文誤解錯誤率普遍較低(3-6%),其中Gemini2-Flash(3%)和Claude(4%)表現(xiàn)最佳,而QVQ(6%)略高,可能反映其存在過度推理傾向。

3、邏輯推理能力在不同模型之間存在顯著差異。Claude的邏輯錯誤率最高(33%),這反映了其推理穩(wěn)定性在本基準中欠佳。

4、答案整合方面,GPT-4o的答案整合錯誤率最高(23%),可能因其探索性推理產(chǎn)生多個答案而犧牲了響應規(guī)范性。

論文鏈接:http://arxiv.org/abs/2504.18589數(shù)據(jù)倉庫:https://huggingface.co/datasets/cloudcatcher2/VCBench代碼:https://github.com/alibaba-damo-academy/VCBench網(wǎng)頁:https://alibaba-damo-academy.github.io/VCBench/

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-07-05 09:57:11

2018-06-07 10:34:22

開源DFSMN語音識別

2024-07-16 13:24:38

2025-05-30 09:17:00

2022-04-12 14:36:58

達摩院訓練模型

2023-06-06 14:16:06

ChatGPTAI

2010-04-20 21:48:48

2011-12-14 20:23:31

HTC

2025-03-11 13:49:20

2025-02-08 14:10:00

模型系統(tǒng)AI

2023-06-15 13:45:41

模型AI

2024-11-12 09:14:52

2017-04-11 09:33:12

JS面試題應聘者

2021-01-13 12:39:46

科技趨勢電子器件量子霸權(quán)

2025-04-18 09:13:00

2025-06-10 09:10:00

2023-01-11 12:48:48

AI研究

2024-08-07 14:40:00

AI數(shù)據(jù)

2023-06-08 11:45:50

模型語言

2023-08-14 07:20:10

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰97人人人人人蜜桃 | 狠狠综合久久av一区二区老牛 | 日本一区二区高清不卡 | 久久精品一级 | 在线免费视频一区 | 亚洲精品在线免费观看视频 | 一区二区三区免费在线观看 | 蜜臀久久99精品久久久久野外 | 中文字幕第一页在线 | 精品视频在线播放 | 水蜜桃久久夜色精品一区 | 99精品视频在线 | 天天色影视综合 | 精品国产乱码久久久久久图片 | 夜夜骚| 久久人体视频 | 欧美激情精品久久久久 | 久久精品久久久久久 | 性色视频在线观看 | 国内激情av片 | 日韩精品一区二区三区免费观看 | 亚洲日本欧美日韩高观看 | 午夜视频一区二区 | 国产精品毛片一区二区三区 | 中文字幕一级毛片视频 | 精品国产乱码久久久久久影片 | 一区二区亚洲 | 中文字幕精品一区二区三区精品 | 日韩欧美国产精品一区二区三区 | 精品国产免费人成在线观看 | 午夜精品久久久久久久99黑人 | 欧美久久一区二区三区 | 9191在线播放| 视频在线亚洲 | 在线观看免费av网 | 久久久91精品国产一区二区精品 | 四虎网站在线观看 | av在线一区二区三区 | www日本在线观看 | 精品视频一区二区三区在线观看 | 日日躁狠狠躁aaaaxxxx |