成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率低至55%

人工智能
新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%。

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

圖片圖片

它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源。

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。

圖片圖片

為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。

圖片圖片

具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋:

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度:

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計:

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。

圖片圖片

實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%) vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。

圖片圖片

“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。

圖片圖片

知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。

圖片圖片

參賽鏈接:https://www.codabench.org/competitions/7925/

挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challengeICML workshop

主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099項目主頁:https://github.com/SeePhys/seephys-project

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-06-18 08:49:00

模型系統AI

2023-11-07 18:08:03

GPT-4模型

2023-01-02 17:22:45

英文版動機程序員

2025-05-21 08:47:00

2025-06-10 09:10:00

2022-02-07 09:05:00

GitHub功能AI

2019-12-09 08:29:26

Netty架構系統

2024-01-30 21:18:57

語言模型圖像序列機器人

2022-12-12 07:40:36

服務器項目Serverless

2019-10-24 08:56:38

語言代碼Java

2023-06-30 08:01:04

Reactuse關鍵詞

2022-07-26 14:38:08

JavaScriptWeb安全自動化

2021-12-09 11:59:49

JavaScript前端提案

2022-06-16 14:07:26

Java代碼代碼review

2020-03-30 16:45:06

代碼看不懂

2022-01-05 09:40:03

DIff算法前端

2025-02-13 09:40:00

2020-10-19 08:41:21

UML類圖HashMap

2020-03-06 11:30:08

JavaGitHub編程

2021-02-23 10:36:09

Linux命令kmdr
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品久久久久久中文字 | 黄色在线观看网址 | 伊人精品 | 欧美a在线观看 | 欧美在线视频一区二区 | 亚州一区二区三区 | www.久久久久久久久 | 美女午夜影院 | 国产精品96久久久久久 | 亚洲一区二区中文字幕在线观看 | h视频在线播放 | 精品在线免费看 | 高清国产一区二区 | 美女黄色在线观看 | 可以看黄的视频 | 色婷婷综合久久久中字幕精品久久 | 日韩成人在线视频 | 亚洲一区二区三区免费在线观看 | 亚洲视频三 | 国产高清在线精品 | 欧美日韩视频网站 | 国产欧美精品一区二区 | 国产免费一区 | 七七婷婷婷婷精品国产 | 国产精品三级 | 久久久精彩视频 | 九九九视频在线观看 | 欧美午夜一区 | 成人h动漫亚洲一区二区 | 日韩午夜在线播放 | 中文在线www | 色一情一乱一伦一区二区三区 | 成年网站在线观看 | 久久中文字幕一区 | www.久| 精品九九久久 | 奇米av| 久久99精品国产 | av电影一区二区 | 亚洲精品片 | 亚洲国产成人av好男人在线观看 |