多模態模型具備“物理推理能力”了嗎?新基準揭示:表現最好的GPT-o4 mini也遠不及人類!
表現最好的GPT-o4 mini,物理推理能力也遠不及人類!
就在最近,來自香港大學、密歇根大學等機構的研究人員補齊了現有評估體系中的一處關鍵空白——
評估多模態模型是否具備“物理推理能力”。
物理推理,即模型在面對真實或擬真的物理情境時,能否綜合利用視覺信息、物理常識、數學建模進行判斷和預測,被認為是通向具身智能的關鍵能力。
但這一能力在現有評估體系中仍是空白。
對此,研究人員構建了PhyX(Physical Reasoning Benchmark),首個專門面向多模態大模型物理推理能力的大規模基準測試。
PhyX包含3000道題目,涵蓋6大物理學科(力學、電磁、熱學、光學、波動、現代物理),25個細分子類與6類推理方式(如空間理解、物理建模、公式聯立、預測性推理等),每道題目都結合教材級圖像與真實物理設定,并由STEM專業研究生精心審核。
那么,各大主流模型在PhyX上的表現如何呢?
強如GPT-o4 mini也比不上人類
截止目前,多模態大語言模型(MLLMs)不斷刷新各類圖文推理與科學問答任務的記錄。
諸如GPT-4o、Claude3.7、DeepSeek系列等最新模型,已經在數學奧賽(AIME、MATH-V)、通識科學(MMMU)、跨學科推理(OlympiadBench)等標準化測試中展現出堪比人類的表現。
然而,這些測試所衡量的往往是抽象計算能力、公式記憶與文本邏輯,尚未系統性地檢驗模型能否真正理解現實世界中的物理規律與視覺場景。
利用PhyX,研究人員在包括GPT-4o、Claude3.7、DeepSeek-R等在內的16個主流模型上進行了系統評估,發現:
- 即便是表現最好的模型GPT-o4 mini,其準確率也僅為45.8%,而人類物理本科/研究生在同一任務上的準確率達 75.6%;
- 在現代物理、電磁學、熱力學等高階推理任務上,模型的表現尤其低下,準確率不足30%;
- 錯誤分析顯示,超過三分之一錯誤來自圖像感知失敗,其次是知識缺失與邏輯推理能力不足。
說完結果,我們順便展開一下PhyX的構建過程。
PhyX目標在于建立一個真實、多樣、具挑戰性的物理圖文推理測試環,系統評估多模態模型在處理物理場景中是否具備與人類相當的“物理常識、感知理解與符號建模”能力。
與現有多模態基準(如VQA、ScienceQA)側重日常知識與科普推理不同,PhyX聚焦高層次的物理專業問題解決能力,強調圖文信息的深度結合、推理鏈條的完整性與真實感知與建模的還原度。
學科維度與題目覆蓋
它總計包含3000道圖文物理題目,內容涵蓋大學物理主干課程的六大核心學科:
每道題均為圖文結合問題,包含插圖、圖表或場景圖,并匹配相應文字說明與問題設定。
下圖給出了每個學科的一個PhyX樣本。
此外,還詳細給出了所覆蓋的科目及相關統計數據,六大物理學科分布均勻。
左邊對PhyX的關鍵數據進行了描述性統計。如表1所示,PhyX中共有6000個問題,開放性問題與多選題各3000個。
PhyX的優越性
為細粒度分析模型能力,PhyX對每道題標注了0~2種核心推理類型,共六類。
該標簽體系有助于研究者系統性研究模型在哪些類型推理上表現良好或薄弱,并支持跨模型、跨模態、跨學科橫向比較。
PhyX為每道題提供三種輸入模態與兩類題型,以支持多種模型與能力維度的測試:
下圖展示了PhyX如何去除重復內容:
每道題支持兩種格式切換,適應不同類型模型(閉式 vs 開放式、判別 vs 生成):
- 多項選擇題(MC):方便統一評分與大規模測試
- 主觀問答題(OE):用于評估鏈式推理、生成能力與公式表達
下圖與下表給出了PhyX與已有基準的差異,可見PhyX全面領先于現有基準。
下圖為基于GPT-4o的推理軌跡真實示例及所需時間對比解決物理和數學問題的能力。
數據構建與審核流程
為確保題目質量與廣度,PhyX采用如下多輪數據構建流程:
1、初始設計與題源采集題目來源包括:物理教材、考試題庫、公開課程材料、大學教案與題目設計所有題目要求結合圖像;
2、專業標注者構建與重寫組建跨高校研究生團隊(物理、AI雙背景),每位標注者負責“構建 + 重寫 + 圖文匹配”任務圖像統一制作規范,確保風格多樣但信息清晰;
3、質量控制與審核每題需經過雙人交叉驗證:科學性 + 語言可讀性標注項包括:學科標簽、推理類型、題型雙版本、答案及解析自動檢測圖文重復性 + 模板重合度 + 圖像內容覆蓋度。
模型評估與測試結果
為了全面評估當前多模態大模型(MLLM)與語言模型(LLM)在真實物理場景下的理解與推理能力,研究人員在PhyX-testmini子集(共1,000 道題)上對16種主流模型進行了系統性測試。
該子集覆蓋所有學科與推理類型,采用統一輸入模態和答題格式,確保評估公平與可復現。
下圖為三種領先的MLLM、兩種領先的LLM在PhyX基準中的正確率。
所有模型均在zero-shot(零樣本)設定下運行,即不提供任何示例或任務微調,以真實反映其物理常識遷移能力與場景泛化能力。
即使是表現最好的模型(如GPT-o4 mini或DeepSeek-R1),也遠未達到人類水平,尤其在“具圖像感知 + 多步建模”的綜合任務中顯著失分。
下表給出了在PhyX基準上不同LLM和MLLM的結果比較。PHYX的testmini子集的準確度分數。每個模型中得分最高的部分和總體最高分分別以藍色和紅色突出顯示。
研究人員進一步對模型在六大學科維度的得分情況做了細分分析。
下表顯示了,不同物理學領域的模型平均得分(開放式文本)冗余問題。各部分模型最高分及總最高分分別以藍色和紅色突出顯示:
- GPT-4o在“現代物理”類題目的表現僅為21.2%,遠低于人類平均;
- 所有模型在“電磁學、熱力學”題型中的準確率均低于50%;
- “力學、波動聲學”中模型表現略優,但差距仍在20分以上。
模型錯誤分析與能力瓶頸
盡管多模態大模型在通用圖文問答與常識性推理上表現強勁,但在PhyX上,它們的錯誤卻暴露出更深層次的結構性缺陷。
研究人員對GPT-4o在testmini子集上的100+個錯誤樣本進行了逐題分析與專家標注,總結出如下主要問題類別及其占比見下圖:
在錯誤分析中,研究人員觀察到MLLM(特別是GPT-4o)傾向于:
- 過度依賴文字提示:一旦圖像中的信息未在題干中明示,模型傾向忽略;
- 圖像信息降權處理:哪怕圖像中有明確變量、結構或數值,模型也更偏好使用題干描述;
- 多模態融合機制缺乏推理引導:未能主動調取圖像細節來修正文字中的不確定性或模糊性。
這表明,現有MLLM“多模態理解”仍更接近于圖文匹配或粗粒特征拼接,缺乏具備“物理結構建模意圖”的跨模態融合能力。
更多細節歡迎查閱原論文。
Project Page: https://phyx-bench.github.io/
Arxiv: https://arxiv.org/abs/2505.15929
Github: https://github.com/NastyMarcus/PhyX
Huggingface Dataset: https://huggingface.co/datasets/Cloudriver/PhyX