AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

作者：機器之心 2025-02-17 12:11:36

Scale AI 等提出的新基準再次暴露了大語言模型的弱點。

又又又一個超高難度的推理基準測試向 AI 發(fā)出了挑戰(zhàn)！

大語言模型的進展伴隨著評估基準的不斷進步，各種難度、覆蓋不同學科的評估基準被用來測試這些模型的各項能力。

比如前幾天，Center for AI Safety（AI 安全中心）與 Scale AI 聯(lián)合打造了全新基準：Humanity's Last Exam，即「人類的最后考試」，簡稱 HLE。這個新基準對主流的推理模型提出了巨大挑戰(zhàn)，結果顯示 DeepSeek-R1、o1 的準確度都低于 10%。

如今，一個比「人類的最后考試」更苛刻的基準了，它就是同樣由 Scale AI、Center for AI Safety 以及 MIT 的研究者聯(lián)合推出的 ENIGMAEVAL。這是一個針對高難度問題的基準，其格式多種多樣，涵蓋了從解謎尋寶（puzzle hunts）抽取的文本和圖像難題。

Puzzle hunts 是一種團隊解謎競賽，測試了參與者的邏輯推理、創(chuàng)造性思維、團隊協(xié)作以及跨學科知識運用能力。它們通常包含一系列復雜的謎題，每個謎題的解答可能會涉及文字游戲、數(shù)學、密碼學、圖像分析、程序編寫、文化常識等多個領域。

對于 ENIGMAEVAL 基準，研究者使用了原始的多模態(tài)問題和高質量的人工轉錄版本，從而評估大語言模型的端到端能力以及它們的獨立推理能力。這種設計選擇使得研究者能夠區(qū)分模型的性能限制源于它們的推理能力，而不是解析復雜文檔或處理不同模態(tài)的能力。

論文標題：ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges
論文地址：https://arxiv.org/pdf/2502.08859
榜單地址：https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基準上，研究者對現(xiàn)有多模態(tài)和推理基準上表現(xiàn)優(yōu)異的前沿語言模型進行了評估。結果顯示，包括 OpenAI o1 在內等 SOTA 模型在普通謎題（Normal）上的準確率最高僅為 7.0% 左右，在困難謎題（Hard）上的準確率則降至 0%，遠遠不及經(jīng)驗豐富的人類解謎者。

有趣的是，從轉錄的謎題到原始 PDF 版的謎題，模型性能可能會急劇下降，這表明了一些前沿模型仍然受限于 OCR 和解析能力。雖然研究者最開始假設原始謎題格式可能會造成額外的困難，但對模型成功案例的詳細分析表明，它們已經(jīng)針對復雜文檔的處理進行了很好的優(yōu)化。

研究者表示，ENIGMAEVAL 將與「人類的最后考試」一起構建全新的 LLM 基準，通過極具挑戰(zhàn)性的任務揭露當前大語言模型的局限性。

正如一些網(wǎng)友評論所說，看起來 AI 離真正理解世界還有很長的路要走。

另外，該基準測試中沒有將 DeepSeek R1 納入在內，所以很好奇它的表現(xiàn)如何。

ENIGMAEVAL 基準

ENIGMAEVAL 包含 1184 道謎題，每個謎題通常需要一群經(jīng)驗豐富的人花費數(shù)小時甚至數(shù)天才能解決。其有兩種格式：

（1）原始 PDF 的 PNG 圖像（如頁面截圖），用于測試模型端到端的性能；

（2）結構化的文本 - 圖像表示，保留了語義關系和視覺元素，用于有針對性地評估模型多模態(tài)推理能力，同時減少干擾和預處理負擔。

ENIGMAEVAL 來源如下（表 1），按照難度分組為 Normal （949 道題）和 Hard （235 道題）兩大部分：

普通謎題示例（Normal）：

困難謎題示例（Hard）：

除了這些謎題，本文還收集了相應的解決方案文檔，以 PDF 或 HTML 頁面的形式提供。

實驗

本文在 ENIGMAEVAL 基準上測試了最先進的 LLM 的深度推理能力。

結果

模型在解答謎題方面的表現(xiàn)并不出色。

所有前沿的視覺 - 語言模型在此次評估中的準確率都顯著偏低，即便是領先的模型（o1）在常規(guī)難度部分也僅達到 7.0% 的準確率，在困難難度部分更是達到了 0%（見表 2）。

所有測試模型在困難難度部分完全失敗（準確率為 0%），這強調了這些模型在面對更為復雜的謎題變體時所遭遇的重大挑戰(zhàn)。

此外，本文還使用 o1 模型對其自身生成的答案進行審核，以檢查是否存在抄襲或荒謬的推理鏈條，這是通過將前沿模型生成的逐步解決方案與官方謎題解析（附錄 B.3）進行對比來實現(xiàn)的。每一個被 o1 標記的案例都經(jīng)過了人工檢查，結果發(fā)現(xiàn)審核模型幻覺般地提供了抄襲的證據(jù)，這表明實驗所采用的模型是獨立得出正確答案的。

責任編輯：張燕妮來源：機器之心

AI 模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI無法攻克的235道謎題！讓o1、Gemini 2.0 Flash Thinking集體掛零

ENIGMAEVAL 基準

實驗