成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI無法攻克的235道謎題!讓o1、Gemini 2.0 Flash Thinking集體掛零

人工智能 新聞
Scale AI 等提出的新基準再次暴露了大語言模型的弱點。

又又又一個超高難度的推理基準測試向 AI 發(fā)出了挑戰(zhàn)!

大語言模型的進展伴隨著評估基準的不斷進步,各種難度、覆蓋不同學科的評估基準被用來測試這些模型的各項能力。

比如前幾天,Center for AI Safety(AI 安全中心)與 Scale AI 聯(lián)合打造了全新基準:Humanity's Last Exam,即「人類的最后考試」,簡稱 HLE。這個新基準對主流的推理模型提出了巨大挑戰(zhàn),結果顯示 DeepSeek-R1、o1 的準確度都低于 10%。

如今,一個比「人類的最后考試」更苛刻的基準了,它就是同樣由 Scale AI、Center for AI Safety 以及 MIT 的研究者聯(lián)合推出的 ENIGMAEVAL。這是一個針對高難度問題的基準,其格式多種多樣,涵蓋了從解謎尋寶(puzzle hunts)抽取的文本和圖像難題。

Puzzle hunts 是一種團隊解謎競賽,測試了參與者的邏輯推理、創(chuàng)造性思維、團隊協(xié)作以及跨學科知識運用能力。它們通常包含一系列復雜的謎題,每個謎題的解答可能會涉及文字游戲、數(shù)學、密碼學、圖像分析、程序編寫、文化常識等多個領域。 

對于 ENIGMAEVAL 基準,研究者使用了原始的多模態(tài)問題和高質量的人工轉錄版本,從而評估大語言模型的端到端能力以及它們的獨立推理能力。這種設計選擇使得研究者能夠區(qū)分模型的性能限制源于它們的推理能力,而不是解析復雜文檔或處理不同模態(tài)的能力。

  • 論文標題:ENIGMAEVAL: ABenchmark of LongMultimodal Reasoning Challenges
  • 論文地址:https://arxiv.org/pdf/2502.08859
  • 榜單地址:https://scale.com/leaderboard/enigma_eval

在 ENIGMAEVAL 基準上,研究者對現(xiàn)有多模態(tài)和推理基準上表現(xiàn)優(yōu)異的前沿語言模型進行了評估。結果顯示,包括 OpenAI o1 在內等 SOTA 模型在普通謎題(Normal)上的準確率最高僅為 7.0% 左右,在困難謎題(Hard)上的準確率則降至 0%,遠遠不及經(jīng)驗豐富的人類解謎者。

2025-02-17_101212.png

有趣的是,從轉錄的謎題到原始 PDF 版的謎題,模型性能可能會急劇下降,這表明了一些前沿模型仍然受限于 OCR 和解析能力。雖然研究者最開始假設原始謎題格式可能會造成額外的困難,但對模型成功案例的詳細分析表明,它們已經(jīng)針對復雜文檔的處理進行了很好的優(yōu)化。

image.png

研究者表示,ENIGMAEVAL 將與「人類的最后考試」一起構建全新的 LLM 基準,通過極具挑戰(zhàn)性的任務揭露當前大語言模型的局限性。

正如一些網(wǎng)友評論所說,看起來 AI 離真正理解世界還有很長的路要走。

image.png

另外,該基準測試中沒有將 DeepSeek R1 納入在內,所以很好奇它的表現(xiàn)如何。

image.png

 ENIGMAEVAL 基準

ENIGMAEVAL 包含 1184 道謎題,每個謎題通常需要一群經(jīng)驗豐富的人花費數(shù)小時甚至數(shù)天才能解決。其有兩種格式:

(1)原始 PDF 的 PNG 圖像(如頁面截圖),用于測試模型端到端的性能;

(2)結構化的文本 - 圖像表示,保留了語義關系和視覺元素,用于有針對性地評估模型多模態(tài)推理能力,同時減少干擾和預處理負擔。

ENIGMAEVAL 來源如下(表 1),按照難度分組為 Normal (949 道題)和 Hard (235 道題)兩大部分:

image.png

普通謎題示例(Normal):

image.png


image.png

困難謎題示例(Hard):

image.png

image.png

除了這些謎題,本文還收集了相應的解決方案文檔,以 PDF 或 HTML 頁面的形式提供。

實驗 

本文在 ENIGMAEVAL 基準上測試了最先進的 LLM 的深度推理能力。

結果

模型在解答謎題方面的表現(xiàn)并不出色 。

所有前沿的視覺 - 語言模型在此次評估中的準確率都顯著偏低,即便是領先的模型(o1)在常規(guī)難度部分也僅達到 7.0% 的準確率,在困難難度部分更是達到了 0%(見表 2)。

所有測試模型在困難難度部分完全失敗(準確率為 0%),這強調了這些模型在面對更為復雜的謎題變體時所遭遇的重大挑戰(zhàn)。

image.png

此外,本文還使用 o1 模型對其自身生成的答案進行審核,以檢查是否存在抄襲或荒謬的推理鏈條,這是通過將前沿模型生成的逐步解決方案與官方謎題解析(附錄 B.3)進行對比來實現(xiàn)的。每一個被 o1 標記的案例都經(jīng)過了人工檢查,結果發(fā)現(xiàn)審核模型幻覺般地提供了抄襲的證據(jù),這表明實驗所采用的模型是獨立得出正確答案的。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-20 14:30:00

2025-04-18 09:07:00

2024-12-12 11:29:51

2024-10-30 14:25:00

GitHub模型

2025-03-25 13:07:36

2024-12-16 19:16:03

Gemini 2.0P圖神器人工智能

2025-01-08 13:08:55

2024-11-07 15:40:00

2024-09-20 13:30:00

2024-12-09 09:00:00

AGI智能

2025-06-19 09:04:00

2024-09-24 11:01:03

2025-01-20 09:28:00

AI工具模型

2025-02-08 14:00:00

AI訓練數(shù)據(jù)

2024-09-29 13:07:16

2025-02-06 12:10:00

2024-11-15 13:30:00

2025-02-27 07:48:25

2025-01-02 09:30:00

AI數(shù)據(jù)測試

2024-09-19 18:03:31

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩精品一区二区三区四区 | 国产精品久久久久久婷婷天堂 | 天天躁日日躁性色aⅴ电影 免费在线观看成年人视频 国产欧美精品 | 久久精品欧美视频 | www.日本三级| 91xxx在线观看 | 视频一区二区三区中文字幕 | 91精品久久久久久久久久 | 网络毛片 | 亚洲高清视频在线 | 小h片免费观看久久久久 | 日韩在线视频免费观看 | 日韩欧美专区 | 精品国产视频 | 国产精品自拍av | 国产亚洲精品91 | 免费国产黄 | 日本韩国电影免费观看 | 久久com| 日韩和的一区二区 | 91久久久久久久久 | 日韩精品人成在线播放 | 99久久精品免费看国产四区 | 久久99精品久久久久久青青日本 | 色伊人久久 | 国产午夜精品一区二区三区嫩草 | 亚洲国产精品99久久久久久久久 | 天天干天天操天天爽 | 国产亚洲第一页 | 91极品尤物在线播放国产 | 午夜精品久久久久久久久久久久久 | 精品国产一区二区三区日日嗨 | 丁香一区二区 | 国产一级在线 | 美女国产| 色爱综合网 | 精品免费国产一区二区三区四区 | 国产一区二区不卡 | 欧美极品在线观看 | 欧美a免费 | 五月婷婷中文 |