成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人類最后一次考試,AI慘敗正確率<10%!數百頂級專家聯手出題,DeepSeek竟是王者

人工智能 新聞
AI模型可能并沒有想象中強大。在最新的AI基準測試「人類最后一次考試」中,所有頂尖LLM通過率不超過10%,而且模型都表現得過度自信。

捍衛「人類智慧」最后一戰!

剛剛,Scale AI和Center for AI Safety(CAIS)公布了「人類最后一場考試」結果!

新基準全稱「人類最后一次考試」(Humanity’s Last Exam),簡稱「HLM」,包含3000個問題,由數百位領域專家開發,用于追尋人類知識推理的邊界。

目前,最好的模型,準確率也小于10%,而且自信「過頭」。

圖片

圖片

具體結果如下:

圖片

Scale AI和CAIS同時公布了相關論文、數據集和測試代碼。

圖片

項目鏈接:https://lastexam.ai/

網友對這項工作也不吝贊賞:

圖片

圖片

「人類最后一次考試」

為了評估AI的能力的進展,已發布了多個數據集,針對語言模型,根據「Paper with code」網站統計,就有165個相關數據集。

圖片

然而,目前的基準測試難度并未跟上進步的步伐:LLM在一些熱門基準測試(如MMLU)上已能達到90%以上的準確率,這限制了對最新LLM能力的有效評估。

圖片

甚至有基準被爆出,可能存在給某些模型「漏題」的問題。

為此,Scale AI和CAIS推出了名為「人類最后的考試」(Humanity's Last Exam)的多模態基準測試,旨在成為這類封閉式學術基準測試的最終版本,覆蓋廣泛的學科領域。

測評一覽

「人類最后一次考試」(HLE)包含兩種問題格式:

  1. 精確匹配題(Exact-Match Questions):模型需要輸出一個完全匹配的字符串作為答案。
  2. 選擇題(Multiple-Choice Questions):模型需要從五個或更多選項中選擇一個正確答案。

此外,HLE是一個多模態基準測試,其中10%的問題要求理解文本和圖像參考,80%的問題為精確匹配題,其余為選擇題。

該數據集包含3000道難度較高的問題,涉及100多個學科。

各學科分類,大體如下:

圖片

圖3:HLE高級類別分組。

大部分問題已公開發布,同時保留了一部分私有測試集,用于評估模型是否存在過擬合現象。

在項目網站上,公布了不同領域/科目的8個樣題,包含化學、物理、數學、計算機科學、語言學等。

比如,其中的一道常識性問題:

希臘神話中,伊阿宋的曾祖父是誰?

具體樣題,參考下列圖片。

圖片

圖片

圖片

圖片

創建流程

為了吸引高質量的問題提交,HLE設立了總額50萬美元的獎金池,并提供以下獎勵:

  1. 頂級問題獎勵:每道排名前50的問題將獲得5,000美元獎金。
  2. 優質問題獎勵:接下來的500道問題,每道將獲得500美元獎金。

此外,任何被HLE接受的問題提交者,都有機會成為相關論文的共同作者,激勵了眾多高水平的專家參與,特別是那些擁有高級學位或在相關技術領域擁有豐富經驗的專業人士。

總體而言,總收集了超過70,000個試驗性問題,其中13,000個問題被選出來供人類專家評審,進而最終確定在公開考試中發布的3,000個問題。

近1000名專家成功提交了問題。

他們來自50個國家的500多個機構,其中大多數貢獻者是活躍的研究員或教授。

問題涵蓋了多種格式,包括純文本和多模態難題,整合了圖像和圖表。

為了確保問題的高質量和難度,HLE的數據集通過以下流程創建:

  1. 問題篩選:首先接收問題提交,這些問題專門前沿的LLM設計,LLM通常難以正確回答。
  2. 迭代優化:在專家同行評審的幫助下,反復修改和優化提交的問題,提升問題的復雜性和準確性。
  3. 手動審核:由組織者或由組織者培訓的專家,手動審核每道問題,確保問題符合測試要求。
  4. 保留私有數據集:除了公開數據集,還保留了一部分私有測試集,用于評估模型在公開基準測試上的過擬合和可能的作弊行為。

圖片

HLE的數據集創建流程

具體結果

研究者共測評了7個模型,包括GPT-40、Grok 2、Claude 3.5 Sonnect、Gemini 1.5 Pro、Gemini 2.0 Flash Thinking、o1和DeepSeek-R1。

表1顯示,所有前沿模型在HLE中的準確率都很低,所有模型的校準表現都很差,反映在較高的RMS校準誤差分數中。

圖片

表1:不同模型在HLE上的準確率和RMS校準誤差。

具有推理能力的模型,通常需要顯著更多的推理時間和計算資源。

為了更清晰地了解這一點,對各模型生成的補全(completion)token數量進行了分析。

正如圖5所示,推理模型Gemini  2.0 Flash  Thinking、o1和DeepSeek-R1為了提升性能,需要生成的token數量遠遠超過非推理模型GPT-40、Grok 2、Claude 3.5 Sonnect以及Gemini 1.5 Pro(見圖5)。

圖片

圖5:不同模型的平均補全(completion)token數量

展望未來

在「人類最后一次考試」(Humanity's Last Exam,簡稱 HLE)中,目前的LLM表現仍然非常差。

但從發展歷史來看,基準測試的飽和速度非常快——模型往往在短短的時間內,從接近0的準確率躍升至接近100%的表現。

鑒于AI發展的快速步伐,在2025年底前,模型有可能在HLE上超過50%的準確率。

圖片

AI實驗室有新榜單可刷了,躍躍欲試

如果模型在HLE中獲得高分,將表明模型在封閉式、可驗證的問題以及前沿科學知識方面的專家級表現,但這并不意味著模型具備自主研究能力或「通用人工智能」(AGI)。

HLE測試的是結構化的學術問題,而非開放式研究或創造性問題解決能力,因此它更側重于技術知識和推理能力的衡量。

作者在論文表示:「雖然HLE是給予模型的最后一場學術考試,但它遠非AI評估的最后一個基準。」

責任編輯:張燕妮 來源: 新智元
相關推薦

2016-12-02 20:10:22

人工智能唇語序列

2019-10-22 15:19:27

AI 數據人工智能

2009-03-25 18:26:20

多核服務器顯卡

2011-07-07 16:59:02

2010-12-17 09:07:13

2013-03-29 09:27:55

2012-12-06 13:30:28

搜搜架構

2025-06-12 13:03:13

2022-03-18 14:45:32

AI谷歌模型

2018-11-27 13:33:36

2020-03-10 07:51:35

面試諷刺標準

2017-06-05 10:25:43

AIAlphaGo機器學習

2017-06-28 15:40:44

2022-07-01 15:15:56

AIMITOpenAI

2020-07-21 10:55:42

技術研發指標

2025-02-08 10:42:34

2016-12-16 10:55:19

2024-04-01 07:00:00

模型AI

2023-12-26 15:08:00

AI人工智能算命

2020-08-16 11:46:33

SaaS數據技術
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品高潮呻吟久久av野狼 | 日韩欧美国产精品 | 亚洲成人一区二区 | 亚州av在线 | www4虎| 久久9热| 日韩在线精品 | 久久视频免费观看 | 国产精品99久久久久久人 | 国产成人精品一区 | 日本电影网站 | 97精品超碰一区二区三区 | 国产精品一区二区三区免费观看 | 国产精品人人做人人爽 | 国产成人在线一区 | 国产在线观看不卡一区二区三区 | 国产精品国产精品国产专区不片 | 黑人巨大精品欧美一区二区免费 | 国产亚洲成av人片在线观看桃 | 精品国产1区2区3区 一区二区手机在线 | 中文字幕日韩欧美一区二区三区 | 综合久久网 | 日韩一区二区三区在线观看 | 成人免费一区二区三区视频网站 | 国产一区亚洲 | 天堂一区 | 久久久999成人 | 国产在线一区二 | 日干夜干 | 激情视频一区 | 亚洲人成人一区二区在线观看 | 99小视频 | 亚洲伦理自拍 | 午夜视频一区二区 | 欧美一区二区三区一在线观看 | 一级片在线免费播放 | 一区二区三区视频免费观看 | 伊人av在线播放 | 一区二区视屏 | 精品久久久久久久久久久久久久久久久 | 97国产精品视频人人做人人爱 |