成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1

人工智能 新聞
題目來自500多家機構(gòu)的1000多名學(xué)者,最終入圍的題目有3000多道,全部都是研究生及以上難度。

史上最難的大模型測試集來了!

包括o1在內(nèi),沒有任何一個模型得分超過10%

圖片

題目來自500多家機構(gòu)的1000多名學(xué)者,最終入圍的題目有3000多道,全部都是研究生及以上難度

入選的問題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會科學(xué)等多種學(xué)科,按細(xì)分學(xué)科來算則多達(dá)100余個。

官方更是將它稱為“人類最后的考試”,AI安全中心主任Dan Hendrycks也用了這樣的說法。

圖片

還有世界首位提示詞工程師Riley Goodside表示,這才是考驗頂尖模型的數(shù)據(jù)集該有的難度。

圖片

o1得分不到10%

如果按照大學(xué)科來算,入選的題目可以分為八大類,其中占比最多的是數(shù)學(xué)(42%),然后是物理和生物醫(yī)藥(均為11%)。

圖片

而且命題難度要求嚴(yán)格,必須要達(dá)到研究生難度,而且還要確保不能被檢索到。

當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評判方式,證明等開放式問題不會入選。

具體難度,可以看幾道例題來感受下(翻譯由GPT-4o生成)。

其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字。

圖片

有些題目還需要結(jié)合視覺信息和文本共同理解,比如在化學(xué),特別是有機化學(xué)當(dāng)中,需要用圖來表示相關(guān)物質(zhì)的結(jié)構(gòu)。

圖片

還有數(shù)學(xué)題計算機科學(xué)的題目,對推理的要求很高:

圖片

除了這些需要一定推理的任務(wù)之外,也有題目單純考察知識儲備,當(dāng)然并不代表難度低。

圖片

就算是對于領(lǐng)域內(nèi)人士,這些題目也達(dá)到了研究生難度,對于一般人而言,可能連題都讀不懂。

o1這樣的強推理模型準(zhǔn)確率只有9.1%,DeepSeek-R1也躋身到了英雄榜之中,不過不支持多模態(tài),因此成績是在純文本子集上得到的。

圖片

但如果只比較純文本任務(wù),DeepSeek-R1依然位列第一,并且相比于o1的優(yōu)勢變得更明顯了。

而在非推理模型當(dāng)中,Gemini 1.5 Pro表現(xiàn)最好,然后是Claude 3.5 Sonnet和Grok 2,GPT-4哦排名墊底。

圖片

有模型答錯,題目才能入選

這些題目不僅難度要求高,篩選的過程也十分嚴(yán)格。

這個項目由AI安全中心和Scale AI發(fā)起,命題者來自全世界500多家機構(gòu)的,人數(shù)多達(dá)上千人。

涉及的機構(gòu)包括高校、研究所和企業(yè),還有來自醫(yī)療機構(gòu)的學(xué)者,以及一些獨立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經(jīng)歷大模型和人工的雙重審查

圖片

第一輪篩選在大模型上進(jìn)行,如果其中有大模型答錯非選擇題,或者選擇題平均準(zhǔn)確率低于隨機猜測,則題目可以通過初篩。

在進(jìn)行過7萬多次嘗試之后,有1.3萬道題目進(jìn)入了人工審核環(huán)節(jié)。

人工審核一共分兩輪,第一輪是各個領(lǐng)域的專業(yè)人士(研究生以上學(xué)歷),第二輪審核則由組織方以及第一輪中表現(xiàn)出色的審核員共同進(jìn)行。

最終有三千多道題目入圍,形成了一個較大的公共數(shù)據(jù)集和一個較小的私有數(shù)據(jù)集,這些題目來自500多家機構(gòu)中的300余家,人數(shù)為600余人。

另外據(jù)介紹,每道入選題目根據(jù)評估情況,會給予命題人500-5000美元不等的獎勵,也從側(cè)面反應(yīng)出了命題工作的復(fù)雜。(目前團隊仍在接受新題目投稿,但不再發(fā)放獎金)

這樣的一套超難測試集,如果讓前兩天深陷作弊傳聞的o3挑戰(zhàn)一下,說不定就能看出真實水平了。圖片

項目主頁:https://lastexam.ai/
數(shù)據(jù)集:https://huggingface.co/datasets/cais/hle
論文:https://lastexam.ai/paper

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-02-03 14:17:27

2025-03-05 10:21:04

DeepSeekLVLM

2025-03-03 07:30:00

谷歌模型AI

2025-03-20 10:20:16

2025-04-29 09:06:00

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-02-13 08:51:23

DeepSeek大模型

2025-02-06 10:18:45

2025-02-19 08:00:00

2024-11-25 17:23:10

2025-05-19 08:41:00

AI模型開發(fā)者

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2024-09-24 11:01:03

2025-03-10 08:10:00

AI研究安全

2025-02-08 14:03:25

2025-02-13 01:00:00

2025-03-05 08:40:00

2025-02-08 10:42:34

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 一级黄色毛片子 | 亚洲精品国产第一综合99久久 | 一区二区三区在线 | 国产一区二区三区在线视频 | 在线播放第一页 | 欧美一级黄 | av官网在线 | 国内精品在线视频 | 国产婷婷精品av在线 | 日本亚洲一区 | 国产女人与拘做受免费视频 | 久久久999成人 | 久久之精品 | 午夜视频一区二区三区 | 欧美三区| 操久久 | 久久久久无码国产精品一区 | 动漫www.被爆羞羞av44 | 欧美日韩在线一区二区 | 日本黄色一级视频 | 国产一区999 | 中文在线视频 | 人人99 | 男女羞羞在线观看 | 3级毛片| 夜夜艹 | 国产亚洲精品综合一区 | 中文字幕国产精品 | 亚洲免费片 | 久久精品国产一区二区电影 | 91精品一区 | 久久精品国产一区二区三区 | 欧美成年网站 | 超黄毛片| 久久国品片 | 青青草网站在线观看 | av一级久久 | 亚洲精品乱码久久久久久久久久 | 欧美区在线观看 | 久久精品久久久 | 免费在线观看av网站 |