史上最難大模型測試集，千名專家鑄成！沒有模型得分超過10%，但DeepSeek-R1超o1

作者：量子位 2025-01-24 15:03:27

題目來自500多家機構(gòu)的1000多名學(xué)者，最終入圍的題目有3000多道，全部都是研究生及以上難度。

史上最難的大模型測試集來了！

包括o1在內(nèi)，沒有任何一個模型得分超過10%。

題目來自500多家機構(gòu)的1000多名學(xué)者，最終入圍的題目有3000多道，全部都是研究生及以上難度。

入選的問題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會科學(xué)等多種學(xué)科，按細(xì)分學(xué)科來算則多達(dá)100余個。

官方更是將它稱為“人類最后的考試”，AI安全中心主任Dan Hendrycks也用了這樣的說法。

還有世界首位提示詞工程師Riley Goodside表示，這才是考驗頂尖模型的數(shù)據(jù)集該有的難度。

o1得分不到10%

如果按照大學(xué)科來算，入選的題目可以分為八大類，其中占比最多的是數(shù)學(xué)（42%），然后是物理和生物醫(yī)藥（均為11%）。

而且命題難度要求嚴(yán)格，必須要達(dá)到研究生難度，而且還要確保不能被檢索到。

當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評判方式，證明等開放式問題不會入選。

具體難度，可以看幾道例題來感受下（翻譯由GPT-4o生成）。

其中有些題目，還會考察模型的視覺能力，比如解讀這種上古文字。

有些題目還需要結(jié)合視覺信息和文本共同理解，比如在化學(xué)，特別是有機化學(xué)當(dāng)中，需要用圖來表示相關(guān)物質(zhì)的結(jié)構(gòu)。

還有數(shù)學(xué)題計算機科學(xué)的題目，對推理的要求很高：

除了這些需要一定推理的任務(wù)之外，也有題目單純考察知識儲備，當(dāng)然并不代表難度低。

就算是對于領(lǐng)域內(nèi)人士，這些題目也達(dá)到了研究生難度，對于一般人而言，可能連題都讀不懂。

o1這樣的強推理模型準(zhǔn)確率只有9.1%，DeepSeek-R1也躋身到了英雄榜之中，不過不支持多模態(tài)，因此成績是在純文本子集上得到的。

但如果只比較純文本任務(wù)，DeepSeek-R1依然位列第一，并且相比于o1的優(yōu)勢變得更明顯了。

而在非推理模型當(dāng)中，Gemini 1.5 Pro表現(xiàn)最好，然后是Claude 3.5 Sonnet和Grok 2，GPT-4哦排名墊底。

這些題目不僅難度要求高，篩選的過程也十分嚴(yán)格。

這個項目由AI安全中心和Scale AI發(fā)起，命題者來自全世界500多家機構(gòu)的，人數(shù)多達(dá)上千人。

涉及的機構(gòu)包括高校、研究所和企業(yè)，還有來自醫(yī)療機構(gòu)的學(xué)者，以及一些獨立研究者等。

OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。

團隊收集到的題目需要經(jīng)歷大模型和人工的雙重審查。

第一輪篩選在大模型上進(jìn)行，如果其中有大模型答錯非選擇題，或者選擇題平均準(zhǔn)確率低于隨機猜測，則題目可以通過初篩。

在進(jìn)行過7萬多次嘗試之后，有1.3萬道題目進(jìn)入了人工審核環(huán)節(jié)。

人工審核一共分兩輪，第一輪是各個領(lǐng)域的專業(yè)人士（研究生以上學(xué)歷），第二輪審核則由組織方以及第一輪中表現(xiàn)出色的審核員共同進(jìn)行。

最終有三千多道題目入圍，形成了一個較大的公共數(shù)據(jù)集和一個較小的私有數(shù)據(jù)集，這些題目來自500多家機構(gòu)中的300余家，人數(shù)為600余人。

另外據(jù)介紹，每道入選題目根據(jù)評估情況，會給予命題人500-5000美元不等的獎勵，也從側(cè)面反應(yīng)出了命題工作的復(fù)雜。（目前團隊仍在接受新題目投稿，但不再發(fā)放獎金）

這樣的一套超難測試集，如果讓前兩天深陷作弊傳聞的o3挑戰(zhàn)一下，說不定就能看出真實水平了。

責(zé)任編輯：張燕妮來源：量子位