史上最難大模型測試集,千名專家鑄成!沒有模型得分超過10%,但DeepSeek-R1超o1
史上最難的大模型測試集來了!
包括o1在內(nèi),沒有任何一個模型得分超過10%。
題目來自500多家機構(gòu)的1000多名學(xué)者,最終入圍的題目有3000多道,全部都是研究生及以上難度。
入選的問題涵蓋了數(shù)理化、生物醫(yī)藥、工程和社會科學(xué)等多種學(xué)科,按細(xì)分學(xué)科來算則多達(dá)100余個。
官方更是將它稱為“人類最后的考試”,AI安全中心主任Dan Hendrycks也用了這樣的說法。
還有世界首位提示詞工程師Riley Goodside表示,這才是考驗頂尖模型的數(shù)據(jù)集該有的難度。
o1得分不到10%
如果按照大學(xué)科來算,入選的題目可以分為八大類,其中占比最多的是數(shù)學(xué)(42%),然后是物理和生物醫(yī)藥(均為11%)。
而且命題難度要求嚴(yán)格,必須要達(dá)到研究生難度,而且還要確保不能被檢索到。
當(dāng)然題目還應(yīng)當(dāng)有明確的答案和評判方式,證明等開放式問題不會入選。
具體難度,可以看幾道例題來感受下(翻譯由GPT-4o生成)。
其中有些題目,還會考察模型的視覺能力,比如解讀這種上古文字。
有些題目還需要結(jié)合視覺信息和文本共同理解,比如在化學(xué),特別是有機化學(xué)當(dāng)中,需要用圖來表示相關(guān)物質(zhì)的結(jié)構(gòu)。
還有數(shù)學(xué)題計算機科學(xué)的題目,對推理的要求很高:
除了這些需要一定推理的任務(wù)之外,也有題目單純考察知識儲備,當(dāng)然并不代表難度低。
就算是對于領(lǐng)域內(nèi)人士,這些題目也達(dá)到了研究生難度,對于一般人而言,可能連題都讀不懂。
o1這樣的強推理模型準(zhǔn)確率只有9.1%,DeepSeek-R1也躋身到了英雄榜之中,不過不支持多模態(tài),因此成績是在純文本子集上得到的。
但如果只比較純文本任務(wù),DeepSeek-R1依然位列第一,并且相比于o1的優(yōu)勢變得更明顯了。
而在非推理模型當(dāng)中,Gemini 1.5 Pro表現(xiàn)最好,然后是Claude 3.5 Sonnet和Grok 2,GPT-4哦排名墊底。
有模型答錯,題目才能入選
這些題目不僅難度要求高,篩選的過程也十分嚴(yán)格。
這個項目由AI安全中心和Scale AI發(fā)起,命題者來自全世界500多家機構(gòu)的,人數(shù)多達(dá)上千人。
涉及的機構(gòu)包括高校、研究所和企業(yè),還有來自醫(yī)療機構(gòu)的學(xué)者,以及一些獨立研究者等。
OpenAI、Anthropic、谷歌DeepMind以及微軟研究院都包括在其中。
團隊收集到的題目需要經(jīng)歷大模型和人工的雙重審查。
第一輪篩選在大模型上進(jìn)行,如果其中有大模型答錯非選擇題,或者選擇題平均準(zhǔn)確率低于隨機猜測,則題目可以通過初篩。
在進(jìn)行過7萬多次嘗試之后,有1.3萬道題目進(jìn)入了人工審核環(huán)節(jié)。
人工審核一共分兩輪,第一輪是各個領(lǐng)域的專業(yè)人士(研究生以上學(xué)歷),第二輪審核則由組織方以及第一輪中表現(xiàn)出色的審核員共同進(jìn)行。
最終有三千多道題目入圍,形成了一個較大的公共數(shù)據(jù)集和一個較小的私有數(shù)據(jù)集,這些題目來自500多家機構(gòu)中的300余家,人數(shù)為600余人。
另外據(jù)介紹,每道入選題目根據(jù)評估情況,會給予命題人500-5000美元不等的獎勵,也從側(cè)面反應(yīng)出了命題工作的復(fù)雜。(目前團隊仍在接受新題目投稿,但不再發(fā)放獎金)
這樣的一套超難測試集,如果讓前兩天深陷作弊傳聞的o3挑戰(zhàn)一下,說不定就能看出真實水平了。
項目主頁:https://lastexam.ai/
數(shù)據(jù)集:https://huggingface.co/datasets/cais/hle
論文:https://lastexam.ai/paper