人類考92分的題,GPT-4只能考15分:測(cè)試一升級(jí),大模型全都現(xiàn)原形了
GPT-4 自誕生以來(lái)一直是位「優(yōu)等生」,在各種考試(基準(zhǔn))中都能得高分。但現(xiàn)在,它在一份新的測(cè)試中只拿到了 15 分,而人類能拿 92。
這套名叫「GAIA」的測(cè)試題由來(lái)自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的團(tuán)隊(duì)制作,提出了一些需要一系列基本能力才能解決的問(wèn)題,如推理、多模態(tài)處理、網(wǎng)頁(yè)瀏覽和一般工具使用能力。這些問(wèn)題對(duì)人類來(lái)說(shuō)非常簡(jiǎn)單,但對(duì)大多數(shù)高級(jí) AI 來(lái)說(shuō)卻極具挑戰(zhàn)性。如果里面的問(wèn)題都能解決,通關(guān)的模型將成為 AI 研究的重要里程碑。
GAIA 的設(shè)計(jì)理念和當(dāng)前的很多 AI 基準(zhǔn)不一樣,后者往往傾向于設(shè)計(jì)一些對(duì)人類來(lái)說(shuō)越來(lái)越難的任務(wù),這背后其實(shí)反映了當(dāng)前社區(qū)對(duì) AGI 理解的差異。GAIA 背后的團(tuán)隊(duì)認(rèn)為,AGI 的出現(xiàn)取決于系統(tǒng)能否在上述「簡(jiǎn)單」問(wèn)題上表現(xiàn)出與普通人類似的穩(wěn)健性。
圖 1:GAIA 問(wèn)題示例。完成這些任務(wù)要求大模型具備一定推理、多模態(tài)或工具使用等基本能力。答案是明確的,并且按照設(shè)計(jì),不可能在訓(xùn)練數(shù)據(jù)的純文本中找到答案。有些問(wèn)題帶有額外的證據(jù),例如圖像,反映真實(shí)的用例并允許更好地控制問(wèn)題。
盡管 LLM 能成功完成人類難以完成的任務(wù),但能力最強(qiáng)的 LLM 在 GAIA 上的表現(xiàn)卻難以令人滿意。即使配備了工具,GPT4 在最簡(jiǎn)單的任務(wù)中成功率也不超過(guò) 30%,而在最難的任務(wù)中成功率為 0%。與此同時(shí),人類受訪者的平均成功率為 92%。
因此,如果一個(gè)系統(tǒng)能解決 GAIA 里的問(wèn)題,我們就能在 t-AGI 系統(tǒng)中去評(píng)估它。t-AGI 是 OpenAI 工程師 Richard Ngo 構(gòu)建的一套細(xì)化 AGI 評(píng)估系統(tǒng),其中包括 1-second AGI、1-minute AGI、1-hour AGI 等等,用來(lái)考察某個(gè) AI 系統(tǒng)能否在限定時(shí)間里完成人類通?;ㄏ嗤瑫r(shí)間可以完成的任務(wù)。作者表示,在 GAIA 測(cè)試中,人類通常需要 6 分鐘左右回答最簡(jiǎn)單的問(wèn)題,17 分鐘左右回答最復(fù)雜的問(wèn)題。
使用 GAIA 的方法,作者設(shè)計(jì)了 466 個(gè)問(wèn)題及其答案。他們發(fā)布了一個(gè)包含 166 個(gè)問(wèn)題和答案的開(kāi)發(fā)者集,另外 300 個(gè)問(wèn)題發(fā)布時(shí)不帶答案。該基準(zhǔn)以排行榜的形式發(fā)布。
- 排行榜地址:https://huggingface.co/spaces/gaia-benchmark/leaderboard
- 論文地址:https://arxiv.org/pdf/2311.12983.pdf
- HuggingFace 主頁(yè)地址:https://huggingface.co/papers/2311.12983
GAIA 是什么
GAIA 是如何運(yùn)作的?研究人員表示,GAIA 是用于測(cè)試人工智能系統(tǒng)一般助理問(wèn)題的基準(zhǔn)。GAIA 試圖規(guī)避此前大量 LLM 評(píng)估的不同缺陷。它由人類設(shè)計(jì)和注釋的 466 個(gè)問(wèn)題組成。這些問(wèn)題基于文本,有的附帶文件(例如圖像或電子表格)。它們涵蓋各種輔助性質(zhì)的任務(wù),例如日常個(gè)人任務(wù)、科學(xué)或常識(shí)。
這些問(wèn)題指向一個(gè)簡(jiǎn)短的、單一的正確答案,因此易于驗(yàn)證。
要使用 GAIA,只需向人工智能助手零樣本提出問(wèn)題并附上依據(jù)(如有的話)。在 GAIA 上獲得完美得分需要一系列不同的基本能力。制作者在該項(xiàng)目的補(bǔ)充材料中提供了各種問(wèn)題和元數(shù)據(jù)。
GAIA 的產(chǎn)生既源于升級(jí)人工智能基準(zhǔn)的需要,也源于目前廣泛觀察到的 LLM 評(píng)估的缺點(diǎn)。
作者表示,設(shè)計(jì) GAIA 的首要原則是針對(duì)概念上簡(jiǎn)單的問(wèn)題,它們盡管對(duì)人類來(lái)說(shuō)可能很乏味,但又多種多樣,植根于現(xiàn)實(shí)世界,對(duì)當(dāng)前的人工智能系統(tǒng)具有挑戰(zhàn)性。這使得我們可以專注于基本能力,例如通過(guò)推理快速適應(yīng)、多模態(tài)理解和潛在的多樣化工具使用,而不是專業(yè)技能方面。
這些問(wèn)題通常包括查找和轉(zhuǎn)換從不同來(lái)源(例如提供的文檔或開(kāi)放且不斷變化的網(wǎng)絡(luò))收集的信息,以產(chǎn)生準(zhǔn)確的答案。要回答圖 1 的示例問(wèn)題,LLM 通常應(yīng)該瀏覽網(wǎng)絡(luò)查找研究,然后尋找正確的注冊(cè)位置。這與此前基準(zhǔn)體系的趨勢(shì)相反,以前的基準(zhǔn)對(duì)人類來(lái)說(shuō)越來(lái)越困難,和 / 或在純文本或人工環(huán)境中操作。
GAIA 的第二個(gè)原則是可解釋性。與題海相比,精心策劃的問(wèn)題數(shù)量有限,使得新基準(zhǔn)更易于使用。該任務(wù)概念簡(jiǎn)單(人類成功率為 92%),使用戶很容易理解模型的推理軌跡。對(duì)于圖 1 中的 1 級(jí)問(wèn)題,推理跟蹤主要包括檢查正確的網(wǎng)站,并報(bào)告正確的數(shù)字,這很容易驗(yàn)證。
GAIA 的第三個(gè)原則是對(duì)記憶的魯棒性:GAIA 的目標(biāo)是比大多數(shù)當(dāng)前基準(zhǔn)測(cè)試的猜題可能性更低。為了完成一項(xiàng)任務(wù),系統(tǒng)必須計(jì)劃好并成功完成一些步驟。因?yàn)楦鶕?jù)設(shè)計(jì),當(dāng)前預(yù)訓(xùn)練數(shù)據(jù)中沒(méi)有以純文本形式生成結(jié)果答案。準(zhǔn)確性的進(jìn)步反映了系統(tǒng)的實(shí)際進(jìn)步。由于它們的多樣性和行動(dòng)空間的大小,這些任務(wù)不能在不作弊的情況下被暴力破解,例如通過(guò)記住基本事實(shí)。盡管數(shù)據(jù)污染可能導(dǎo)致額外的正確率,但答案所需的準(zhǔn)確性、答案在預(yù)訓(xùn)練數(shù)據(jù)中的缺失以及檢查推理軌跡的可能性減輕了這種風(fēng)險(xiǎn)。
相反,多項(xiàng)選擇答案使污染評(píng)估變得困難,因?yàn)殄e(cuò)誤的推理痕跡仍然可以得出正確的選擇。如果盡管采取了這些緩解措施,還是發(fā)生了災(zāi)難性記憶問(wèn)題,那么使用作者在論文中提供的指南很容易設(shè)計(jì)新問(wèn)題。
圖 2.:為了回答 GAIA 中的問(wèn)題,GPT4(配置了代碼解釋器)等 AI 助手需要完成幾個(gè)步驟,可能需要使用工具或讀取文件。
GAIA 的最后一個(gè)原則是易用性。其中的任務(wù)是簡(jiǎn)單的提示,可能會(huì)附帶一個(gè)附加文件。最重要的是,問(wèn)題的答案是事實(shí)、簡(jiǎn)潔且明確的。這些屬性允許簡(jiǎn)單、快速和真實(shí)的評(píng)估。問(wèn)題旨在測(cè)試 zero-shot 能力,限制評(píng)估設(shè)置的影響。相反,許多 LLM 基準(zhǔn)要求對(duì)實(shí)驗(yàn)設(shè)置敏感的評(píng)估,例如提示的數(shù)量和性質(zhì)或基準(zhǔn)實(shí)現(xiàn)。
現(xiàn)有模型的跑分
GAIA 的設(shè)計(jì)使得大模型智能水平的評(píng)估自動(dòng)化、快速且真實(shí)。實(shí)際上,除非另有說(shuō)明,每個(gè)問(wèn)題都需要一個(gè)答案,該答案可以是字符串(一個(gè)或幾個(gè)單詞)、數(shù)字或逗號(hào)分隔的字符串或浮點(diǎn)數(shù)列表,但只有一個(gè)正確答案。因此,評(píng)估是通過(guò)模型的答案和基本事實(shí)之間的準(zhǔn)精確匹配來(lái)完成的(直到與基本事實(shí)的「類型」相關(guān)的某種歸一化)。系統(tǒng)(或前綴)提示用于告知模型所需的格式,請(qǐng)參見(jiàn)圖 2。
實(shí)際上,GPT4 級(jí)別模型很容易遵循 GAIA 的格式。GAIA 已提供了評(píng)分功能和排行榜。
目前只測(cè)試了大模型領(lǐng)域的「標(biāo)桿」,OpenAI 的 GPT 系列,可見(jiàn)不管哪個(gè)版本分?jǐn)?shù)都很低,Level 3 的得分還經(jīng)常是零分。
使用 GAIA 評(píng)估 LLM 只需要能夠提示模型,即有 API 訪問(wèn)權(quán)限即可。在 GPT4 測(cè)試中,最高分?jǐn)?shù)是人類手動(dòng)選擇插件的結(jié)果。值得注意的是,AutoGPT 能夠自動(dòng)進(jìn)行此選擇。
只要 API 可用,測(cè)試時(shí)就會(huì)運(yùn)行該模型 3 次并報(bào)告平均結(jié)果。
圖 4:每種方法和級(jí)別的分?jǐn)?shù)和回答時(shí)間。
總體而言,人類在問(wèn)答中的各個(gè)層面都表現(xiàn)出色,但目前最好的大模型顯然表現(xiàn)不佳。作者認(rèn)為,GAIA 可以對(duì)有能力的 AI 助手進(jìn)行清晰的排名,同時(shí)在未來(lái)幾個(gè)月甚至幾年內(nèi)留下很大的改進(jìn)空間。
不過(guò)從回答花費(fèi)的時(shí)間上來(lái)看,像 GPT-4 這樣的大模型有潛在的可以替代現(xiàn)有搜索引擎的能力。
沒(méi)有插件的 GPT4 結(jié)果與其他結(jié)果之間的差異表明,通過(guò)工具 API 或訪問(wèn)網(wǎng)絡(luò)來(lái)增強(qiáng) LLM 可以提高答案的準(zhǔn)確性,并解鎖許多新的用例,這證實(shí)了該研究方向的巨大潛力。
AutoGPT-4 允許 GPT-4 自動(dòng)使用工具,但與沒(méi)有插件的 GPT4 相比,Level 2 甚至 Level 1 的結(jié)果都令人失望。這種差異可能來(lái)自 AutoGPT-4 依賴 GPT-4 API(提示和生成參數(shù))的方式,并且在不久的將來(lái)需要進(jìn)行新的評(píng)估。與其他 LLM 相比,AutoGPT4 也很慢??傮w而言,人類和帶有插件的 GPT-4 之間的協(xié)作似乎是「性能」最好的。
圖 5 顯示了按功能劃分的模型獲得的分?jǐn)?shù)。顯然,單純的 GPT-4 無(wú)法處理文件和多模態(tài),但能夠解決注釋者使用網(wǎng)頁(yè)瀏覽的問(wèn)題,主要是因?yàn)樗_地記憶了需要組合的信息片段以獲得答案。
圖 3 左:解決 GAIA 中問(wèn)題需要使用的能力的數(shù)量。右:每個(gè)點(diǎn)對(duì)應(yīng)一個(gè) GAIA 問(wèn)題。在給定位置,點(diǎn)的大小與問(wèn)題數(shù)量成正比,并且僅顯示問(wèn)題數(shù)量最多的級(jí)別。這兩個(gè)數(shù)字都是基于人類注釋者在回答問(wèn)題時(shí)報(bào)告的信息,人工智能系統(tǒng)的處理方式可能會(huì)有所不同。
在 GAIA 上獲得完美得分需要 AI 具備先進(jìn)的推理、多模態(tài)理解、編碼能力和一般工具使用能力,例如網(wǎng)頁(yè)瀏覽。AI 還包括需要處理各種數(shù)據(jù)模態(tài),例如 PDF、 電子表格,圖像、視頻或音頻。
盡管網(wǎng)頁(yè)瀏覽是 GAIA 的關(guān)鍵組成部分,但我們不需要 AI 助手在網(wǎng)站上執(zhí)行除「點(diǎn)擊」之外的操作,例如上傳文件、發(fā)表評(píng)論或預(yù)訂會(huì)議。在真實(shí)環(huán)境中測(cè)試這些功能,同時(shí)避免制造垃圾信息需要謹(jǐn)慎,這個(gè)方向會(huì)留在未來(lái)的工作中。
難度遞增:根據(jù)解決問(wèn)題所需的步驟以及回答問(wèn)題所需的不同工具的數(shù)量,可以將問(wèn)題分為三個(gè)難度遞增的級(jí)別。步驟或工具自然沒(méi)有單一的定義,并且可能有多種路徑來(lái)回答給定的問(wèn)題。
- Level 1 問(wèn)題一般不需要工具,或者最多一個(gè)工具但不超過(guò) 5 個(gè)步驟。
- Level 2 問(wèn)題通常涉及更多步驟,大約在 5-10 步之間,并且需要結(jié)合不同的工具。
- Level 3 是針對(duì)近乎完美的通用助理的問(wèn)題,要求采取任意長(zhǎng)的行動(dòng)序列,使用任意數(shù)量的工具,并能夠接觸到真實(shí)世界。
GAIA 針對(duì)現(xiàn)實(shí)世界的 AI 助理設(shè)計(jì)問(wèn)題,設(shè)計(jì)中的問(wèn)題還包括面向殘障人士的任務(wù),如在小音頻文件中查找信息。最后,該基準(zhǔn)盡最大努力涵蓋各種主題領(lǐng)域和文化,盡管數(shù)據(jù)集的語(yǔ)言僅限于英語(yǔ)。
更多細(xì)節(jié)請(qǐng)參考原論文。