人類考92分的題，GPT-4只能考15分：測(cè)試一升級(jí)，大模型全都現(xiàn)原形了

作者：機(jī)器之心 2023-11-26 17:35:34

GAIA 針對(duì)現(xiàn)實(shí)世界的 AI 助理設(shè)計(jì)問(wèn)題，設(shè)計(jì)中的問(wèn)題還包括面向殘障人士的任務(wù)，如在小音頻文件中查找信息。最后，該基準(zhǔn)盡最大努力涵蓋各種主題領(lǐng)域和文化，盡管數(shù)據(jù)集的語(yǔ)言僅限于英語(yǔ)。

GPT-4 自誕生以來(lái)一直是位「優(yōu)等生」，在各種考試（基準(zhǔn)）中都能得高分。但現(xiàn)在，它在一份新的測(cè)試中只拿到了 15 分，而人類能拿 92。

這套名叫「GAIA」的測(cè)試題由來(lái)自 Meta-FAIR、Meta-GenAI、HuggingFace 和 AutoGPT 的團(tuán)隊(duì)制作，提出了一些需要一系列基本能力才能解決的問(wèn)題，如推理、多模態(tài)處理、網(wǎng)頁(yè)瀏覽和一般工具使用能力。這些問(wèn)題對(duì)人類來(lái)說(shuō)非常簡(jiǎn)單，但對(duì)大多數(shù)高級(jí) AI 來(lái)說(shuō)卻極具挑戰(zhàn)性。如果里面的問(wèn)題都能解決，通關(guān)的模型將成為 AI 研究的重要里程碑。

GAIA 的設(shè)計(jì)理念和當(dāng)前的很多 AI 基準(zhǔn)不一樣，后者往往傾向于設(shè)計(jì)一些對(duì)人類來(lái)說(shuō)越來(lái)越難的任務(wù)，這背后其實(shí)反映了當(dāng)前社區(qū)對(duì) AGI 理解的差異。GAIA 背后的團(tuán)隊(duì)認(rèn)為，AGI 的出現(xiàn)取決于系統(tǒng)能否在上述「簡(jiǎn)單」問(wèn)題上表現(xiàn)出與普通人類似的穩(wěn)健性。

圖 1：GAIA 問(wèn)題示例。完成這些任務(wù)要求大模型具備一定推理、多模態(tài)或工具使用等基本能力。答案是明確的，并且按照設(shè)計(jì)，不可能在訓(xùn)練數(shù)據(jù)的純文本中找到答案。有些問(wèn)題帶有額外的證據(jù)，例如圖像，反映真實(shí)的用例并允許更好地控制問(wèn)題。

盡管 LLM 能成功完成人類難以完成的任務(wù)，但能力最強(qiáng)的 LLM 在 GAIA 上的表現(xiàn)卻難以令人滿意。即使配備了工具，GPT4 在最簡(jiǎn)單的任務(wù)中成功率也不超過(guò) 30%，而在最難的任務(wù)中成功率為 0%。與此同時(shí)，人類受訪者的平均成功率為 92%。

因此，如果一個(gè)系統(tǒng)能解決 GAIA 里的問(wèn)題，我們就能在 t-AGI 系統(tǒng)中去評(píng)估它。t-AGI 是 OpenAI 工程師 Richard Ngo 構(gòu)建的一套細(xì)化 AGI 評(píng)估系統(tǒng)，其中包括 1-second AGI、1-minute AGI、1-hour AGI 等等，用來(lái)考察某個(gè) AI 系統(tǒng)能否在限定時(shí)間里完成人類通?；ㄏ嗤瑫r(shí)間可以完成的任務(wù)。作者表示，在 GAIA 測(cè)試中，人類通常需要 6 分鐘左右回答最簡(jiǎn)單的問(wèn)題，17 分鐘左右回答最復(fù)雜的問(wèn)題。

使用 GAIA 的方法，作者設(shè)計(jì)了 466 個(gè)問(wèn)題及其答案。他們發(fā)布了一個(gè)包含 166 個(gè)問(wèn)題和答案的開(kāi)發(fā)者集，另外 300 個(gè)問(wèn)題發(fā)布時(shí)不帶答案。該基準(zhǔn)以排行榜的形式發(fā)布。

排行榜地址：https://huggingface.co/spaces/gaia-benchmark/leaderboard
論文地址：https://arxiv.org/pdf/2311.12983.pdf
HuggingFace 主頁(yè)地址：https://huggingface.co/papers/2311.12983

GAIA 是什么

GAIA 是如何運(yùn)作的？研究人員表示，GAIA 是用于測(cè)試人工智能系統(tǒng)一般助理問(wèn)題的基準(zhǔn)。GAIA 試圖規(guī)避此前大量 LLM 評(píng)估的不同缺陷。它由人類設(shè)計(jì)和注釋的 466 個(gè)問(wèn)題組成。這些問(wèn)題基于文本，有的附帶文件（例如圖像或電子表格）。它們涵蓋各種輔助性質(zhì)的任務(wù)，例如日常個(gè)人任務(wù)、科學(xué)或常識(shí)。

這些問(wèn)題指向一個(gè)簡(jiǎn)短的、單一的正確答案，因此易于驗(yàn)證。

要使用 GAIA，只需向人工智能助手零樣本提出問(wèn)題并附上依據(jù)（如有的話）。在 GAIA 上獲得完美得分需要一系列不同的基本能力。制作者在該項(xiàng)目的補(bǔ)充材料中提供了各種問(wèn)題和元數(shù)據(jù)。

GAIA 的產(chǎn)生既源于升級(jí)人工智能基準(zhǔn)的需要，也源于目前廣泛觀察到的 LLM 評(píng)估的缺點(diǎn)。

作者表示，設(shè)計(jì) GAIA 的首要原則是針對(duì)概念上簡(jiǎn)單的問(wèn)題，它們盡管對(duì)人類來(lái)說(shuō)可能很乏味，但又多種多樣，植根于現(xiàn)實(shí)世界，對(duì)當(dāng)前的人工智能系統(tǒng)具有挑戰(zhàn)性。這使得我們可以專注于基本能力，例如通過(guò)推理快速適應(yīng)、多模態(tài)理解和潛在的多樣化工具使用，而不是專業(yè)技能方面。

這些問(wèn)題通常包括查找和轉(zhuǎn)換從不同來(lái)源（例如提供的文檔或開(kāi)放且不斷變化的網(wǎng)絡(luò)）收集的信息，以產(chǎn)生準(zhǔn)確的答案。要回答圖 1 的示例問(wèn)題，LLM 通常應(yīng)該瀏覽網(wǎng)絡(luò)查找研究，然后尋找正確的注冊(cè)位置。這與此前基準(zhǔn)體系的趨勢(shì)相反，以前的基準(zhǔn)對(duì)人類來(lái)說(shuō)越來(lái)越困難，和 / 或在純文本或人工環(huán)境中操作。

GAIA 的第二個(gè)原則是可解釋性。與題海相比，精心策劃的問(wèn)題數(shù)量有限，使得新基準(zhǔn)更易于使用。該任務(wù)概念簡(jiǎn)單（人類成功率為 92%），使用戶很容易理解模型的推理軌跡。對(duì)于圖 1 中的 1 級(jí)問(wèn)題，推理跟蹤主要包括檢查正確的網(wǎng)站，并報(bào)告正確的數(shù)字，這很容易驗(yàn)證。

GAIA 的第三個(gè)原則是對(duì)記憶的魯棒性：GAIA 的目標(biāo)是比大多數(shù)當(dāng)前基準(zhǔn)測(cè)試的猜題可能性更低。為了完成一項(xiàng)任務(wù)，系統(tǒng)必須計(jì)劃好并成功完成一些步驟。因?yàn)楦鶕?jù)設(shè)計(jì)，當(dāng)前預(yù)訓(xùn)練數(shù)據(jù)中沒(méi)有以純文本形式生成結(jié)果答案。準(zhǔn)確性的進(jìn)步反映了系統(tǒng)的實(shí)際進(jìn)步。由于它們的多樣性和行動(dòng)空間的大小，這些任務(wù)不能在不作弊的情況下被暴力破解，例如通過(guò)記住基本事實(shí)。盡管數(shù)據(jù)污染可能導(dǎo)致額外的正確率，但答案所需的準(zhǔn)確性、答案在預(yù)訓(xùn)練數(shù)據(jù)中的缺失以及檢查推理軌跡的可能性減輕了這種風(fēng)險(xiǎn)。

相反，多項(xiàng)選擇答案使污染評(píng)估變得困難，因?yàn)殄e(cuò)誤的推理痕跡仍然可以得出正確的選擇。如果盡管采取了這些緩解措施，還是發(fā)生了災(zāi)難性記憶問(wèn)題，那么使用作者在論文中提供的指南很容易設(shè)計(jì)新問(wèn)題。

圖 2.：為了回答 GAIA 中的問(wèn)題，GPT4（配置了代碼解釋器）等 AI 助手需要完成幾個(gè)步驟，可能需要使用工具或讀取文件。

GAIA 的最后一個(gè)原則是易用性。其中的任務(wù)是簡(jiǎn)單的提示，可能會(huì)附帶一個(gè)附加文件。最重要的是，問(wèn)題的答案是事實(shí)、簡(jiǎn)潔且明確的。這些屬性允許簡(jiǎn)單、快速和真實(shí)的評(píng)估。問(wèn)題旨在測(cè)試 zero-shot 能力，限制評(píng)估設(shè)置的影響。相反，許多 LLM 基準(zhǔn)要求對(duì)實(shí)驗(yàn)設(shè)置敏感的評(píng)估，例如提示的數(shù)量和性質(zhì)或基準(zhǔn)實(shí)現(xiàn)。

現(xiàn)有模型的跑分

GAIA 的設(shè)計(jì)使得大模型智能水平的評(píng)估自動(dòng)化、快速且真實(shí)。實(shí)際上，除非另有說(shuō)明，每個(gè)問(wèn)題都需要一個(gè)答案，該答案可以是字符串（一個(gè)或幾個(gè)單詞）、數(shù)字或逗號(hào)分隔的字符串或浮點(diǎn)數(shù)列表，但只有一個(gè)正確答案。因此，評(píng)估是通過(guò)模型的答案和基本事實(shí)之間的準(zhǔn)精確匹配來(lái)完成的（直到與基本事實(shí)的「類型」相關(guān)的某種歸一化）。系統(tǒng)（或前綴）提示用于告知模型所需的格式，請(qǐng)參見(jiàn)圖 2。

實(shí)際上，GPT4 級(jí)別模型很容易遵循 GAIA 的格式。GAIA 已提供了評(píng)分功能和排行榜。

目前只測(cè)試了大模型領(lǐng)域的「標(biāo)桿」，OpenAI 的 GPT 系列，可見(jiàn)不管哪個(gè)版本分?jǐn)?shù)都很低，Level 3 的得分還經(jīng)常是零分。

使用 GAIA 評(píng)估 LLM 只需要能夠提示模型，即有 API 訪問(wèn)權(quán)限即可。在 GPT4 測(cè)試中，最高分?jǐn)?shù)是人類手動(dòng)選擇插件的結(jié)果。值得注意的是，AutoGPT 能夠自動(dòng)進(jìn)行此選擇。

只要 API 可用，測(cè)試時(shí)就會(huì)運(yùn)行該模型 3 次并報(bào)告平均結(jié)果。

圖 4：每種方法和級(jí)別的分?jǐn)?shù)和回答時(shí)間。

總體而言，人類在問(wèn)答中的各個(gè)層面都表現(xiàn)出色，但目前最好的大模型顯然表現(xiàn)不佳。作者認(rèn)為，GAIA 可以對(duì)有能力的 AI 助手進(jìn)行清晰的排名，同時(shí)在未來(lái)幾個(gè)月甚至幾年內(nèi)留下很大的改進(jìn)空間。

不過(guò)從回答花費(fèi)的時(shí)間上來(lái)看，像 GPT-4 這樣的大模型有潛在的可以替代現(xiàn)有搜索引擎的能力。

沒(méi)有插件的 GPT4 結(jié)果與其他結(jié)果之間的差異表明，通過(guò)工具 API 或訪問(wèn)網(wǎng)絡(luò)來(lái)增強(qiáng) LLM 可以提高答案的準(zhǔn)確性，并解鎖許多新的用例，這證實(shí)了該研究方向的巨大潛力。

AutoGPT-4 允許 GPT-4 自動(dòng)使用工具，但與沒(méi)有插件的 GPT4 相比，Level 2 甚至 Level 1 的結(jié)果都令人失望。這種差異可能來(lái)自 AutoGPT-4 依賴 GPT-4 API（提示和生成參數(shù)）的方式，并且在不久的將來(lái)需要進(jìn)行新的評(píng)估。與其他 LLM 相比，AutoGPT4 也很慢?？傮w而言，人類和帶有插件的 GPT-4 之間的協(xié)作似乎是「性能」最好的。

圖 5 顯示了按功能劃分的模型獲得的分?jǐn)?shù)。顯然，單純的 GPT-4 無(wú)法處理文件和多模態(tài)，但能夠解決注釋者使用網(wǎng)頁(yè)瀏覽的問(wèn)題，主要是因?yàn)樗_地記憶了需要組合的信息片段以獲得答案。

圖 3 左：解決 GAIA 中問(wèn)題需要使用的能力的數(shù)量。右：每個(gè)點(diǎn)對(duì)應(yīng)一個(gè) GAIA 問(wèn)題。在給定位置，點(diǎn)的大小與問(wèn)題數(shù)量成正比，并且僅顯示問(wèn)題數(shù)量最多的級(jí)別。這兩個(gè)數(shù)字都是基于人類注釋者在回答問(wèn)題時(shí)報(bào)告的信息，人工智能系統(tǒng)的處理方式可能會(huì)有所不同。

在 GAIA 上獲得完美得分需要 AI 具備先進(jìn)的推理、多模態(tài)理解、編碼能力和一般工具使用能力，例如網(wǎng)頁(yè)瀏覽。AI 還包括需要處理各種數(shù)據(jù)模態(tài)，例如 PDF、電子表格，圖像、視頻或音頻。

盡管網(wǎng)頁(yè)瀏覽是 GAIA 的關(guān)鍵組成部分，但我們不需要 AI 助手在網(wǎng)站上執(zhí)行除「點(diǎn)擊」之外的操作，例如上傳文件、發(fā)表評(píng)論或預(yù)訂會(huì)議。在真實(shí)環(huán)境中測(cè)試這些功能，同時(shí)避免制造垃圾信息需要謹(jǐn)慎，這個(gè)方向會(huì)留在未來(lái)的工作中。

難度遞增：根據(jù)解決問(wèn)題所需的步驟以及回答問(wèn)題所需的不同工具的數(shù)量，可以將問(wèn)題分為三個(gè)難度遞增的級(jí)別。步驟或工具自然沒(méi)有單一的定義，并且可能有多種路徑來(lái)回答給定的問(wèn)題。

Level 1 問(wèn)題一般不需要工具，或者最多一個(gè)工具但不超過(guò) 5 個(gè)步驟。
Level 2 問(wèn)題通常涉及更多步驟，大約在 5-10 步之間，并且需要結(jié)合不同的工具。
Level 3 是針對(duì)近乎完美的通用助理的問(wèn)題，要求采取任意長(zhǎng)的行動(dòng)序列，使用任意數(shù)量的工具，并能夠接觸到真實(shí)世界。

更多細(xì)節(jié)請(qǐng)參考原論文。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心