這屆出題太難了!新基準(zhǔn)讓多模態(tài)模型集體自閉,GPT-4o都是零分
眼下最頂尖的一批 LMM 是哪些?你可能想到了無(wú)所不能的 GPT-4o、Gemini 2 Flash 等等……
但這些大模型,遇到一個(gè)名為「ZeroBench」的視覺(jué)基準(zhǔn)之后,紛紛敗下陣來(lái)。
20 多個(gè)知名模型,首次作答成績(jī)?nèi)缦拢渴橇惴郑?/span>
震驚之后,我們仔細(xì)研究了這個(gè) ZeroBench 基準(zhǔn)里的問(wèn)題。
對(duì)于大模型來(lái)說(shuō),許多現(xiàn)有的基準(zhǔn)已經(jīng)沒(méi)有任何挑戰(zhàn)性,也失去了作為衡量大模型真實(shí)視覺(jué)理解能力標(biāo)準(zhǔn)的價(jià)值。ZeroBench 的出現(xiàn),顯然打破了這個(gè)局面。
ZeroBench 包含 100 個(gè)具有挑戰(zhàn)性的全新問(wèn)題,具體多有挑戰(zhàn)性呢?請(qǐng)聽(tīng)題:
第題:不用優(yōu)惠,菜單上每款點(diǎn)一個(gè),總共需要多少港幣?
好家伙,這菜單上下顛倒就算了,還反光看不清字,讓在其中找到每道菜的價(jià)格,再做加法,這不是為難我胖虎嗎?
對(duì)于需要更多步驟才能得到答案的多模態(tài)模型來(lái)說(shuō),可能它也需要:「服務(wù)器繁忙,請(qǐng)稍后再試」。
問(wèn)題 2:(i) 計(jì)算壺鈴的總重量?(ii) 計(jì)算重量在 5 至 15 磅之間(含 5 磅和 15 磅)的啞鈴總重量,單位為磅。(iii) 估計(jì)每個(gè)綠色壺鈴的重量,單位為磅。
知識(shí)面不夠?qū)挘€真做不了這題。不光要算總重量,還得挑出綠色的,還得分類統(tǒng)計(jì)......
多模態(tài)模型見(jiàn)了這題都要暗地里蛐蛐:我連自己重多少斤都不知道,您這讓我數(shù)啞鈴?
問(wèn)題 3:你正試圖破解一個(gè)保險(xiǎn)箱,需要一個(gè) 6 位數(shù)密碼。根據(jù)失主留下的線索和物品,請(qǐng)推理出完整密碼。
這是在考眼力,考數(shù)學(xué),還是在拍《達(dá)芬奇密碼》?
看來(lái),ZeroBench 對(duì)多模態(tài)模型確實(shí)很高,不僅得明察秋毫,還得擁有福爾摩斯般的推理能力。
問(wèn)題 4:在八方位指南針上,身體朝南的鵝占總數(shù)的百分比是多少?請(qǐng)精確到小數(shù)點(diǎn)后一位。
想要判斷鵝的身體是否朝南,首先得知道這張圖的南在哪邊?接下來(lái)還需要考慮冬季夏季,南北半球,上午下午?
停停,在高中畢業(yè)之后,我就停止如此深度地使用自己的大腦了。
GPT-4o 做了這道題,分析了半天,最后擺爛了,讓我們重新上傳圖片,「以便它從頭開(kāi)始處理。」可能它也要停下來(lái)發(fā)一句:鵝太南(難)了。
問(wèn)題 5:
(1)現(xiàn)在是英國(guó)牛津的傍晚,這個(gè)時(shí)鐘是根據(jù)物品使用方向來(lái)安裝的。距離正午大約過(guò)去了多少小時(shí)?
(2)這個(gè)時(shí)鐘是用一個(gè)八人賽艇隊(duì)員的裝備制成的,他的隊(duì)伍使用標(biāo)準(zhǔn)裝備。他可能坐在哪些座位?把座位號(hào)加起來(lái)等于多少?
(3)如果將圖像水平翻轉(zhuǎn)一次,垂直翻轉(zhuǎn)一次,然后順時(shí)針旋轉(zhuǎn) 90 度,時(shí)針最接近哪個(gè)整點(diǎn)?
(4)把前三個(gè)答案相乘等于多少?
「從這塊只有指針的表判斷距離正午的時(shí)間」、「表皮是由賽艇隊(duì)員的裝備做成的,他的座位號(hào)是多少?」,「水平翻轉(zhuǎn)一次,垂直翻轉(zhuǎn)一次,然后順時(shí)針旋轉(zhuǎn) 90 度......」
如果說(shuō)前幾題查查資料,努努力還能寫(xiě)出來(lái),現(xiàn)在已經(jīng)來(lái)到連題目都讀不懂的境地了。
看完這些題目,不難理解為什么它叫 ZeroBench —— 因?yàn)?AI 做完這些題后,自信可能就歸零了!
想來(lái)出題人也是頗費(fèi)了一番心思才能琢磨出如此刁鉆的角度。ZeroBench 的研究團(tuán)隊(duì)組織了一個(gè) 20 多人的專家出題組,每道題都是手工高定。
由于很難事先知道一個(gè)問(wèn)題對(duì)多模態(tài)模型來(lái)說(shuō)有多難,因此在開(kāi)發(fā)過(guò)程中,出題人還會(huì)拿最新、最好的模型來(lái)「試水」。發(fā)現(xiàn)題目太簡(jiǎn)單就加料,發(fā)現(xiàn)還能做出來(lái)就繼續(xù)加料,直到調(diào)節(jié)到「難度適中」。
ZeroBench 概述
項(xiàng)目主頁(yè): https://zerobench.github.io/
論文地址: https://arxiv.org/pdf/2502.09696
數(shù)據(jù)集構(gòu)建
伴隨著大模型能力的不斷進(jìn)化,想要?jiǎng)?chuàng)建一個(gè)難度足夠高的問(wèn)題集越來(lái)越難。
ZeroBench 中的每個(gè)問(wèn)題是由 20 多位人類問(wèn)題創(chuàng)建者手工定制的。為了增加問(wèn)題的多樣性,對(duì)問(wèn)題創(chuàng)建者的指導(dǎo)還是比較寬泛的:(1)包含對(duì)回答問(wèn)題至關(guān)重要的困難視覺(jué)元素,(2)包含多步驟推理,(3)盡可能具有挑戰(zhàn)性。
由于很難事先知道一個(gè)問(wèn)題對(duì) LMM 來(lái)說(shuō)有多難,因此在開(kāi)發(fā)過(guò)程中,研究者鼓勵(lì)問(wèn)題創(chuàng)建者在一些前沿模型上對(duì)候選問(wèn)題進(jìn)行評(píng)估,衡量其難度并相應(yīng)地調(diào)整問(wèn)題。
在獲得了 140 個(gè)候選問(wèn)題后,研究者使用了以下由 4 個(gè)部分組成的篩選流程,最終選出了 100 個(gè)問(wèn)題用于 ZeroBench:
- 反饋。對(duì)候選問(wèn)題進(jìn)行篩選,必要時(shí)通過(guò)反復(fù)審查和反饋進(jìn)行改進(jìn)。
- 初步評(píng)估。為了衡量難度,研究者使用 o1 pro(OpenAI,2024a)和 QVQ(Qwen-Team,2024)對(duì)問(wèn)題進(jìn)行了初步評(píng)估。
- 審查。在初步評(píng)估的基礎(chǔ)上,對(duì)每個(gè)候選問(wèn)題都進(jìn)行了全面審查,以確保這些問(wèn)題可以回答、格式和注釋正確、難度足夠且簡(jiǎn)明扼要。審查人員的分配確保了出題者不會(huì)審查到自己的試題。許多試題也被修改了,旨在增加難度。此外,為了降低正確答案被猜中的可能性,必要時(shí)還對(duì)問(wèn)題進(jìn)行了修改,以確保答案范圍足夠廣泛。這就排除了二進(jìn)制、多項(xiàng)選擇或答案為小整數(shù)(即小于 10)的問(wèn)題。不符合要求的問(wèn)題都被過(guò)濾掉了,因此第一次就有了 106 個(gè)合適的問(wèn)題。
- 對(duì)抗過(guò)濾。研究者使用貪婪解碼對(duì)每個(gè) LMM 基線的剩余問(wèn)題進(jìn)行了評(píng)估,并刪除了任何一個(gè)模型都能正確回答的問(wèn)題。每個(gè)模型能正確回答的問(wèn)題差異很大,表現(xiàn)最好的模型也只能得到 4/106 分。有些問(wèn)題只有一個(gè)相對(duì)較弱的模型能正確回答。研究者認(rèn)為這是一種將問(wèn)題分布與當(dāng)前模型能力相聯(lián)系的有效方法。
經(jīng)過(guò)反復(fù)推敲,研究者最終確定了共 100 個(gè)問(wèn)題。為了在評(píng)估過(guò)程中區(qū)分模型性能,他們?cè)趯彶檫^(guò)程中為每個(gè)問(wèn)題創(chuàng)建了一個(gè)或多個(gè)子問(wèn)題。子問(wèn)題(圖 6)由明確的問(wèn)題子部分、自然推理步驟或與得出最終答案相關(guān)的其他數(shù)量生成。
統(tǒng)計(jì)
表 1 顯示了 ZeroBench 的核心統(tǒng)計(jì)數(shù)據(jù),其中包括 100 個(gè)主問(wèn)題和 334 個(gè)子問(wèn)題,在單幅和多幅圖像設(shè)置中包含自然圖像和合成圖像。
如圖 4 所示,主問(wèn)題的文本長(zhǎng)度分布廣泛,最長(zhǎng)可達(dá) 2k 字符;在子問(wèn)題中,短問(wèn)題的比例明顯較高。問(wèn)題中圖片的平均大小(圖 5)分布較為均勻。ZeroBench 中的問(wèn)題以難度為優(yōu)先考慮因素,大多數(shù)問(wèn)題都包含多個(gè)步驟,需要不同的視覺(jué)能力。同樣,問(wèn)題的背景也往往是混合的,需要不同領(lǐng)域的知識(shí)。因此,為每個(gè)問(wèn)題或子問(wèn)題指定不同的類別是不可行的。
評(píng)估
研究者在 ZeroBench 主問(wèn)題和子問(wèn)題上對(duì) 20 個(gè) LMM 進(jìn)行了評(píng)估,結(jié)果見(jiàn)表 2。從中可以得出幾個(gè)結(jié)論:
對(duì)于當(dāng)下 LMM 的水準(zhǔn)而言,ZeroBench 是不可能挑戰(zhàn)成功的。在可重現(xiàn)的環(huán)境中,研究者發(fā)現(xiàn)所有模型在該基準(zhǔn)測(cè)試中都只有 0% 的及格率。
有些問(wèn)題是可以回答的,大多數(shù)模型的得分都不是零。表現(xiàn)最好的模型是 Gemini 2 Flash Thinking,它的 pass@5 得分達(dá)到了 7%(正確回答 7 個(gè)問(wèn)題);QVQ、Gemini 2 Flash 和 Pixtral-Large 的表現(xiàn)也相對(duì)較好,正確回答了 3 個(gè)問(wèn)題。
子問(wèn)題區(qū)分開(kāi)了模型的性能。這部分問(wèn)題對(duì)模型的挑戰(zhàn)性較小,所有模型的得分都不為零。雖然與主問(wèn)題相比,推理模型的難度要低得多,但總體而言,這些模型仍然難以正確回答這些小問(wèn)題,其中絕大多數(shù)都太難了。推理模型在推理過(guò)程中通常會(huì)產(chǎn)生一個(gè)擴(kuò)展的思維鏈,允許它們?cè)诘贸鲎罱K解決方案之前探索多種路徑。然而,在 ZeroBench 上,此類模型與傳統(tǒng)模型相比似乎并無(wú)明顯優(yōu)勢(shì)。
在主問(wèn)題上,開(kāi)放源代碼和封閉源代碼模型的表現(xiàn)仍然很差,沒(méi)有明顯的區(qū)別。不過(guò),通過(guò)比較子問(wèn)題的得分,可以發(fā)現(xiàn)兩者的性能差距很大,領(lǐng)先的開(kāi)源模型(QVQ 19.78%)落后于 SOTA(Claude 3.5 Sonnet v2 24.30%)近 5 個(gè)百分點(diǎn)。
錯(cuò)誤分析
圖 7 展示了在 ZeroBench 子問(wèn)題中經(jīng)常出現(xiàn)的視覺(jué)解讀錯(cuò)誤,例如錯(cuò)誤地計(jì)算物體數(shù)量、無(wú)法「看到」細(xì)微細(xì)節(jié)或準(zhǔn)確提取信息,以及難以理解空間關(guān)系。更多例子可參考附錄。