成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這些VLM竟都是盲人?GPT-4o、Sonnet-3.5相繼敗于「視力」測試

人工智能 新聞
自 GPT-4V 推出以來,視覺語言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。

讓現在最火的 SOTA 模型們(GPT-4o,Gemini-1.5,Sonnet-3,Sonnet-3.5)數一數兩條線有幾個交點,他們表現會比人類好嗎?

答案很可能是否定的。

自 GPT-4V 推出以來,視覺語言模型 (VLMs) 讓大模型的智能程度朝著我們想象中的人工智能水平躍升了一大步。

VLMs 既能看懂畫面,又能用語言來描述看到的東西,并基于這些理解來執行復雜的任務。比如,給 VLM 模型發去一張餐桌的圖片,再發一張菜單的圖片,它就能從兩張圖中分別提取啤酒瓶的數量和菜單上的單價,算出這頓飯買啤酒花了多少錢。

VLMs 的進步如此之快,以至于讓模型找出這張圖中有沒有一些不合常理的「抽象元素」,例如,讓模型鑒定圖中有沒有一個人正在飛馳的出租車上熨衣服,成為了一種通行的測評方式。

圖片

然而,目前的基準測試集并不能很好地評估 VLMs 的視覺能力。以 MMMU 為例,其中有 42.9% 的問題不需要看圖,就能解決,也就是說,許多答案可以僅通過文本問題和選項推斷出來。其次,現在 VLM 展示出的能力,很大程度上是「背記」大規?;ヂ摼W數據的結果。這導致了 VLMs 在測試集中的得分很高,但這并不代表這個判斷成立:VLM 可以像人類一樣感知圖像嗎?

為了得到這個問題的答案,來自奧本大學和阿爾伯塔大學的研究者決定給 VLMs「測測視力」。從驗光師的「視力測試」處得到了啟發,他們讓:GPT-4o、Gemini-1.5 Pro 、Claude-3 Sonnet 和 Claude-3.5 Sonnet 這四款頂級 VLM 做了一套「視力測試題」。

  • 論文標題:Vision language models are blind
  • 論文鏈接:https://arxiv.org/pdf/2407.06581
  • 項目鏈接:https://vlmsareblind.github.io/

這套題很簡單,例如,數兩條線有幾個交點,識別是哪個字母被紅圈標出來了,幾乎不需要任何世界知識。測試結果令人震驚,VLMs 實際上都「近視」,圖片的細節在它們看來實際是模糊的。

VLM 瞎不瞎?七大任務,一測便知

為了避免 VLMs 從互聯網數據集中直接「抄答案」,論文作者設計了一套全新的「視力測試」。論文作者選擇讓 VLMs 判斷空間中幾何圖形之間的關系,例如兩個圖形是否相交。因為這些圖案在白色畫布上的空間信息,通常無法用自然語言描述。

人類在處理這些信息時,將通過「視覺大腦」感知。但對于 VLMs 來說,它們所依靠的是在模型的初期階段將圖像特征和文本特征結合起來,即將視覺編碼器集成到大型語言模型中,這本質上是一個沒有眼睛的知識大腦。

初步實驗表明,VLMs 在面對人類視力測試,比如我們每個人都測過的顛來倒去的「E」視力表等等,它們的表現已經非常驚艷。

測試與結果

第一關:數一數線條之間有幾個交點?

論文作者在白色背景上創建了 150 幅含有兩條線段的圖像。這些線段的 x 坐標固定并等間距分布,而 y 坐標則是隨機生成的。兩條線段之間的交點只有 0 個、1 個、2 個三種情況。

如圖 5 所示,在兩版提示詞和三版線段粗細不同的測試中,所有 VLMs 在這個簡單任務上表現都不佳。

擁有最佳準確率的 Sonnet-3.5 也僅為 77.33%(見表 1)。

更具體地說,當兩條線之間的距離縮小時,VLMs 的表現往往更差(見下方圖 6)。由于每個線圖由三個關鍵點組成,兩條線之間的距離計算為三個對應點對的平均距離。

該結果與 VLMs 在 ChartQA 上的高準確率形成鮮明對比,這表明 VLMs 能夠識別線圖的整體趨勢,但無法「放大」以看到類似于「哪些線條相交了」這種細節。

第二關:判斷兩個圓之間的位置關系

如圖所示,論文作者在一個給定大小的畫布上,隨機生成兩個大小一致的圓。兩個圓的位置關系只有三種情況:相交、相切和相離。

令人驚訝的是,在這個對人類來說直觀可見,一眼就能看出答案的的任務中,沒有一個 VLM 能夠完美地給出答案(見圖 7)。

準確率最佳(92.78%)的模型是 Gemini-1.5(見表 2)。

在實驗中,有一種情況頻繁出現:當兩個圓靠得很近時,VLMs 往往表現不佳,但會做出有根據的推測。如下圖所示,Sonnet-3.5 通常保守地回答「否」。

圖片

如圖 8 所示,即使當兩個圓之間的距離相差得很遠,有一個半徑(d = 0.5)這么寬時,準確率最差的 GPT-4o 也做不到 100% 準確。

也就是說,VLM 的視覺似乎不夠清晰,無法看到兩個圓之間的細小間隙或交點。

第三關:有幾個字母被紅圈圈起來了?

由于一個單詞間字母之間的間隔很小,論文作者們假設:如果 VLMs「近視」,那么它們是沒辦法識別出被紅圈圈出的字母的。

因此,他們選擇了「Acknowledgement」、「Subdermatoglyphic」和「tHyUiKaRbNqWeOpXcZvM」這樣的字符串。隨機生成紅圈圈出字符串中的某個字母,作為測試。

測試結果說明,被測模型在這一關的表現都很差(見圖 9 和表 3)。

圖片

例如,當字母被紅圈輕微遮擋時,視覺語言模型往往會出錯。它們經常混淆紅圈旁邊的字母。有時模型會產生幻覺,例如,盡管能夠準確拼寫單詞,但會給單詞中添加(例如,「9」,「n」,「?」)等亂碼。

圖片

除了 GPT-4o 之外,所有模型在單詞上的表現都略好于隨機字符串,這表明知道單詞的拼寫可能有助于視覺語言模型做出判斷,從而略微提高準確性。

Gemini-1.5 和 Sonnet-3.5 是排名前二的模型,準確率分別為 92.81% 和 89.22%,并且比 GPT-4o 和 Sonnet-3 的表現近乎高出近 20%。

第四關和第五關:重疊的圖形有幾個?有幾個「套娃」正方形?

假設 VLMs「近視」,那么它們可能無法清晰地看到類似于「奧運五環」這樣的圖案,每兩個圓圈之間的交叉點。為此,論文作者隨機生成了 60 組類似于「奧運五環」的圖案,讓 VLMs 數一數它們重疊的圖形有幾個。他們也生成了五邊形版的「奧運五環」進一步測試。

圖片

由于 VLMs 計算相交圓圈的數量時表現不佳,論文作者進一步測試了當圖案的邊緣不相交,每個形狀完全嵌套在另一個形狀內部的情況。他們用 2-5 正方形生成了「套娃」式的圖案,并讓 VLMs 計算圖像中的正方形總數。

從下表中鮮紅的叉號不難看出,這兩關對于 VLMs 來說,也是難以逾越的障礙。

在嵌套正方形的測試中,各個模型的準確率差異很大:GPT-4o(準確率 48.33%)和 Sonnet-3(準確率 55.00%)這兩種模型至少比 Gemini-1.5(準確率 80.00%)和 Sonnet-3.5(準確率 87.50%)低 30 個百分點。

這種差距在模型計數重疊的圓形和五邊形時則會更大,不過 Sonnet-3.5 的表現要比其他模型好上幾倍。如下表所示,當圖像為五邊形時,Sonnet-3.5 以 75.83% 的準確率遠超 Gemini-1.5 的 9.16%。

令人驚訝的是,被測的四個模型在數 5 個圓環時都達到了 100% 的準確率,但僅僅額外添加一個圓環就足以使準確率大幅下降到接近零的水平。

然而,在計算五邊形時,所有 VLM(除 Sonnet-3.5 外)即使在計算 5 個五邊形時也表現不佳。總體來看,計算 6 到 9 個形狀(包括圓和五邊形)對所有模型來說都是困難的。

這表明,VLM 存在偏見,它們更傾向于輸出著名的「奧運五環」作為結果。例如,無論實際圓的數量是多少,Gemini-1.5 都會在 98.95% 的試驗里將結果預測為「5」(見表 5)。對于其他模型,這種圓環預測錯誤出現的頻率也遠高于五邊形的情況。

除了數量外,VLM 在形狀的顏色上也有不同的「偏好」。

GPT-4o 在彩色形狀上的表現優于純黑的形狀,而 Sonnet-3.5 隨著圖像尺寸的增加預測的表現越來越好。然而,當研究人員改變顏色和圖像分辨率時,其他模型的準確率僅略有變化。

值得注意的是,在計算嵌套正方形的任務中,即使正方形的數量只有 2-3 個,GPT-4o 和 Sonnet-3 依然很難計算。當正方形的數量增加到四個和五個時,所有模型都遠未達到 100% 的準確率。這表明,即使形狀的邊緣不相交,VLM 也很難準確地提取目標形狀。

第六關:數一數表格有幾行?有幾列?

雖然 VLMs 在重疊或嵌套圖形時遇到了困難,但它們眼中的平鋪圖案又是怎樣的呢?在基礎測試集中,特別是包含許多含有表格任務的 DocVQA,被測模型的準確率都≥90%。論文作者隨機生成了 444 個行數列數各異的表格,讓 VLMs 數一數表格有幾行?有幾列?

結果顯示,雖然在基礎數據集中拿到了高分,但如下圖所示,VLM 在計數空表格中的行和列也表現不佳。

具體來說,它們通常會存在 1-2 格的偏差。如下圖所示,GPT-4o 把 4×5 的網格認成了 4×4,Gemini-1.5 則認成了 5×5。

這表明,雖然 VLMs 可以從表格中提取重要內容以回答 DocVQA 中的表格相關問題,但無法清晰地逐格識別表格。

這可能是因為文檔中的表格大多是非空的,而 VLM 不習慣空表格。有趣的是,在研究人員通過嘗試在每個單元格中添加一個單詞來簡化任務后,觀察到所有 VLM 的準確率顯著提高,例如,GPT-4o 從 26.13% 提高到了 53.03%(見表 6)。然而,這種情況中,被測模型的表現依舊不完美。如圖 15a 和 b 所示,表現最好的模型(Sonnet-3.5)在包含文本的網格中表現為 88.68%,而在空網格中表現為 59.84%。

而大多數模型(Gemini-1.5、Sonnet-3 和 Sonnet-3.5)在計算列數方面的表現始終優于計算行數(見圖 15c 和 d)。

第七關:從出發點到目的地,有幾條地鐵直達線路?

這項測試檢測的是 VLMs 跟隨路徑的能力,這對于模型解讀地圖、圖表以及能否理解用戶在輸入的圖片中添加的箭頭等標注至關重要。為此,論文作者隨機生成了 180 幅地鐵線路圖,每張圖有四個固定的站點。他們要求 VLMs 計算兩個站點之間有多少條單色的路徑。

測試結果令人震驚,即使把兩個站點之間的路徑簡化到只有一條,所有模型也無法達到 100% 的準確率。如表 7 所示,表現最好的模型是 Sonnet-3.5,準確率為 95%;最差的模型是 Sonnet-3,準確率為 23.75%。

從下圖中不難看出,VLM 的預測通常會有 1 到 3 條路徑的偏差。隨著地圖復雜度從 1 條路徑增加到 3 條路徑,大多數 VLM 的表現都變得更差。

圖片

面對當今主流 VLM 在圖像識別上表現極差這一「無情事實」,眾多網友先是拋開了自己「AI 辯護律師」的身份,留下了很多較為悲觀的評論。

一位網友表示:「SOTA 模型們(GPT-4o,Gemini-1.5 Pro,Sonnet-3,Sonnet-3.5)表現得如此糟糕真是令人尷尬,而這些模型居然在宣傳時還聲稱:它們可以理解圖像?例如它們可以用于幫助盲人或輔導兒童幾何學!

圖片

在悲觀陣營的另一方,一位網友認為這些糟糕的結果可以通過訓練和微調輕松解決。只需生成大約 100,000 個示例,并用真實數據進行訓練,這樣問題就解決了。

圖片

不過,無論是「AI 辯護者」還是「AI 悲觀者」都默認了一個事實:VLM 在圖像測試中,仍然存在極難調和的事實性缺陷。

論文作者也收到了對更多這個測試是否科學的質疑。

圖片

有網友認為,這篇論文的測試并不能說明 VLMs「近視」。首先近視的人看細節并不模糊,「看細節模糊」是遠視的癥狀。其次,看不見細節與不能計算交點的數量是兩回事。計算空白網格的行和列的數量的準確率,不會因為分辨率的提高而提高,而提高圖像的分辨率對于理解這個任務并沒有幫助。此外,提高圖像分辨率對于理解這個任務中的重疊線條或交叉點并不會產生顯著影響。

實際上,這些視覺語言模型(VLMs)在處理這類任務時所面臨的挑戰,可能更多地與它們的推理能力和對圖像內容的解釋方式有關,而不僅僅是視覺分辨率的問題。換句話說,即使圖像的每個細節都清晰可見,如果模型缺乏正確的推理邏輯或對視覺信息的深入理解,它們仍然可能無法準確地完成這些任務。因此,這項研究可能需要更深入地探討 VLMs 在視覺理解和推理方面的能力,而不僅僅是它們的圖像處理能力。

還有網友認為,如果人類的視覺經過卷積處理,那么人類自身也會在判斷線條交點的測試中遇到困難。

更多信息,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-07-16 13:24:38

2024-06-21 09:58:38

2024-10-06 09:00:00

AI訓練數據

2025-01-22 16:57:32

字節跳動豆包大模型

2024-06-24 12:25:22

2024-06-21 09:51:17

2024-06-21 09:57:00

2009-10-09 13:22:47

Eclipse 3.6Netbeans 6.

2024-09-29 13:07:16

2024-05-21 12:23:17

2024-06-05 08:29:35

2024-06-28 18:13:05

2024-05-24 14:04:04

2025-04-08 02:26:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2025-01-06 13:15:02

2024-05-20 08:20:00

OpenAI模型

2025-03-31 08:44:00

GPT-4o模型技術

2024-06-27 12:45:30

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品区 | 欧美视频精品 | 久久亚洲一区二区 | 日本不卡一区 | 少妇久久久久 | 精品成人 | 久久久精品一区 | 蜜臀91视频 | 福利视频一区二区 | 99热在线免费 | 一区二区三区在线电影 | 一区二区三区影院 | 亚洲精品在线观看网站 | 99精品99| 欧美激情视频一区二区三区在线播放 | 网站黄色在线免费观看 | 日本一区二区三区在线观看 | 久久黄色精品视频 | 日韩在线小视频 | 九热在线 | 久久久精品一区二区三区 | 日本亚洲一区 | 成人av免费 | 国产激情一区二区三区 | 久久亚洲国产精品 | 久久av一区二区三区 | 精品综合久久 | 日韩在线国产 | 福利视频网站 | 国产精品久久av | 亚洲精品2 | 国产黄色在线观看 | 综合久久综合久久 | 天天操天天操 | 国产精品久久久久久久久久久久久 | 国产情侣一区 | 色资源站 | 精品国产乱码久久久久久蜜柚 | 亚洲天堂精品久久 | 国产日本精品视频 | 日韩一区和二区 |