成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視覺語言模型能夠“看見”嗎?

發(fā)布于 2024-7-22 09:48
瀏覽
0收藏

來自奧本大學和阿爾伯塔大學的研究人員發(fā)現(xiàn),最先進的具有視覺能力的大型語言模型(VLMs)在理解涉及基本幾何形狀的空間信息方面表現(xiàn)得非常糟糕,例如判斷兩個圓是否重疊。他們提出了一個名為BlindTest的新基準測試,包括7項簡單任務,這些任務在互聯(lián)網(wǎng)上自然語言中不太可能有現(xiàn)成答案,以測試VLM像人類一樣“看見”圖像的能力。

現(xiàn)有的VLM基準(如MMMU和ChartQA)涵蓋了廣泛的主題,但輸入圖像并非總是回答問題所必需的,即答案可能僅從文本問題和答案選擇中推斷出來,或由模型從互聯(lián)網(wǎng)規(guī)模的訓練中記住。出于這個差距并受到驗光師對人類進行視覺敏銳度測試的啟發(fā),作者設計了7個涉及二維幾何原型的低級視覺任務。然后他們測試了在現(xiàn)有多模態(tài)視覺基準中排名最高的四個VLM——GPT-4o、Gemini-1.5 Pro、Claude-3 Sonnet和Claude-3.5 Sonnet。對于每個任務,他們用兩個語義上等同得不同問題提示VLM。任務和結果如下:

1、計數(shù)線的交叉點

在150張包含兩條有顏色的圖像中,它們恰好在0、1或2點相交,最佳準確率是77.33%(Sonnet-3.5),最差是48.67%(GPT-4o)。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

2、兩個圓重疊或接觸

在672張兩個大小相等的圓重疊、相切或分離(具有方向和大小變化)的圖像中,最佳準確率是92.78%(Gemini-1.5),最差準確率是72.69%(依然是GPT-4o)。此外,當兩個圓靠得很近時,性能往往會下降。

3、字符串中的帶圓圈字母

一個紅色橢圓疊加在字符串中的某個字母上。作者測試了三個字符串——Acknowledgement、Subdermatoglyphic和一個隨機字符串tHyUiKaRbNqWeOpXcZvM。Gemini-1.5(92.81%準確率)和Sonnet-3.5(89.22%準確率)比GPT-4o和Sonnet-3高出近20個百分點。除了GPT-4o,所有模型在兩個英文單詞上的表現(xiàn)略優(yōu)于隨機字符串,這表明知道單詞可能有助于VLM做出更好的猜測。

4、計數(shù)重疊形狀

N個重疊的、同樣大小的圓(N=5,6,7,8,9)像奧運會標志一樣排列成兩排。性能范圍從20.83%(Gemini-1.5)到44.16%(Sonnet-3.5)。重復相同排列的五邊形,性能差異更大,從9.16%(Gemini-1.5)到75.83%(Sonnet-3.5)。所有四個模型在計數(shù)5個圓時都100%準確,但在計數(shù)5個五邊形時表現(xiàn)不佳(除Sonnet-3.5外)。

5、計數(shù)嵌套正方形

2到5個正方形嵌套在一起,每個形狀完全在另一個形狀內(nèi)部。Sonnet-3.5的最佳準確率為87.5%。GPT-4o和Sonnet-3在計數(shù)僅2或3個正方形時就表現(xiàn)不佳。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

6、計算網(wǎng)格的行數(shù)和列數(shù)

VLM很難計算空網(wǎng)格中的確切行數(shù)和列數(shù),最好的模型(Sonnet-3.5)準確率為59.84%,其余模型的準確率為25-26%。然而,在每個單元格中添加一個單詞顯著提高了所有模型的性能。例如,GPT-4o的準確率從26%提高到53%,提高了一倍多。

7、跟蹤單一顏色的路徑

最后一個任務要求模型計算簡化地鐵圖中兩站之間獨特顏色路徑的數(shù)量。“令人震驚”的是,作者發(fā)現(xiàn)即使只有一條路徑時,也沒有模型達到100%準確率。隨著地圖復雜性的增加,大多數(shù)VLM的表現(xiàn)更差。

視覺語言模型能夠“看見”嗎?-AI.x社區(qū)

總體而言,BlindTest基準測試首次為VLM提供了低級視覺健全性檢查。它們在這些簡單(對人類而言)的無需任何先驗知識的任務上的表現(xiàn)令人失望,與它們在現(xiàn)有視覺基準上的令人印象深刻的表現(xiàn)形成對比,這些基準存在數(shù)據(jù)泄漏問題。解決VLM的這些局限性可能是一項不小的挑戰(zhàn),并且可能有助于解決多模態(tài)模型已知的其他視覺缺陷,如理解物體的方向。

本文轉(zhuǎn)載自MoPaaS魔泊云,作者: JAYMEE SHENG ?

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日本三级播放 | 精品日韩一区二区三区av动图 | 91pao对白在线播放 | 亚洲综合免费 | 99re在线视频观看 | 欧美精品成人一区二区三区四区 | 亚洲一级毛片 | 欧美一级欧美一级在线播放 | 国产国产精品 | 久久久精品 | 亚洲成人av | 国产大学生情侣呻吟视频 | www.日韩在线 | 国产精品99久久久久久人 | 黄色片在线观看网址 | 亚洲精品免费在线观看 | 伊人热久久 | 亚洲一区二区三区久久久 | 伊人狼人影院 | 黄色网址在线免费观看 | 欧美激情欧美激情在线五月 | 日韩精品免费播放 | 国产亚洲成av人在线观看导航 | 亚洲三区在线观看 | 男女羞羞在线观看 | 天堂一区在线 | 国产福利91精品 | 国产在线精品一区二区 | 中文字幕免费在线 | 欧美a区| 日韩欧美专区 | 久久影音先锋 | 99福利视频 | 国产精品久久网 | 亚洲视频www | 日韩区| 欧美一区二区三区在线观看 | 国产视频线观看永久免费 | 午夜精品一区二区三区在线观看 | 在线一级片 | 大陆一级毛片免费视频观看 |