Bengio團隊提出多模態新基準,直指Claude 3.5和GPT-4o弱點
本文作者張天宇,就讀于加拿大Mila人工智能研究所,師從圖靈獎得主Yoshua Bengio教授。博士期間的主要工作聚焦于多模態、GFlowNet、多智能體強化學習、AI于氣候變化的應用。目前已在ICML、ICLR、ICASSP等機器學習頂會發表論文。代表作為Large-scale Contrastive Language-Audio Pretraining with Feature Fusion and Keyword-to-Caption Augmentation (CLAP)。
想要達成通用人工智能 AGI 的終極目標,首先要達成的是模型要能完成人類所能輕松做到的任務。為了做到這一點,大模型開發的關鍵指導之一便是如何讓機器像人類一樣思考和推理。諸如注意力機制和思維鏈(Chain-of-Thought)等技術正是由此產生的靈感。
然而,可能很多人并沒有意識到,很多對人類來說很簡單的認知任務也往往伴隨著非常復雜的推理過程。舉個栗子,請大家試試根據下方的圖片填補被遮擋的文字空白:
(正確答案:來自全球各地的機器學習研究人員都對新型 GPU 感到興奮。它的尖端功能也能讓大規模實驗更高效、更便宜,即使它有爐灶那么大。)
對大多數中文母語者而言,這個任務應該不難,相信大家不需要幾秒鐘就可以得到答案。但想從露出的部分文字推斷完整文字仍然需要十分復雜的推理過程:當代神經科學研究表明,復原被部分遮擋物體需要能進行高級決策的前額葉皮質的高度參與。
我們知道,當前的視覺語言模型(Vision-Language Models, VLM)可以非常精確地進行物體識別和文字識別。但是,當被遮擋的部分是文字;當模型的光學字符識別(OCR)失效;當僅有的關鍵信息只有被遮擋文字的幾個像素,模型能夠模擬人類的推理過程完成這一任務嗎?
為此,來自圖靈獎得主 Yoshua Bengio 的團隊提出了全新的視覺問答任務:視覺字幕恢復(Visual Caption Restoration,VCR)。讓我們借由這個任務對視覺語言模型的推理能力一探究竟:當前的視覺語言模型距離人類的認知水平還有多長的路要走?
- 論文標題:VCR: Visual Caption Restoration
- 論文鏈接:arxiv.org/abs/2406.06462
- 代碼倉庫:github.com/tianyu-z/VCR (點擊閱讀原文即可直達,包含評用于模型評測和預訓練的數據生成代碼)
- Hugging Face 鏈接:huggingface.co/vcr-org
VCR 數據集簡介
為了開發 VCR 任務,研究人員構建了一個由圖像 - 文字生成 VCR 合成圖像的流程。在該流程中可以通過控制遮住文字的白色矩形大小來改變圖像中文本的可見性,從而控制任務難度。
借由該數據生成流程,研究人員通過維基百科的主圖 - 介紹對生成了 VCR-wiki 數據集。對兩種語言均設置 “簡單” 和 “困難” 兩個難度級別。其中:
- “簡單” 難度 VCR 任務能使得 OCR 模型失效;
- “困難” 難度 VCR 任務則對每個被遮擋的文本只保留上下各 1-2 個像素的高度,但依然能讓對應語言的使用者完成任務。
每種語言和難度中,測試集和驗證集各有 5000 個樣本,剩下的樣本都在訓練集中。
圖例:從左到右分別為,英文簡單難度、英文困難難度、中文簡單難度、中文困難難度
難度進一步提升后,人類 vs 模型
文章開頭的例子對人類而言只是一個小挑戰,不能很好地展示人類做這個任務的極限水平以及人類在解題的時候運用的思維和技巧。下面展示了一個 “困難” 難度的 VCR 任務樣例。讀者可以更專注地嘗試自己填補下方被遮擋的文字空白。
(正確答案:至大論,古希臘托勒密在約公元 140 年編纂的一部數學、天文學專著,提出了恒星和行星的復雜運動路徑。直到中世紀和文藝復興早期,該書提出的地心說模型被伊斯蘭和歐…)
人類是如何補全被部分遮擋的文字的?
教育學和認知科學中有一個概念叫做元認知(meta-cognition)。在設計 AI 的時候,我們人類作為教師,可以通過監控自己的思維過程當作參考來幫助作為模型的學生提高學習效率。因此,思考 “人類是如何完成 VCR 任務的” 可以對模型設計有指導意義。
下圖展示了一種筆者對 VCR 任務的解題思路作為參考:
看似步驟很多,其實就是在不斷通過不同的區域獲取信息再反復驗證來增加回答的置信度。
最開始看到圖片時,心里只有一個模糊的猜測,在不斷閱讀圖片獲取新信息的過程中,逐步驗證猜測。閱讀完畢后,開始填空時,仍然沒有停止通過信息的不同方面來相互對照,印證答案。當 “假設” 無法與其他信息保持一致時,就會推翻 “假設”,重新嘗試新的假設。
人類評測結果
人類在 VCR 任務下的水平如何呢?下圖中展示了母語者或各語言的流利使用者在英 / 中兩種語言的簡單 / 困難設定下的準確度:
如果考慮包含時間、地名、人名的錯誤,人類在簡單難度下的中文平均正確率約為 98.58%,在困難難度下的中文平均正確率約為 91.84%。而去掉這些因為時間、地名、人名的錯誤,人類在簡單難度的中文下幾乎接近滿分,而中文困難難度下正確率也達到了 96.63%。可以看出,VCR 任務對于人類而言是非常簡單的。
現有模型結果
作者測試了 “全明星陣容”:Claude 3 Opus, Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-4o, GPT-4 Turbo, Qwen-VL-Max, Reka Core 以及一些目前性能最好的開源模型。
下圖中展示了在 VCR-Wiki 中文的簡單難度上各個模型的性能:
紅框測量指標包括代表包含了圖像(VI)和圖像中的文字(TEI)兩部分作為上下文信息,模型能還原出被遮住的文字的準確率。藍色框內表示僅包含圖像中的文字(TEI)的作為上下文信息,并不包含圖像(VI),模型能還原出的遮住文字的準確率。
結果表明:
- 絕大多數模型目前都不能勝任這個任務;
- 絕大多數模型沒有利用好圖像信息,沒有因為圖像信息(VI)而提高準確率。
在中文的困難難度上,模型遇到了更大的麻煩。表現得最好的是 GPT-4o,但其只有 2.2% 的準確率。除了 CogVLM2-Chinese 和 Qwen-VL-Max,絕大多數模型的準確率都接近 0%。
可以觀察到,在困難模式下,原始模型很難在本問題上以顯著的比例答對,更不用說接近人類了。
英文 VCR 評測結果
作者同樣對目前最優的開源和閉源視覺 - 語言模型在英文 VCR-Wiki 上做了測試。在展示測試結果之前,請先看兩個英文 VCR-Wiki 任務的樣例:
英文簡單樣例:
(正確答案:Since the United States Post Office issued its first stamp in 1847, over 4,000 stamps have been issued and over 800 people featured. Many of these people...)
英文困難樣例:
(正確答案:Lincoln is the luxury vehicle division of American automobile manufacturer Ford. Marketed among the top luxury vehicle brands in the United States, for...)
文中展示的英文 VCR-Wiki 的測試結果如下:
從結果整體來看,模型在英文的簡單模式和困難模式下都分別比中文表現得要好。這個結果與我們一般認為的 "因為特殊的模塊化構形,殘缺的中文更加容易被補全" 的直覺不一致。或許這是由于在預訓練過程中,英文在數據量和數據質量上相比中文有更大的優勢。
在所測試的眾多模型中,GPT-4o 是閉源模型中的效果最佳的,CogVLM2 是開源模型中表現最佳的。
一個很有趣的現象是加入了圖片對 CogVLM2 來說有了明顯的幫助(在困難模式下提升了 20.3%),而對于 GPT-4o 而言反而結果有下降。在中文測試中,也有相似的現象。筆者認為這是模型的結構所導致的。具體的細節,歡迎讀者參閱 CogVLM 系列的論文以及代碼。
另外,閉源模型普遍取得了比開源模型更優的結果,這可能歸功于更優的訓練策略或是更多的模型參數。但即使如此,模型依然在 “困難” 設定下遇到了很大的挑戰。開源模型雖然可以部分完成 “簡單” 設定,但在困難設定下,大多數開源模型都無法完成這個對人類而言十分簡單的任務。
相關任務簡介
VQA
視覺問答(Visual Question Answering, VQA)任務要求模型根據輸入的圖像和自然語言問題生成自由形式的回答。由于沒有唯一的標準答案,評估 VQA 具有很大的挑戰性。傳統的 VQA 方法主要集中于圖像中可見元素的直接查詢,而不涉及圖像中嵌入的文本內容與整體圖像上下文之間的復雜關系。
在一些文字在圖片中信息占比比較大的 VQA 評測中,模型的視覺模塊甚至可能完全不需要與語言模塊對齊就可以勝任。此類流程為:圖像輸入給 OCR 視覺模塊,OCR 視覺模塊輸出圖像中的字符信息并以此為上下文輸入給語言模塊。這樣就導致了 VQA 任務退化成了不需要圖像信息的 QA 任務。原本比較不同的 VLM 需要的視覺模塊對齊能力被忽視而 OCR 能力被重視。
OCR
光學字符識別(Optical Character Recognition, OCR)任務通常輸入圖像中的完整字符,并輸出表示圖像中字符的字符串文本,而無需考慮圖像上下文。
預訓練過 OCR 的模型能夠從輸入圖像中提取嵌入的文本,即使這些文本是不完整或模糊的。然而,隨著文本組件模糊或被遮擋的程度增加,只利用可見部分恢復原始文本變得困難,OCR 方法在這種情況下效果有限。
可以看出,VQA 任務沒有標準答案,評估模型回答的質量仍然是一個開放性問題。而 OCR 任務不需要通過上下文來完成,無法檢驗模型是否真的學會利用了上下文中的信息。
VCR 任務的不可替代性
視覺字幕恢復(Visual Caption Restoration, VCR)任務旨在恢復圖像中被遮擋的文本,這一任務在 VQA 和 OCR 之間架起了橋梁。
- VCR 任務的獨特挑戰在于要求模型在視覺和文本信息之間進行精確的對齊,這與 OCR 的簡單文本提取任務形成鮮明對比。在 OCR 中,主要關注的是識別可見字符,而無需理解它們在圖像敘事中的上下文相關性。相比之下,VCR 要求模型協同利用可用的部分像素級文本提示和視覺上下文來準確地重建被遮擋的內容。這不僅測試了模型處理嵌入文本和視覺元素的能力,還考驗了其保持內部一致性的能力,類似于人類通過上下文和視覺線索進行理解和響應的認知過程。
- 與 VQA 不同,VCR 任務的問題有唯一的答案,這使得評估可以通過準確度進行,使評測指標更加明確。
- 通過調整文本的遮蓋比例,可以控制任務的難度,從而提供一個豐富的測試環境。
- 與 OCR 任務一樣,VCR 任務也可以充當 VLM 的訓練任務。作者開放了 transform 代碼,可以生成任意給定圖像 - 文字對的 VCR 任務圖。
小結
本文提出的視覺字幕恢復(VCR)任務通過看似簡單的字幕恢復任務巧妙地揭開了現有模型圖像 - 文本對齊的局限性,以及模型與人類在高級認知任務上的推理能力差異。相信這一任務可以啟發未來更加有效的 VLM 訓練、評測和推理方法,進一步拉近多模態模型和人類認知能力的差距。