揭秘AI幻覺:GPT-4V存在視覺編碼漏洞,清華聯合NUS提出LLaVA-UHD
GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、交互在內的多個領域都展現了出色的能力,成為如今最領先的多模態大模型。
然而,近期很多工作發現 GPT-4V 在很多基本能力上卻意外的出現短板。例如,在微軟一篇長達 166 頁的技術報告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中,作者發現,對于一個不太復雜的圖像中的蘋果數量,GPT-4V 竟然怎么數也數不對。
然而,學術界和工業界尚不清楚導致這些問題的底層原因。
這個問題在清華大學、新加坡國立大學和中國科學院大學的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。
- 論文鏈接:https://arxiv.org/pdf/2403.11703.pdf
- 項目鏈接:github.com/thunlp/LLaVA-UHD
其原因在于 GPT-4V 很可能存在:視覺編碼漏洞。
該工作對當前最強的商業大模型 GPT-4V 和最受歡迎的開源模型 LLaVA-1.5 進行了實驗,揭示了目前多模態大模型中的視覺編碼漏洞。
漏洞 1:GPT-4V 將圖像進行有重疊的切片后再編碼
作者首先設計了一個實驗來觀察:圖像中的位置如何影響 GPT-4V 的計數回答。
具體來說,作者合成了如圖 1 (a) 所示的圖像,并向 GPT-4V 提問題:“圖像中有多少個圓圈?” 同時,通過改變圓圈的位置而保持提問不變,進一步生成了一系列圖像變體。
圖 1 (b) 中以熱圖的形式顯示了 GPT-4V 對圖像中每個位置平均回答的數量,作者發現了一個與圖像中目標位置高度相關的有趣模式如圖 1(b)所示,具體表現為被 256×256 的正方形網格分割的三種不同模式:
(1) 中央正方形區域展示了最高的響應數量,
(2) 中間邊緣區域的響應數量較低,
(3) 角落區域的響應數量最接近于真實值。
在對 GPT-4V 的響應進行數值區分后,作者發現除了正確答案和接近正確答案的情況,還有兩種異常答案(8 個圓和 16 個圓),這些異常答案呈現了答案數量翻倍或四倍的錯誤模式。結合 OpenAI 公開的信息,這一現象的最可能原因是,當圖像分辨率無法被 512 整除時,GPT-4V 處理圖像的切片之間會出現重疊。如圖 1 (e) 所示,兩個切片之間的重疊區域導致數量翻倍,而四個切片的交叉重疊區域會使得識別出的數量增加至四倍。
作者設計了另一個實驗來觀察:圖像分辨率如何影響 GPT-4V 的計數回答。
具體來說,作者將圖 2 (a) 中的圖像按比例縮放至連續遞增的分辨率,并詢問 GPT-4V 其中圓圈的個數。
圖 2 (b) 中展示了 GPT-4V 的回答結果。隨著圖像分辨率的變化,GPT-4V 的回答顯示出顯著的相位變化:(1)在第 1 階段,由于沒有圖像切片,大多數答案是正確的;(2)在第 2 階段,答案 12 在響應中占主導地位,可能是由于每個切片中的圓不完整;(3)第 3 階段顯示了 9、12 和 16 的混合答案。請注意,16 可以很好地解釋圖 1 (e) 中的錯誤模式。
以上兩個實驗結果揭示了 GPT-4V 在處理高分辨率圖像時存在重疊切片,導致錯誤響應,啟發作者需要進一步研究更合理的圖像預處理和編碼方式。
漏洞 2:LLaVA-1.5 進行大范圍的圖像填充(Padding)
LLaVA-1.5 作為出色的開源多模態大模型被學術界廣泛關注。
為了處理具有不同長寬比的圖像,LLaVA-1.5 在將圖像輸入視覺編碼器之前將其填充為正方形。這種編碼方法導致非正方形圖像的計算浪費。例如,將 1:4 圖像填充為正方形后,有效計算量僅為 25%。
更重要的是,LLaVA-1.5 實際上無法確定填充像素是來自圖像預處理還是原始輸入圖像的實際部分。
為了演示這個問題,作者合成了一系列輸入圖像,如圖 3(右)所示,其中不同長寬比的綠色矩形被灰色(即填充對應的 RGB 值)所包圍。給定輸入圖像,作者提示:“最左 / 最右 / 最上 / 最下區域的顏色是什么?” 從圖 3(左)的結果中,作者觀察到 LLaVA-1.5 忽略了灰色輸入區域(將其視為填充),并置信地回答了中心矩形的顏色。
綜合以上 2 個明顯的視覺編碼漏洞可以知道,多模態模型中的視覺策略必須謹慎設計。常見做法,如填充、形狀扭曲調整和重復切片,可能導致計算資源的浪費、模型能力的喪失,甚至容易受到對抗性攻擊。
于是,作者提出 LLaVA-UHD,該模型可以對 180 萬像素任意長寬比圖像進行編碼,相比于 LLaVA-1.5 在 9 個主流評測基準實現提升,訓練和推理計算開銷相比于 LLaVA-1.5 均有顯著下降。
LaVA-UHD 包括三個關鍵部分:一種圖像模塊化策略,將原始分辨率的圖像分成更小的可變大小的切片,以便進行高效和可擴展的編碼;一個壓縮模塊,進一步壓縮來自視覺編碼器的圖像 tokens,一個空間裝飾模式,用于為 LLMs 組織片段 tokens。
圖像模塊化策略中主要包含兩個部分:
1. 高分辨率圖像劃分策略(如圖 4 左側)。目標是確定高分辨率圖像的劃分方式,使每個切片的分辨率變化最小。給定圖像分辨率和和在固定分辨率上預訓練的 ViT,首先確定處理圖像所需的切片數。然后將切片數因式分解為和幾種劃分方式。為了選擇最合適的劃分,作者定義一個評分函數來衡量與 ViT 標準預訓練設置的偏差,進而選擇最佳的劃分方法。
2. 任意寬高比切片編碼(如圖 4 右側)。目的是等比例調整圖像以適應預訓練模型的位置嵌入數量。首先將 ViT 的 1D 位置嵌入轉換為 2D 格式,并進行插值以匹配動態切片分辨率,從而獲得自適應圖像尺寸的視覺編碼。實驗表明,此方法在保持 ViT 和位置嵌入參數不變的情況下,通過后期微調即可提升性能。此外,還編碼一張低分辨率概覽圖像,有助于提供全局語義信息,增強模型對圖像的整體理解。
LLaVA-UHD 利用壓縮模塊(Resampler)壓縮每張切片的 tokens,實現比 LLaVA-1.5 在 336×336 分辨率圖像中更低的計算成本來編碼 672×1008 分辨率的圖像。由于圖像切片在不同圖像之間是動態的,因此有必要通過位置修飾符來告知 LLM 圖像切片的相對位置。
表 1 報告了主要的實驗結果。在性能表現上,LLaVA-UHD 相對于 LLaVA-1.5 取得了顯著的改進。通過簡單地感知原生高分辨率圖像,LLaVA-UHD 在 TextVQA 上實現了 6.4 的準確率提升,在 POPE 上實現了 3.2 的準確率提升。原因在于低分辨率圖像中的模糊內容可能會阻止 LMMs 準確識別具有挑戰性的細粒度目標和 OCR 字符。在計算效率和可拓展性上,LLaVA-UHD 僅使用 94% 的推理計算即支持任意寬高比的 672×1088 分辨率圖像,能夠適應更大分辨率的拓展。
為了更直觀地展示 LMM 在處理高分辨率圖像方面的能力,在圖 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性結果??梢钥吹?,LLaVA-UHD 可以正確識別課表上的密集內容,小海報上的文字以及手機上的圖標和文字,實現了細粒度的識別和推理。
未來展望
LLaVA-UHD 將圖像分辨率限制在最大 672×1008。但是在未來,考慮到其具有潛力的效率和可擴展性,將探索更高分辨率的圖像以及更具挑戰性的任務,如小目標檢測和分割。此外,目前圖像片段是獨立編碼的,只在 LLMs 中進行交互。計劃通過改進的視覺編碼策略,在圖像片段之間建立高效的連接,實現細粒度全局信息交互。
本文轉自 機器之心 ,作者:機器之心
