成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<rt id="iqkwi"><pre id="iqkwi"></pre></rt>

<rt id="iqkwi"></rt>

<dl id="iqkwi"><tr id="iqkwi"></tr></dl><rt id="iqkwi"><acronym id="iqkwi"></acronym></rt>

<li id="iqkwi"></li>

<nav id="iqkwi"><dl id="iqkwi"></dl></nav>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD

輕薄滴假象

發布于 2024-4-7 14:04

瀏覽

0收藏

GPT-4V 的推出引爆了多模態大模型的研究。GPT-4V 在包括多模態問答、推理、交互在內的多個領域都展現了出色的能力，成為如今最領先的多模態大模型。

然而，近期很多工作發現 GPT-4V 在很多基本能力上卻意外的出現短板。例如，在微軟一篇長達 166 頁的技術報告《The Dawn of LMMs:Preliminary Explorations with GPT-4V (ision)》中，作者發現，對于一個不太復雜的圖像中的蘋果數量，GPT-4V 竟然怎么數也數不對。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

然而，學術界和工業界尚不清楚導致這些問題的底層原因。

這個問題在清華大學、新加坡國立大學和中國科學院大學的一篇題為《LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images》的論文中得到了解釋。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

論文鏈接：https://arxiv.org/pdf/2403.11703.pdf
項目鏈接：github.com/thunlp/LLaVA-UHD

其原因在于 GPT-4V 很可能存在：視覺編碼漏洞。

該工作對當前最強的商業大模型 GPT-4V 和最受歡迎的開源模型 LLaVA-1.5 進行了實驗，揭示了目前多模態大模型中的視覺編碼漏洞。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

漏洞 1：GPT-4V 將圖像進行有重疊的切片后再編碼

作者首先設計了一個實驗來觀察：圖像中的位置如何影響 GPT-4V 的計數回答。

具體來說，作者合成了如圖 1 (a) 所示的圖像，并向 GPT-4V 提問題：“圖像中有多少個圓圈？” 同時，通過改變圓圈的位置而保持提問不變，進一步生成了一系列圖像變體。

圖 1 (b) 中以熱圖的形式顯示了 GPT-4V 對圖像中每個位置平均回答的數量，作者發現了一個與圖像中目標位置高度相關的有趣模式如圖 1（b）所示，具體表現為被 256×256 的正方形網格分割的三種不同模式：

(1) 中央正方形區域展示了最高的響應數量，

(2) 中間邊緣區域的響應數量較低，

(3) 角落區域的響應數量最接近于真實值。

在對 GPT-4V 的響應進行數值區分后，作者發現除了正確答案和接近正確答案的情況，還有兩種異常答案（8 個圓和 16 個圓），這些異常答案呈現了答案數量翻倍或四倍的錯誤模式。結合 OpenAI 公開的信息，這一現象的最可能原因是，當圖像分辨率無法被 512 整除時，GPT-4V 處理圖像的切片之間會出現重疊。如圖 1 (e) 所示，兩個切片之間的重疊區域導致數量翻倍，而四個切片的交叉重疊區域會使得識別出的數量增加至四倍。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

作者設計了另一個實驗來觀察：圖像分辨率如何影響 GPT-4V 的計數回答。

具體來說，作者將圖 2 (a) 中的圖像按比例縮放至連續遞增的分辨率，并詢問 GPT-4V 其中圓圈的個數。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

圖 2 (b) 中展示了 GPT-4V 的回答結果。隨著圖像分辨率的變化，GPT-4V 的回答顯示出顯著的相位變化：（1）在第 1 階段，由于沒有圖像切片，大多數答案是正確的；（2）在第 2 階段，答案 12 在響應中占主導地位，可能是由于每個切片中的圓不完整；（3）第 3 階段顯示了 9、12 和 16 的混合答案。請注意，16 可以很好地解釋圖 1 (e) 中的錯誤模式。

以上兩個實驗結果揭示了 GPT-4V 在處理高分辨率圖像時存在重疊切片，導致錯誤響應，啟發作者需要進一步研究更合理的圖像預處理和編碼方式。

漏洞 2:LLaVA-1.5 進行大范圍的圖像填充（Padding）

LLaVA-1.5 作為出色的開源多模態大模型被學術界廣泛關注。

為了處理具有不同長寬比的圖像，LLaVA-1.5 在將圖像輸入視覺編碼器之前將其填充為正方形。這種編碼方法導致非正方形圖像的計算浪費。例如，將 1:4 圖像填充為正方形后，有效計算量僅為 25%。

更重要的是，LLaVA-1.5 實際上無法確定填充像素是來自圖像預處理還是原始輸入圖像的實際部分。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

為了演示這個問題，作者合成了一系列輸入圖像，如圖 3（右）所示，其中不同長寬比的綠色矩形被灰色（即填充對應的 RGB 值）所包圍。給定輸入圖像，作者提示：“最左 / 最右 / 最上 / 最下區域的顏色是什么？” 從圖 3（左）的結果中，作者觀察到 LLaVA-1.5 忽略了灰色輸入區域（將其視為填充），并置信地回答了中心矩形的顏色。

綜合以上 2 個明顯的視覺編碼漏洞可以知道，多模態模型中的視覺策略必須謹慎設計。常見做法，如填充、形狀扭曲調整和重復切片，可能導致計算資源的浪費、模型能力的喪失，甚至容易受到對抗性攻擊。

于是，作者提出 LLaVA-UHD，該模型可以對 180 萬像素任意長寬比圖像進行編碼，相比于 LLaVA-1.5 在 9 個主流評測基準實現提升，訓練和推理計算開銷相比于 LLaVA-1.5 均有顯著下降。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

LaVA-UHD 包括三個關鍵部分：一種圖像模塊化策略，將原始分辨率的圖像分成更小的可變大小的切片，以便進行高效和可擴展的編碼；一個壓縮模塊，進一步壓縮來自視覺編碼器的圖像 tokens，一個空間裝飾模式，用于為 LLMs 組織片段 tokens。

圖像模塊化策略中主要包含兩個部分：

1. 高分辨率圖像劃分策略（如圖 4 左側）。目標是確定高分辨率圖像的劃分方式，使每個切片的分辨率變化最小。給定圖像分辨率和和在固定分辨率上預訓練的 ViT，首先確定處理圖像所需的切片數。然后將切片數因式分解為和幾種劃分方式。為了選擇最合適的劃分，作者定義一個評分函數來衡量與 ViT 標準預訓練設置的偏差，進而選擇最佳的劃分方法。

2. 任意寬高比切片編碼（如圖 4 右側）。目的是等比例調整圖像以適應預訓練模型的位置嵌入數量。首先將 ViT 的 1D 位置嵌入轉換為 2D 格式，并進行插值以匹配動態切片分辨率，從而獲得自適應圖像尺寸的視覺編碼。實驗表明，此方法在保持 ViT 和位置嵌入參數不變的情況下，通過后期微調即可提升性能。此外，還編碼一張低分辨率概覽圖像，有助于提供全局語義信息，增強模型對圖像的整體理解。

LLaVA-UHD 利用壓縮模塊（Resampler）壓縮每張切片的 tokens，實現比 LLaVA-1.5 在 336×336 分辨率圖像中更低的計算成本來編碼 672×1008 分辨率的圖像。由于圖像切片在不同圖像之間是動態的，因此有必要通過位置修飾符來告知 LLM 圖像切片的相對位置。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

表 1 報告了主要的實驗結果。在性能表現上，LLaVA-UHD 相對于 LLaVA-1.5 取得了顯著的改進。通過簡單地感知原生高分辨率圖像，LLaVA-UHD 在 TextVQA 上實現了 6.4 的準確率提升，在 POPE 上實現了 3.2 的準確率提升。原因在于低分辨率圖像中的模糊內容可能會阻止 LMMs 準確識別具有挑戰性的細粒度目標和 OCR 字符。在計算效率和可拓展性上，LLaVA-UHD 僅使用 94% 的推理計算即支持任意寬高比的 672×1088 分辨率圖像，能夠適應更大分辨率的拓展。

揭秘AI幻覺：GPT-4V存在視覺編碼漏洞，清華聯合NUS提出LLaVA-UHD-AI.x社區

為了更直觀地展示 LMM 在處理高分辨率圖像方面的能力，在圖 5 中提供了 LLaVA-UHD 和 LLaVA-1.5 的定性結果?？梢钥吹?，LLaVA-UHD 可以正確識別課表上的密集內容，小海報上的文字以及手機上的圖標和文字，實現了細粒度的識別和推理。

未來展望

LLaVA-UHD 將圖像分辨率限制在最大 672×1008。但是在未來，考慮到其具有潛力的效率和可擴展性，將探索更高分辨率的圖像以及更具挑戰性的任務，如小目標檢測和分割。此外，目前圖像片段是獨立編碼的，只在 LLMs 中進行交互。計劃通過改進的視覺編碼策略，在圖像片段之間建立高效的連接，實現細粒度全局信息交互。

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/5CKBR_KA-YNIqkz1ZcC79A??

標簽

贊

收藏

回復

舉報

回復

相關推薦

我們距離GPT-4V真的很近了嗎？

zhangyannni ? 3171瀏覽 ? 0回復
清華聯合阿里推出概念半透膜模型

zhangyannni ? 2469瀏覽 ? 0回復
港中文深圳提出ALLaVA-4V：百萬級別的開源多模態GPT-4V數據集

kcoufee ? 2649瀏覽 ? 0回復
超越GPT-4V，蘋果多模態大模型上新！

duhorse ? 2648瀏覽 ? 0回復
8B文字多模態大模型指標逼近GPT4V，字節、華師、華科聯合提出TextSquare

輕薄滴假象 ? 2799瀏覽 ? 0回復
Sam Altman：GPT-4o幕后揭秘，GPT-5會很特別

Aceryt ? 2794瀏覽 ? 0回復
拯救被「掰彎」的GPT-4！西交微軟北大聯合提出IN2訓練治療LLM「中間迷失」

duhorse ? 2296瀏覽 ? 0回復
多模態模型學會打撲克：表現超越GPT-4v，全新強化學習框架是關鍵

Crystalcxt ? 3062瀏覽 ? 0回復
Mobile-Agent-v2：GPT4v + 多Agent提高40%準確率

大語言模型論文跟蹤 ? 5225瀏覽 ? 0回復
AI生圖可“量身定制”了，華為&清華聯手打造個性化多模態生成方法PMG

Crystalcxt ? 2663瀏覽 ? 0回復
GPT-4和GPT-4V能否像人類一樣進行抽象推理

lintoms ? 2140瀏覽 ? 0回復
微軟發布LLM2CLIP：一種新型AI技術，LLM成為CLIP視覺編碼器的“老師”

Halo咯咯 ? 4063瀏覽 ? 0回復
Apple 發布 AIMv2：最先進的開放集視覺編碼器系列

Halo咯咯 ? 2739瀏覽 ? 0回復
視覺文本語音強強聯合！南大&騰訊優圖發布GPT-4o級別的實時視覺語音交互——VITA1.5

angel ? 2663瀏覽 ? 0回復
9B參數吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數據”逆襲？

Halo咯咯 ? 2169瀏覽 ? 0回復
EVEv2.0，視覺語言分開編碼，多模態視覺語言理解；視覺信息引導與標記邏輯增強減少大語言模型幻覺

AI研究前瞻 ? 2515瀏覽 ? 0回復
閑得沒事，猜猜GPT-4o如何對圖像編碼

魯班模錘1 ? 2035瀏覽 ? 0回復
清華發布GLM 4！32B參數模型硬剛GPT-4o，性能驚艷

Halo咯咯 ? 2648瀏覽 ? 0回復
多模態大模型輕量化探索-視覺大模型SAM的視覺編碼器

大模型自然語言處理 ? 701瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

DeepSeek一口氣開源3個項目，還有梁文鋒親自參與，昨晚API大降價 2025-02-27 12:40:06發布
全球首個AI CUDA工程師來了！將PyTorch原生實現提速10-100倍 2025-02-21 13:20:31發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：拒絕白人與亞洲人同框，Meta圖像生成器的「歧視」，被人挖出來了

下一篇：谷歌DeepMind發布Gecko：專攻檢索，與大7倍模型相抗衡

社區精華內容

目錄

主站蜘蛛池模板：成人午夜影院 | 亚洲成人av在线播放 | 欧美video| 日本久久黄色 | 2018国产大陆天天弄 | 日韩欧美精品一区 | 天天躁日日躁狠狠很躁 | 最新中文字幕在线 | 日韩精品中文字幕一区二区三区 | 精品一区二区三区在线观看国产 | 久久久久久久av | 日韩免费看片 | 影音先锋亚洲资源 | 亚洲精品成人av久久 | 欧美一区视频在线 | 国产精品久久一区 | 久久精品中文字幕 | 国产成人精品一区二区三区在线 | 亚洲国产电影 | 国产精品久久久久久久久久久久冷 | 精品啪啪 | 免费黄视频网站 | 欧美网站一区二区 | 久久久久久久久中文字幕 | 日韩精品三区 | 美女天天干天天操 | 欧美日韩成人一区二区 | 免费一二区 | 日日骑| 91精品国产综合久久久久蜜臀 | 久久精品毛片 | 亚洲一区中文字幕 | 国内精品久久精品 | 国产一区二区三区免费观看在线 | 色资源在线视频 | www.奇米| 成人在线视频免费观看 | 91久久精品一区二区三区 | 黄色大片免费网站 | 日韩欧美在线视频一区 | 欧美国产精品久久久 |

<center id="ckuke"></center>

<code id="ckuke"></code>

<li id="ckuke"></li>

<noscript id="ckuke"></noscript><code id="ckuke"><tr id="ckuke"></tr></code>

<code id="ckuke"></code>

<code id="ckuke"></code>