成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥

發布于 2024-8-13 10:44
瀏覽
0收藏

最近,提升多模態大模型處理高分辨率圖像的能力越來越引起這個領域的關注。


絕大多數方法致力于通過對圖像進行切分再融合的策略,來提升多模態大模型對圖像細節的理解能力。


然而,由于對圖像的切分操作,不可避免會對目標、聯通區域帶來割裂,導致MLMMs對于微小或形狀不規則的目標的辨識能力。這個現象在文檔理解任務中,表現極為明顯,由于文字端經常被中斷。


針對這一挑戰,華中科技大學和華南理工大學最近聯合發布一個多模態大模型Mini-Monkey,使用了可插拔的多尺度自適應策略(MSAC)的輕量化多模態大模型。


Mini-Monkey自適應生成多尺度表示,允許模型從各種尺度中選擇未分割的對象,其性能達到了2B多模態大模型的新SOTA。

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

論文地址:https://arxiv.org/pdf/2408.02034

項目地址:https://github.com/Yuliang-Liu/Monkey


為了減輕MSAC帶來的計算開銷,我們提出了一種有效壓縮圖像令牌的尺度壓縮機制(SCM)。


Mini-Monkey不僅在文檔智能的多個任務上取得了領先的性能,在通用多模態模型理解任務上也取得了一致的性能的提升,取得了2B的SOTA性能。


在OCRBench上,Mini-Monkey獲得了802分,優于GLM-4v-9B等更大參數量的模型。


2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

圖3 方法框圖:H-Attn代表高注意力權;L-Attn代表低注意權重;注意權重較低的令牌將被過濾;共享LLM層表示在SCM中使用LLM的塊層

研究背景

多模態大型語言模型(MLMM)在近年了引起了很大的關注。研究人員正在積極探索將視覺編碼器與LLM集成的有效方法。


一些方法,如Flamingo、BLIP-2、MiniGPT4和Qwen-VL和LLaVA等已經取得了這些成就,但由于處理分辨率有限,以前的多模態大語言模型并沒有很好地實現詳細的場景理解。

                               

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

圖1 切分在通用物體上引起的鋸齒效應:(a)輸入圖像;(b)切分擴大分辨率策略;(c)有重疊的切分擴大分辨率策略;(d)多尺度適應性切分策略

 

研究者開始通過擴大圖像的輸入分辨率來解決這個問題。切分策略是最常用的方法之一。例如,Monkey,LLaVA 1.6,InternVL 1.5和LLama3-V等。


盡管多模態大型語言模型取得了重大進展,但由于切分策略,在詳細場景理解方面仍然存在挑戰。


對圖像的切分操作不可避免地會分割物體和連接區域,從而削弱了MLLM識別小物體或不規則形狀物體的能力,特別是在文檔理解的背景下。


這種策略將引入兩種類型的語義不連貫:


1. 如果一個對象或字符被分割,它可能無法被識別。例如,切分后的鼻子看起來非常像猴子,如圖1(b)所示;


2. 如果對一個詞或句子進行分詞,會造成被分詞的語義損害。例如,單詞「Classrooms」可能被分為「Class」和「rooms」,這會對分割后的單詞造成語義損害。


為簡單起見,作者稱這個問題為鋸齒效應。一個非常直接的想法是采用重疊切分策略來解決這個問題,如圖1(c)所示。


然而,作者發現重疊切分策略引入了某些幻覺,導致性能下降而不是提高。

方法思路

作者提出了Mini-Monkey,一個輕量級的多模態大型語言模型,旨在減輕切分策略引起的鋸齒效應。方法框圖如圖2所示。


2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

圖2 裁切在文字圖像上引起的鋸齒效應。


與直接切分輸入圖像的現有方法不同,Mini-Monkey采用了一種即插即用的方法稱為多尺度自適應切分策略(MSAC)。


MSAC可以在不同尺度的特征之間進行有效的互補,如圖1(d)所示。

多尺度自適應切分策略(MSAC)

MSAC先對這些網格進行分層操作,根據它們的縱橫比將它們分成三組。作者將為每個圖層選擇一個寬高比。不同的分層為模型提供不同的信息。


詳細層負責提供詳細信息。它既限制了最大圖像分辨率和最小圖像分辨率,使圖像盡可能大,使圖像中的物體更清晰。由于使用了切分策略來剪裁圖像,該層生成的圖像可能存在語義不一致。


因此,作者利用自適應層與細節層協同,使模型能夠從各種尺度中選擇未分割的對象。自適應層將根據細節層自適應生成縱橫比,確保細節層上的切分線與自適應層上的切分線不重疊,進而避免了同一個物體在不同層上被切分兩次。這個過程確保了細節層和自適應層為模型提供了不同的語義信息和視覺特征。


尺度壓縮機制

MSAC可能會引入一些額外的計算開銷。因此,作者提出了一種尺度壓縮機制(SCM),用于有計算開銷限制的情況。SCM是一個不用訓練并且無參數的機制,以減少計算開銷。


作者選擇自適應層的視覺Tokens、全局層的視覺Tokens和文本Tokens來關注細節層的視覺標記,進而生成注意力圖,然后將注意力圖Top K的視覺特征提取出來。


一個訓練好的LLM可以根據輸入問題有效地選擇必要的視覺特征。因此,SCM利用LLM的第一層和第二層來選擇視覺Tokens,而不生成任何額外的參數。


Mini-Monkey最強2B多模態大模型

作者在通用多模態理解和文檔理解上測試了他們的方法,實驗結果表明,Mini-Monkey在2B參數量的情況下,同時在通用多模態理解和文檔理解上取得了最好的性能。

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

表1 通用多模態理解上的結果

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

表2 文檔理解上的結果

作者將提出的MSAC和現有的方法對比,第一行是動態切分的方法,第二行是固定分辨率切分的方法,第三行是有重疊的切分,第四行是多尺度策略S2。

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

表3 與不同的切分策略進行對比


MSAC可以應用到不同的多模態架構上,穩定提點

同時作者也將MSAC應用到其他的方法進行對比,可以看到同時在通用多模態理解和文檔理解任務上都有一致的提升。

 

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

表4 將MSAC應用到不同的框架上

有效緩解由切分增大分辨率導致的「后遺癥」

同時作者也提供了一些定性的分析,如圖4所示。作者對切分到的位置進行提問,比如被切分到的「classrooms」和「school」。


可以看到,Mini-Monkey通過MSAC可以有效的緩解由切分增大分辨率導致的「后遺癥」。

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

圖4 定性結果:(a)輸入圖像和Ground Truth;(b)采用重疊切分策略的結果,OSC表示重疊切分策略;(c)internv2-2b和internv2-26b的結果;(d)Mini-Monkey的結果

可視化對比

Mini-Monkey能準確的提取模糊的古籍里面的文字內容,而MiniCPM-V 2.6和InternVL2-2B都漏掉了比較多的文字,GPT4-O拒絕回答:

  

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

(a)輸入圖片

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

(b)Mimi-Monkey:準確識別出所有文字

  

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

(c)MiniCPM-V 2.6:漏掉了很多文字。

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

(d)InternVL2-2B:漏掉了一整句比較模糊的文字

2B多模態新SOTA!華科、華南理工發布Mini-Monkey,專治「切分增大分辨率」后遺癥-AI.x社區

(e)GPT-4o:拒絕回答

總結

使用切分擴大分辨率的方法經常分割對象和連接區域,這限制了對小的或不規則形狀的對象和文本的識別,這個問題在輕量級的MLLM中尤為明顯。


在這項研究中,作者提出了一個取得SOTA性能的2B多模態大模型Mini-Monkey,旨在解決現有切分策略的局限性,以提高MLLM處理高分辨率圖像的能力。


Mini-Monkey采用了一種多尺度自適應切分策略(MSAC),生成多尺度表示,允許模型在不同尺度上選擇未分割的對象,進而緩解了這個問題。


同時,作者也驗證了多尺度自適應切分策略在別的架構的多模態大模型上的有效性,為緩解由切分增大分辨率導致的「后遺癥」提供了一種簡單有效的解決方案。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/LaC5gwZdplqZB-PUQlNB3Q??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 成人欧美一区二区 | 久久伊人久久 | 一区2区| 日韩欧美视频在线 | 国产午夜三级一区二区三 | 奇米视频777 | 亚洲欧美中文日韩在线 | 在线国产一区 | 成人自拍av | 国产精品一区二区不卡 | 欧美亚洲高清 | 99久久婷婷 | 国产精品成人国产乱一区 | 久久精品av麻豆的观看方式 | 午夜丰满少妇一级毛片 | 日韩有码在线观看 | 日韩网站在线观看 | 一区二区三区四区不卡 | 亚洲一区二区三区乱码aⅴ 四虎在线视频 | 免费特黄视频 | 欧美国产视频 | zzzwww在线看片免费 | 一级黄色片一级黄色片 | 日韩有码一区二区三区 | 国产午夜精品视频 | 日韩精品一区二区三区高清免费 | 成人二区 | 九九爱这里只有精品 | 欧美日韩不卡合集视频 | 日韩视频在线一区二区 | 亚洲狠狠 | 在线黄| 国久久| 国产激情福利 | 午夜影院免费体验区 | 日韩精品久久久久久 | 麻豆精品久久 | 欧美中文字幕一区二区三区亚洲 | 久久久久久网站 | 日韩手机在线看片 | 成人精品一区二区三区中文字幕 |