成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM

發布于 2024-8-30 09:39
瀏覽
0收藏

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

論文鏈接:https://arxiv.org/pdf/2408.11795

亮點直擊

  • 本文重新審視了多模態大型語言模型中的模態對齊問題,指出了基于自注意力和交叉注意力方法的效率和效果問題。
  • 本文為EE-MLLM提出了一種復合注意力機制,以提高數據和計算效率。
  • 本文的EE-MLLM在各種基準測試中表現出色,同時推理速度得到了很大提升。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

在多模態研究領域,許多研究利用大量圖文對進行模態對齊學習,將大型語言模型(LLMs)轉變為多模態LLMs,并在各種視覺語言任務中表現出色。現有的方法主要分為兩類:基于自注意力的方法和基于交叉注意力的方法。雖然基于自注意力的方法由于其簡單的MLP架構具有較高的數據效率,但由于將視覺和文本token連接為LLM的輸入,通常在計算效率上較低。相反,基于交叉注意力的方法雖然由于額外的可學習參數而數據效率較低,但通過避免LLM的長序列輸入表現出較高的計算效率。為解決這些權衡,本文引入了數據高效和計算高效的多模態大型語言模型(EE-MLLM)。在不引入額外模塊或可學習參數的情況下,EE-MLLM實現了數據和計算效率。具體來說,本文將MLLM中的原始自注意力機制修改為復合注意力機制。該機制有兩個關鍵特征:1)消除視覺token內部自注意力的計算開銷以實現計算效率,2)重用LLM每一層的權重以促進視覺和語言之間的有效模態對齊,實現數據效率。實驗結果表明,EE-MLLM在一系列基準測試中表現出色,包括諸如MMBench和SeedBench等通用數據集,以及如TextVQA和DocVQA等細粒度任務。

方法

模型結構

EE-MLLM 包括一個視覺編碼器、一個作為投影器的兩層 MLP,以及帶有復合解碼層的大型語言模型(LLM)。本文提出了一種復合注意力機制,并為 EE-MLLM 設計了一個復合解碼層,以實現數據效率和計算效率。復合解碼層由一個對齊器和一個復合注意力模塊組成。


復合注意力模塊。 原始的自注意力機制包括視覺token之間的自注意力、文本token之間的自注意力,以及文本token和視覺token之間的交叉注意力。本文觀察到視覺token之間的自注意力是多余的,原因有兩個:

  • 視覺token之間的交互已經在視覺編碼器中得到了良好的學習;
  • 大型語言模型(LLM)可以通過信息聚合特性實現視覺token之間的隱式交互。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

這可以被視為一個沒有注意力機制的解碼器塊。

計算開銷分析

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

實驗

實驗細節

模型配置。 本文采用 Vicuna-7b-v1.5作為本文的 LLM,并使用 SigLIP作為視覺編碼器。具體來說,SigLIP 從 Idefics2 初始化,該模型支持動態分辨率,最大可達980X980 。投影器由一個兩層的 MLP 組成,與 LLaVA 相同。


數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

評估基準

本文使用VLMEvalKit 進行評估,其他最新模型的結果也來自同一來源。

通用基準

  1. MMBench-EN 是一個綜合的多模態基準,專門設計用于評估多模態語言模型(MLLMs)的性能。它包含超過3,000個多項選擇題,涵蓋20個能力類別。本文在MMBench-ENV1.1上評估了EE-MLLM。
  2. MME 評估高級MLLMs的感知和認知能力,總共包括14個子任務。為了盡量減少提示工程對MLLMs的影響,MME的指令設計為引導簡單的二元回答,例如“請回答是或否”。本文報告了MME的感知部分的結果。
  3. ScienceQA 來源于小學和高中的科學課程。ScienceQA中的問題涵蓋三門學科:自然科學、語言科學和社會科學。
  4. HallusionBench 旨在評估圖像-上下文推理,包含346張圖像和1,129個由人類專家制作的問題。HallusionBench考慮了語言幻覺和視覺錯覺,涉及多種主題。
  5. MMMU (Yue et al. 2023) 收集了來自大學考試、測驗和教科書的11,500個多模態問題,涵蓋六個核心學科,跨越30個主題和183個子領域,包括30種異構圖像類型。
  6. CCBench 由MMBench團隊開發,專門用于評估MLLMs在中國文化領域的表現。
  7. SeedBench 包含19,000個多項選擇題,涵蓋12個評估維度,包括圖像和視頻。本文僅使用帶有圖像的問題進行評估。
  8. BLINK 包含14個視覺感知任務,對當前的多模態LLMs構成重大挑戰。

細粒度基準

  1. AI2D 強調圖解的解釋和推理,包含5,000個圖解和15,000個問答。
  2. OCRBench 旨在促進對MLLM OCR能力的評估,包括29個數據集。
  3. TextVQA  包含45,336個問題和28,408張需要通過文本推理回答的圖像。本文使用包含5,000張圖像的驗證集進行評估。
  4. ChartQA  是一個大規模基準,包含20,882個圖表,問題集中于邏輯和視覺推理。
  5. DocVQA 專注于文檔圖像理解,包含50,000個問題和超過12,000張圖像。本文使用包含5,349個問題和1,286張圖像的驗證集進行評估。
  6. Seed2 Plus 專門為MLLMs的文本豐富視覺理解評估設計,包括2,300個多項選擇題,涵蓋圖表、地圖和網頁。

與最先進模型的比較

通用基準測試。 在下表2中,本文將EE-MLLM與各種最先進的MLLM 在八個通用基準上進行了比較。這些基準測試評估了MLLM的綜合能力,包括理解和感知,以及幻覺的嚴重程度。這些因素共同反映了MLLM在現實場景中的泛化能力和適用性。EE-MLLM在通用基準測試中與最先進的MLLM表現相當。具體來說,EE-MLLM在MMBench中獲得了70.4的得分,在MME中獲得了1528.1的得分,這些分數明顯高于同樣支持高分辨率圖像輸入的LLaVA-v1.6。這表明EE-MLLM具備綜合的感知和推理能力。此外,EE-MLLM在CCBench和SeedBench上也取得了可喜的成績。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

細粒度基準測試。 在下表3中,本文在七個細粒度基準上進行了評估。這些基準測試要求MLLM具備出色的視覺感知能力,因為它們需要探索圖像中的細粒度信息來回答問題。在傳統的VQA基準測試中,例如TextVQA、ChartQA和DocVQA,EE-MLLM表現非常出色,相較于同樣支持高分辨率的LLaVA-v1.6,在TextVQA上高出4.6分,在ChartQA上高出13.0分。在專門設計用于評估MLLM OCR能力的OCRBench中,EE-MLLM比LLaVA-v1.6高出4.2分。這些結果表明,盡管EE-MLLM顯著減少了與視覺token相關的計算開銷,但它仍然有效地保持了模型的細粒度能力。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

推理速度比較

盡管EE-MLLM在FLOPs方面表現出了顯著的減少,但在實際場景中,通常會在部署時采用KVCache和Batch Inference等先進技術。因此,有必要在這些技術下進行推理速度的比較。本文在單個NVIDIA H800上進行了推理速度的比較。輸入圖像的分辨率設置為980X980,生成的tokens數量從2到256不等。本文在下圖4中展示了EE-MLLM與LLaVA的速度比。本文的研究發現,當生成8個tokens時,EE-MLLM的推理速度是LLaVA的三倍。然而,隨著生成tokens數量的增加,速度比下降。當生成64個tokens時,EE-MLLM的推理速度是LLaVA的1.6倍。出現這種現象的原因在于本文的EE-MLLM主要在預填充階段減少了計算成本,該階段計算視覺tokens的KV緩存。第一個token的生成比基于自注意力的方法(如LLaVA)更快。然而,推理速度的優勢在第一個token之后減小。具體來說,對于兩個輸入圖像,EE-MLLM的推理速度幾乎是LLaVA的四倍。這清楚地表明,EE-MLLM在多圖像輸入場景中(包括交錯的圖像-文本對話和多模態上下文學習)顯著更高效。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

EE-MLLM 的 GPU 內存開銷

本文評估了EE-MLLM在預訓練和微調階段的GPU內存開銷。同樣,本文在分辨率為336X336時,將EE-MLLM與LLaVA進行了比較。本文在8×H800上進行實驗,預訓練的全局批量大小為256,微調時為128。

內存使用情況的比較詳見下表5。在預訓練階段,EE-MLLM的內存使用顯著較低,為32G,而LLaVA的內存使用為75G。在微調階段,由于主要內存使用集中在可訓練的LLM上,內存使用優勢變得不太明顯,EE-MLLM消耗66G,而LLaVA-v1.6使用69G。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

消融研究

實施細節

根據LLaVA-v1.5,本文采用Vicuna-7b-v1.5 作為本文的基礎LLM。訓練數據與LLaVA-v1.5一致,包括預訓練數據和監督微調數據。

與LLaVA的比較

在下表4中,本文在相同的設置下比較了EE-MLLM和LLaVA在一般和細粒度基準測試中的表現。對于分辨率為336X336的情況,本文使用CLIP-ViT-L-14作為視覺編碼器,確保與LLaVA-v1.5完全對齊。EE-MLLM在一般基準測試中表現與LLaVA相當。在細粒度基準測試中,EE-MLLM在分辨率為336X336時在AI2D和ChartQA上表現出色,但在OCRBench和TextVQA上略遜于LLaVA。對于336X336分辨率的平均得分為47.1,是LLaVA的48.1的98%。對于分辨率為672X672的情況,本文使用SigLIP作為視覺編碼器。如表4所示,EE-MLLM在AI2D和TextVQA上獲得了相當的結果,平均得分保持在LLaVA性能的98%。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

對齊器的消融實驗

在下表6中,本文評估了具有不同映射權重的對齊器變體。本文使用從Idefics2(Lauren?on等人,2024)初始化的SigLIP在不同的輸入分辨率下進行實驗。本文移除了對齊器中的不同權重,并在分辨率為336X336下訓練模型。對勾token表示在對齊器中使用的權重。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

本文有三個發現:1)如第一行所示,移除整個對齊器會顯著降低多個基準測試的性能。具體而言,TextVQA的得分從46.1降至44.8,五個基準測試的平均得分從34.5降至33.5。這個結果突顯了對齊器在將視覺特征與LLM特征空間對齊方面的有效性,使文本tokens能夠通過因果交叉注意模塊捕捉關鍵的視覺信息并解決問題。2)當消融對齊器中的個別權重時,本文發現保持結構更為重要。缺少V或O對低分辨率輸入的影響相對較小,甚至在缺少V時表現略有提升。然而,當缺少FFN時,對齊器的結構不再類似于transformer塊,導致顯著的性能損失。3)本文直接將輸入圖像分辨率提高到672X672,而無需額外訓練,并比較具有不同對齊器類型的變體。本文觀察到,在高分辨率輸入下,缺少V或O權重會導致細粒度基準測試(如TextVQA、ChartQA和DocVQA)出現顯著下降。這個發現表明在應用于高分辨率圖像時,完整的對齊器是多么重要。

可視化

本文從BLINK 和RealWorldQA 中采樣了四個示例,以評估下圖3中架構變化的影響。第一個示例展示了EE-MLLM能夠感知圖像中的細粒度視覺上下文,例如交通信號燈的顏色。第二和第三個示例強調了EE-MLLM理解物體位置的能力。具體而言,EE-MLLM可以準確識別吉他相對于桌子的位置以及狗的位置。最后一個示例揭示了EE-MLLM能夠區分視覺內容中的細微差別。

數據高效和計算高效全都要!中科大&微信等提出多模態大語言模型EE-MLLM-AI.x社區

結論

在本文中,本文重新審視了多模態大語言模型的先前研究,并將其分為兩類:基于自注意力的方法和基于交叉注意力的方法。前者數據效率高但計算效率低,而后者計算效率高但數據效率低。為了在保持計算效率的同時確保數據效率,本文為EE-MLLM提出了復合注意力機制,該機制結合了復合注意力模塊以提高計算效率,以及對齊器以提高數據效率。本文在一般基準和細粒度基準上進行了全面實驗,發現EE-MLLM在大多數基準上實現了最先進的性能。本文還評估了EE-MLLM在實際場景中的推理速度,結果表明EE-MLLM在推理方面具有顯著優勢。


本文轉自AI生成未來,作者:Feipeng Ma等


原文鏈接:??https://mp.weixin.qq.com/s/MyId76rf7UpiskK_jUR87A??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲一区二区在线视频 | 亚洲精品一区二区三区在线 | 国产精品亚洲欧美日韩一区在线 | 午夜精品一区二区三区在线视 | 亚洲三级av| 一区二区三区不卡视频 | 99精品亚洲国产精品久久不卡 | 亚洲播放一区 | 亚洲一区日韩 | 伊人精品久久久久77777 | 国产精品一码二码三码在线 | 欧美日本免费 | 免费一区二区三区 | 91夜夜夜| 国产91成人 | 免费污视频 | 毛片a级| 中文字幕成人 | 中文字幕不卡视频在线观看 | 久久久高清 | 亚洲成人自拍 | 日韩在线观看一区 | 综合色导航| 91亚洲精品在线 | 日本精品视频一区二区三区四区 | 我要看一级片 | 色综合区 | 天天射夜夜操 | 成人久久18免费网站图片 | 日日干日日 | www日| 欧美综合一区二区三区 | 做a网站 | 久久综合一区 | 91精品一区二区三区久久久久久 | 国产精品色哟哟网站 | av天天操| 久久精品毛片 | 美国一级毛片a | 亚洲成人一区二区三区 | 国产免费又色又爽又黄在线观看 |