成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LMEye:面向大語言模型的交互式感知網絡 原創

發布于 2025-5-12 09:19
瀏覽
0收藏

摘要

目前構建多模態大語言模型(MLLMs)的高效方法,主要是通過簡單的視覺映射網絡,如線性投影層、多層感知器(MLP)或 BLIP-2 中的 Q-Former,將視覺信息融入大語言模型(LLMs)。這類網絡僅對圖像特征進行一次投影,并未考慮圖像與人類輸入之間的交互。因此,獲取的視覺信息可能與人類意圖脫節,無法滿足大語言模型生成符合意圖的回復,這種信息可稱為靜態視覺信息。為緩解該問題,本文引入 LMEye,這是一種類似人眼的可插拔交互式感知網絡,旨在實現大語言模型與外部視覺信息的動態交互。它能讓大語言模型根據各種人類指令,獲取所需的視覺信息,即動態視覺信息采集。具體而言,LMEye 包含一個簡單的視覺映射網絡,為大語言模型提供圖像的基本感知。它還設有額外模塊,分別負責從大語言模型獲取請求、基于請求搜索視覺信息,并將交互后的視覺信息傳輸給大語言模型。如此,大語言模型理解人類查詢,將相應請求發送至基于請求的視覺信息交互模塊,并根據交織的多模態信息生成回復。我們通過在多模態基準測試上的大量實驗對 LMEye 進行評估,結果表明,與先前方法相比,它在各種多模態任務上顯著提升了零樣本性能,且參數更少。此外,我們還分別驗證了其在不同語言模型和視頻理解方面的有效性和可擴展性。

一、引言

在大量圖像文本數據上訓練的視覺語言模型(VLMs),在各種多模態理解和生成任務中表現出色。最近的多模態大語言模型(MLLMs)為大語言模型(LLMs)賦予了感知外部世界的能力,使其在處理復雜多模態信息和與環境交互方面表現強大。然而,從頭開始訓練一個多模態大語言模型(如 Flamingo、Kosmos-1 和 GPT-4)資源消耗巨大。為緩解這一問題,如圖 1 所示,先前的開源研究表明,我們可以基于純文本大語言模型構建多模態大語言模型,通過將(由預訓練凍結的視覺編碼器獲取的)視覺信息轉換為大語言模型的表示空間,使大語言模型能夠理解視覺信息并進行多模態人機交互。值得注意的是,整個訓練過程參數效率高,因為它僅需優化視覺到語言特征對齊的少量參數,類似于流行的前綴調優或提示調優方法。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 1先前方法和我們方法的概述。“LoRA” 指流行的低秩適配器技術,專門用于特定任務的大語言模型。與先前通過視覺映射網絡對輸入大語言模型的圖像特征進行一次轉換的方法相比,我們引入了大語言模型請求引導的視覺信息搜索(RVIS)模塊,在進行多模態理解和生成時動態獲取與指令相關的視覺信息 。

近期研究表明,可學習的線性映射網絡能讓大語言模型融入圖像的基本全局感知信息。與常見的視覺語言模型(如 Oscar 和 OFA)不同,以這種方式構建的多模態大語言模型通常在多模態生成方面表現良好,這得益于大語言模型強大的上下文理解、推理和生成能力。在此基礎上,Koh 等人提出了 FROMAGe 模型,他們凍結大語言模型和視覺編碼器,并微調幾個線性映射層以實現跨模態信息交互,在上下文圖像檢索和多模態對話任務中實現了強大的零樣本性能。Li 等人提出了 BLIP-2,它使用輕量級查詢變換器來彌合凍結的圖像編碼器和大語言模型之間的語義差距。此外,Liu 等人和 Zhu 等人最近引入的多模態指令跟隨調優方法,提升了大語言模型的多模態交互能力,在各種多模態場景中表現卓越。

然而,對于先前的方法(如 BLIP-2、LLaVA 和 FROMAGe),輸入大語言模型的視覺特征僅通過視覺映射網絡進行一次轉換,即圖 1 中的視覺語言投影。因此,圖像特征不與人類輸入查詢交互,在推理過程中保持不變,我們稱之為靜態視覺信息。由于一張圖像往往能有效傳達復雜甚至冗長的解釋,即 “一圖勝千言”,語言模型僅基于靜態圖像表示,可能無法獲取針對各種查詢的足夠視覺信息。為解決這一問題,我們提出了一種類似人眼的、面向大語言模型的交互式感知網絡 LMEye,它使大語言模型能夠根據各種人類指令請求所需的視覺信息,我們稱之為動態視覺信息采集。此外,從智能體的角度出發,我們將大語言模型視為多模態信息的核心處理器,不修改大語言模型的結構(如添加外部可學習參數)。否則,受類似觀察的啟發,可能存在削弱其在自然語言處理任務上原始性能的風險,從而降低大語言模型的泛化能力。

LMEye 主要包括兩個階段:第一階段主要為大語言模型提供圖像的基本感知信息,稱為特征對齊。我們采用 BLIP-2 中廣泛使用的視覺映射網絡 Q-Former 來實現這一目標。另一個階段負責動態視覺信息采集,主要包括:從大語言模型獲取請求、基于請求搜索視覺信息,并將交互后的視覺信息傳輸給大語言模型。在此,我們引入了一種新穎的基于請求的視覺信息搜索(RVIS)模塊,以實現大語言模型與視覺信息之間的動態交互。具體而言,大語言模型首先理解人類查詢和圖像的基本感知信息,我們使用可學習的探測向量并將其輸入大語言模型,以獲取大語言模型的請求。然后,這些請求表示被輸入 RVIS 模塊,以獲得用于大語言模型下一步推理的交互后視覺信息。通過這種方式,大語言模型通過 RVIS 模塊獲得所需的視覺信息。最后,大語言模型根據基本圖像信息、文本指令和交互后視覺信息的序列,生成符合指令的回復。

為驗證 LMEye 的有效性,我們在 MMBench 和 SEED-Bench 等各種多模態基準測試上進行了大量實驗。實驗結果表明,與先前方法相比,LMEye 在各種多模態任務上顯著提升了零樣本性能,且參數更少。此外,我們還分別驗證了其在不同語言模型和視頻理解方面的有效性和可擴展性。

總之,本文提出的 LMEye 的貢獻主要體現在以下三個方面:

1.我們提出了一種交互式感知網絡,使大語言模型能夠為各種人類查詢融入所需的視覺信息。大語言模型以類似人類的方式,理解人類查詢,將相應請求發送至基于請求的視覺信息搜索模塊,并根據交織的多模態信息生成回復。

2.我們的 LMEye 以較少的參數(44 億)實現了卓越的多模態理解和推理性能,在幾乎所有基準測試中都優于許多更大的多模態大語言模型(超過 70 億參數)。

3.消融研究表明,所提出的方法顯著提升了各種規模和類型大語言模型的零樣本多模態性能,并在視頻理解任務中取得了較好的效果,這表明 LMEye 在下游應用中具有高度的可擴展性。

二、相關工作

在本節中,我們將從視覺輔助大語言模型、多模態指令跟隨調優以及大語言模型的視覺工具三個方面,介紹多模態大模型的最新發展。

2.1 視覺輔助大語言模型

與從零開始使用大規模圖像文本對訓練的視覺語言模型不同,視覺輔助大語言模型基于預訓練的大語言模型,使其能夠理解視覺信息并處理多模態信息。它們通常采用最近提出的前綴調優或基于適配器的調優方法,在特定的多模態任務上對語言模型進行微調,以適應某些多模態場景。例如,有研究利用文本到圖像技術生成圖像,并將視覺信息融入語言模型以進行多模態文本生成。還有研究探索使用大語言模型進行圖像文本檢索和多模態文本圖像交互。在此方向上的進一步探索中,BLIP-2 采用 FlanT5 或 OPT 以及 Q-Former,有效地將視覺特征與語言模型對齊。最近,擁有 5620 億參數的 PaLME 被開發出來,用于將現實世界的連續傳感器模態集成到大語言模型中,從而在現實世界感知和人類語言之間建立聯系。總之,先前的工作表明,使凍結的大語言模型能夠處理多模態信息是一個有潛力的研究方向。

2.2 大語言模型的多模態指令跟隨調優

在指令調優純文本大語言模型方面的進展,在自然語言處理任務和人機交互場景中取得了令人矚目的性能提升,如 FlanT5、Bloomz 和 ChatGPT。最近,一些研究人員探索使用多模態指令數據對預訓練的大語言模型進行微調,以提高它們的多模態人機交互能力。有研究使用 GPT-4 生成多模態指令數據,并在合成的多模態指令跟隨數據集上對語言模型 LLaMA 進行微調。還有多項研究也引入了對齊良好的多模態指令跟隨數據集,對強大的指令調優語言模型(如 Vicuna)進行微調。最近先進的多模態大語言模型通常通過引入更強大的語言模型和更大規模的高質量指令數據,在開放域多模態問答任務中取得卓越性能,如 LLaMA-VID、Qwen-VL、MiniGPT-5、InternLM-XComposer2 和 MobileVLM V2。此外,一些研究人員探索構建能夠處理高分辨率圖像、具有高推理效率和安全性的多模態大語言模型,如 Safety Finetuning、MoE-LLaVA 和 LLaVA-NeXT。在本文中,我們也引入了各種多模態指令數據,使 LMEye 能夠適應開放域多模態場景,并與不同的人類查詢進行交互。

2.3 大語言模型的視覺工具

最近的一系列研究探索了如何通過使大語言模型能夠訪問外部工具(如視覺基礎模型、搜索引擎或其他 API)來解決復雜問題,從而提高大語言模型的性能。這種方法拓寬了大語言模型處理不同復雜程度信息的范圍。例如,Toolformer 使大語言模型能夠決定使用哪些 API、何時使用、傳遞哪些參數,以及如何將結果信息融入文本生成中。Low-code LLM 使用六種簡單的低代碼視覺編程交互(如點擊、拖動或文本編輯),以實現更可控和可靠的回復。相比之下,有研究提出了一種即插即用的組合推理框架 Chameleon,增強大語言模型以應對復雜挑戰,如使用現成的視覺模型。還有研究引入了 Visual ChatGPT,它設計了一組提示,將視覺模型信息融入 ChatGPT,同時考慮了具有多個輸入 / 輸出的模型以及需要視覺反饋的模型。與上述流水線方法不同,我們的工作提出了一種端到端的多模態生成方法,通過大語言模型外部的可學習信息搜索模塊與視覺信息進行交互。

三、LMEye:交互式感知網絡

在本節中,我們將首先介紹 LMEye 的總體概述,然后展示其兩個主要階段:特征對齊和基于請求的視覺信息搜索。

3.1 概述

如圖 2 所示,LMEye 的總體架構包含兩個階段,分別實現不同的功能。給定一幅圖像 I 和一個人類查詢X = (x_1, ..., x_M),其中x_i表示輸入到大語言模型的人類查詢中的第 i 個標記,我們通過 BLIP-2 的預訓練視覺編碼器獲得全局和細粒度的圖像特征h_I = (h_g^I, h_1^I, ..., h_{256}^I)。同時,一個可學習的特殊標記?img?被添加到大語言模型的詞嵌入表中,作為圖像特征的輸入位置標記。首先,我們使用視覺映射網絡獲得投影后的視覺信息,并將其與人類查詢一起輸入到大語言模型中。此外,一個可學習的動態查詢標記                        用于探測大語言模型的請求信息,然后這些信息被輸入到 RVIS 模塊中,以獲得與查詢相關的視覺信息。交互后的細粒度視覺信息、人類查詢和基本圖像感知信息被輸入到大語言模型中,以獲得最終答案。     


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 2LMEye 總體架構示意圖。訓練過程中,圖像編碼器(來自 CLIP)和大語言模型被凍結,這使得整個訓練過程高效。“RVIS” 代表基于請求的視覺信息搜索模塊,旨在獲取與人類查詢相關的視覺信息。它由四層 Transformer 塊組成。其輸入和輸出分別是來自大語言模型的請求表示和交互后的視覺信息 。

3.2 特征對齊

在這個階段,我們主要訓練視覺映射網絡,將基本圖像特征轉換為大語言模型的語言嵌入空間。我們采用 BLIP-2 中的 Q-Former 或可學習的線性投影層作為視覺映射網絡。具體來說,我們首先使用預訓練凍結的視覺編碼器(如 CLIP-ViT)對輸入圖像 I 進行編碼,得到圖像的序列表示h_I^V = (h_g^I, h_1^I, ..., h_{256}^I),其中 256 是圖像補丁的總數。圖像編碼h_I^V將被輸入到視覺映射網絡中。以 Q-Former 作為視覺映射網絡,我們首先初始化固定長度的可學習向量h_Q = (h_{q_1}, ..., h_{q_M}),并將其輸入到 Q-Former 中,以提取圖像的整體表示。詳細的計算過程如公式 1 所示:


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

其中 D 指圖像描述,Linear 是可學習的線性層,用于將圖像表示投影到與大語言模型相同的維度。在獲得圖像標記h_I和圖像描述h_D后,我們將它們拼接成一個序列[h_I, h_D],并將其輸入到大語言模型中,以訓練視覺映射網絡。圖像表示中添加了一個標記的嵌入表示,用于定位圖像。我們使用生成式交叉熵損失來優化視覺映射網絡,公式如下:


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

其中D_N是圖像描述的總標記長度。

3.3 視覺信息交互

在訓練視覺映射網絡使大語言模型理解圖像之后,我們引入視覺信息交互,為大語言模型獲取所需的視覺信息,這將增強對輸入圖像的整體理解以及圖像與人類查詢之間的動態交互。這個過程主要包括請求獲取和基于請求的視覺信息搜索。

1.請求獲取:我們在圖像和人類查詢的輸入序列末尾添加另一個特殊標記?img-q?,以分別捕獲圖像和人類查詢的整個編碼信息。因此,如圖 2 左側所示,我們可以通過(, h_I, X, ) \to (h_I, h_X, h_{img-q})得到大語言模型的第一個輸入序列,其中h_{img}指h_I與標記表示的相加。h_X和h_{img-q}分別是 X 和 的相應詞編碼表示。我們期望大語言模型最后一層中標記的最終輸出包含人類查詢的語義含義,即h_r \in R^{1 ×d_{L}},其中d_{L}指大語言模型的隱藏狀態大小。這是因為先前的研究表明,最近的大語言模型已經能夠理解各種人類語言。自注意力計算可以幫助動態特殊標記捕獲輸入序列的先前序列信息。此外,h_r也可能通過大語言模型的自注意力機制包含圖像內容,但我們認為,沒有在多模態數據上進行預訓練的純文本大語言模型,無法像強大的預訓練多模態圖像和語言模型那樣很好地融入視覺信息。為了幫助大語言模型融入與人類查詢對齊的所需視覺信息,我們不在特定數據上(使用全參數或低秩適應)優化大語言模型的參數(如 LLaVA 和 mPLUG-Owl),而是在大語言模型外部進行人類查詢和視覺信息之間的交互。通過這種方式,大語言模型可以保持其在自然語言任務上的原始能力和泛化性,因為大語言模型的結構和參數沒有改變。總之,我們認為這個過程是從大語言模型獲取請求信號,例如,如圖 2 中的示例所示,大語言模型對來自人類查詢 “Q1:圖片中的人在做什么?Q3:你能在圖片中看到什么特別的東西嗎?” 的請求信息進行編碼。    

2.基于請求的視覺信息搜索(RVIS):首先,我們應用一個線性投影層,將上述隱藏狀態h_r映射到后續信息交互模塊的空間中,記為h_R \in R^{Q ×d_{RV}},其中 Q 和d_{RV}分別指請求向量的長度和 RVIS 的隱藏大小。在獲得大語言模型的請求后,我們提出利用h_R與細粒度圖像特征進行多模態信息交互。為此,我們采用多層 Transformer 塊來實現基于請求的視覺信息交互。每個塊的計算如公式 3 所示:


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

其中h_{l-1}是第 l - 1 層的輸出,RVIS 的輸入是h_R。自注意力(SelfAttention)和交叉注意力(CrossAttention)基于多頭注意力機制,用于捕獲所需的視覺信息。在獲得最后一層的輸出之后,我們利用一個可學習的線性投影層將交互后的信息傳輸給大語言模型,記為h_t 。隨后,新的表示序列((h_{img }, h_{X}, h_{t}) )被輸入到大語言模型中以生成最終答案。假設多模態指令跟隨問答的訓練目標是Y=(y_{1}, \ldots, y_{N}),其中y_{i}表示第i個標記,N表示總長度,優化損失如下:

\mathcal{L}=-\frac{1}{N} \sum_{i=1}^{N} \log P_{i}\left(\hat{y}_{i}=y_{i} | I ; h_{X} ; h_{img-q} ; y_{1}, \ldots, y_{i-1}\right)

RVIS 輸出的交互后視覺信息在增強大語言模型的多模態信息交互方面發揮著重要作用,尤其是在視覺對話場景中。通過這種方式,整體的交互感知網絡 LMEye 能夠理解人類查詢,將相應請求傳遞給基于請求的視覺信息搜索模塊,并根據交織的多模態信息生成響應。

3.4 多模態指令跟隨微調

我們使用各種多模態指令跟隨數據,以使交互感知網絡有效運行。首先,如圖 3 第一行所示,我們基于來自 CC3M、COCO Caption 和 Flick3k 數據集的圖像文本對,構建了兩種類型的圖像文本語義匹配數據,分別是 “是非” 推理和四選一選擇任務,其中的圖像字幕是從相應的訓練集中隨機采樣得到的。通過這樣做,可以訓練整個網絡,以幫助和提高大語言模型進行圖像文本語義對齊的能力。其次,為了使 LMEye 適應各種人類查詢,我們引入了由 [21] 發布的關于對話和復雜推理的多模態指令跟隨數據。此外,考慮到復雜圖像包含無限層次的視覺信息,并且可能涉及外部知識,我們引入了關于圖像詳細描述的數據,以提高多模態長文本生成能力,其中包括來自 [21] 的相應數據和藝術品描述數據集 SemArt 。所有指令數據的總數約為 730 萬,涵蓋 710 萬語義匹配數據、2 萬個藝術品分析樣本和 15 萬個多輪對話樣本。最后,與 InstructBLIP 類似,我們還通過引入大約 20 個多模態任務的部分訓練集來擴充指令跟隨數據集,同時在兩個多模態基準上進行比較。我們將發布收集到的多模態指令跟隨數據 。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 3我們的多模態指令微調數據示意圖。第一行描述了 “是 / 否” 匹配問答對。第二行和第三行展示了關于對話、詳細視覺理解和復雜推理的多模態指令跟隨數據 。

四、實驗

4.1 實驗設置

1.數據集:首先,我們在最近發布的綜合多模態基準測試 MMBench 和 SEED-Bench 上評估 LMEye,這些基準測試是經過系統設計的客觀基準,用于穩健評估視覺語言模型的各種能力,詳細的理解介紹見表 1 和表 2。為了驗證 LMEye 在各種條件下的有效性,我們還在三個視覺理解和推理數據集上評估 LMEye 和其他視覺語言模型:

  • VCR(視覺常識推理):由 Zellers 等人于 2019 年開發,該數據集要求模型回答有關圖像的問題,不僅需要識別圖像中的對象,還需要理解場景,并對所描繪的關系和動作進行推理。
  • VQAv2(視覺問答版本 2):由 Goyal 等人于 2017 年創建,是原始 VQA 數據集的擴展,專注于視覺問答,測試模型回答給定圖像相關問題的能力,該數據集比其前身設計得更加平衡和全面。
  • OK-VQA(外部知識視覺問答):由 Marino 等人于 2019 年推出,該數據集強調在回答關于圖像的問題時需要外部知識。與其他專注于圖像內部視覺理解的數據集不同,OK-VQA 要求模型利用外部信息(如常識或現實世界事實)來正確回答問題。

此外,我們還使用 GPT-3.5-turbo,基于 [22] 中的約 3500 張圖像及其詳細描述,生成圍繞每張圖像的五個問答對。提示模板為 “為以下詳細的圖像描述生成五個問答對。要求:問題的答案必須包含在描述中,格式為問題:... 答案:... \n 描述: ”。問答對的總數約為 17500 個,其中答案的長度超過了傳統 VQA 數據集,平均長度為 13 個單詞。構建這些數據用于評估和分析近期多模態大語言模型的性能。

2.對比模型:Flamingo 是一個統一的多模態生成模型,能夠快速適應各種圖像和視頻任務;OFA 是一個序列到序列學習框架,可以統一各種跨模態和單模態任務;FROMAGe 是一個典型的語言視覺大模型(LVLM),通過圖像字幕和對比學習對大語言模型進行視覺基礎訓練,能夠進行圖像字幕生成和圖像文本檢索;BLIP-2 采用兩階段訓練策略,基于凍結的圖像編碼器和語言模型,引導視覺語言表示學習和視覺到語言的生成學習,在各種多模態任務中實現了最先進的性能。此外,我們還將我們的方法與多模態指令微調模型 MiniGPT-4 和 LLaVA 進行比較,其中 MiniGPT-4 基于 BLIP-2 中預訓練的 Q-Former。與 BLIP-2 和 FROMAGe 相比,它們使用由 GPT-4 生成的多模態指令跟隨數據進行微調。在多模態指令微調階段,LLaVA 的投影矩陣和大語言模型都被更新。

3.實現細節:我們在配備八個 Telsa A100-80G GPU 的 Python 環境中運行所有實驗。為了驗證 LMEye 的有效性,我們分別采用 OPT-iml-1.3b、Bloomz-7b1、LLaMA-7b/13b 和 BLIP-2 (FlanT5XL) 作為我們框架的骨干模型。在特征對齊階段,我們將初始學習率設置為1e^{-4},并使用 AdamW 優化器以余弦退火方式優化特征對齊過程。此階段的總訓練步數為一個 epoch,批次大小為 768。在多模態指令微調階段,我們采用較小的批次大小(256),并將初始學習率設置為1e^{-4} 。RVIS 的深度設置為 12,隱藏層大小為 768。在進行多模態指令微調時,我們將凍結第一階段的參數(包括特征對齊中的線性投影層和的標記表示,或 BLIP-2 中的 Q-Former)。在生成過程中,我們采用 HuggingFace Transformer 倉庫中的束搜索(beam search)生成策略,并將詳細圖像描述生成和 VQA 的束寬分別設置為 4 和 1。

4.評估指標:對于短答案的視覺問答(VQA)和視覺推理數據集,我們采用常見的 EM(完全匹配)計算方法作為準確率的評估方法。對于詳細圖像描述生成和長答案的 VQA,我們采用幾種生成式評估指標:

?BLEU:一種用于評估機器翻譯文本質量的指標,通過計算生成文本中 n - gram(n 個單詞的短語)與參考文本的精確匹配程度,并對過短的輸出進行懲罰,以此衡量機器輸出與人類輸出的對應程度。

?ROUGE:側重于召回率,即參考摘要中的內容在生成摘要中出現的比例。ROUGE 包括多種度量方式,如 ROUGE-N(生成文本和參考文本中 n - gram 的重疊情況)、ROUGE-L(最長公共子序列)等,每種方式都強調文本的不同方面。

?CIDEr:專為評估圖像描述任務而設計,通過計算生成句子與一組人類編寫的參考句子之間的余弦相似度(基于 TF-IDF 加權的 n - gram),量化生成句子與參考句子的相似程度。

?METEOR:超越了簡單的 n - gram 匹配,納入了同義詞和詞干形式,以實現更靈活和準確的匹配。METEOR 基于單字精度和召回率的調和均值,且召回率的權重高于精度。

4.2 整體結果與分析

1.MMBench 評估:在 MMBench 上的評估結果如表 1 所示。結果表明,我們提出的模型 LMEye - FlanT5 - XL 在使用更少參數(44 億對大于 70 億)的情況下,優于其他可比模型。值得注意的是,LMEye 在推理性能方面表現出色,特別是在邏輯推理(LR)、屬性推理(AR)和關系推理(RR)方面。這表明 LMEye 能夠有效地進行推理,并在不同信息之間建立聯系,從而比其他模型表現更好。此外,我們通過在相同的指令跟隨數據上,在 Q-Former 中實現人類查詢和圖像之間的交互,訓練了沒有 RVIS 的 LMEye(我們的模型),但 LMEye 在多個方面仍然優于它。這也表明,多模態指令數據的多樣性和質量在構建多模態大語言模型中也起著重要作用。

表1:MMBench上的模型性能。語言模型和視覺模型代表這些多模態大語言模型的主要骨干。“TOTALPARAMS”表示多模態大語言模型的總參數。邏輯推理(LR)、屬性推理(AR)、關系推理(RR)、細粒度感知(跨實例)(FP-C)、細粒度感知(單實例)(FP-S)和粗粒度感知(CP)。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

2.SEED-Bench 評估:表 2 中的實驗結果證明了 LMEye 實現最先進(SOTA)性能的有效性。具體來說,LMEye 在場景理解方面有顯著提升,比之前的 SOTA 模型提高了 13 分。此外,在樣本屬性識別和空間關系理解類別中,LMEye 也優于 InstructBLIP。這些結果突出了即插即用交互式感知框架在增強語言模型理解圖像和多模態指令能力方面的有效性。總體而言,這些發現展示了大語言模型在推進圖像理解領域的潛力,并表明即插即用交互式感知框架可以有效地利用這些能力。該領域的進一步研究可能為更復雜和有效的圖像理解方法鋪平道路,對廣泛的應用和行業產生影響。

表2:SEED-Bench上的模型性能。我們在圖像理解的九個維度上評估LMEye (FlanT5-XL)-44億參數版本及其消融變體(無RVIS),包括場景理解(SU)、實例識別(II)、實例位置(IL)、實例屬性(IA)、實例計數(IC)、空間關系(SR)、實例交互(IIR)、視覺推理(VR)和文本識別(TR)。“LM”、“VM”和“TP”分別指多模態大語言模型使用的語言模型、視覺編碼器及其總參數。“OVERALL”代表九個任務的平均得分。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

3.此外,InstructBLIP 模型的變體在實例識別(IL)和實例計數(IC)指標上表現出色。在評估訓練和測試數據集時,有兩個主要因素促成了這一成功:一是 InstructBLIP 模型使用了細粒度的訓練數據集,如 OCR-VQA 和 TextCaps,這些數據集有助于增強模型在圖像中精確定位和計數特定對象的能力,促進對視覺元素更詳細的理解;二是基礎語言模型的內在能力顯著影響了不同多模態任務的性能。FlanT5 模型是 T5 模型的改編版本,專門針對各種自然語言處理任務進行了微調,與 Vicuna - LLaMA 模型相比,它采用了不同的預訓練和微調數據。這種訓練背景的差異使得在特定任務的性能上具有獨特的優勢,特別是在需要細致語言理解的任務中。

此外,我們注意到在使用 RVIS 模塊時,文本識別(TR)任務的性能有所下降。TR 評估數據集相對較小,僅包含 85 個實例,與包含 14233 個樣本的更廣泛的 SEED-Bench 相比,規模相當有限,這限制了我們研究結果的普遍性。TR 數據集中很大一部分(85 個實例中的 72 個)專門涉及顏色識別問題,例如 “圖像中文字的顏色是什么?”。不幸的是,我們的指令微調數據集沒有充分涵蓋 OCR 或相關任務,導致 RVIS 模塊在識別和處理此類查詢時表現不佳。相比之下,基線(沒有 RVIS)的 Q-Former 直接從預訓練參數中微調,接觸了大約 1.29 億張圖像,包括那些有特定顏色內容的圖像。這種在多樣視覺輸入方面的廣泛背景有助于保持其顏色感知能力,而 RVIS 模塊由于接觸到的相關指令數據有限,在這方面表現較弱。為了緩解這個問題,并在 RVIS 在一般場景理解中展現出的初步前景基礎上繼續發展,未來的改進將包括用更多樣化的示例豐富我們的訓練數據集,特別是那些包含顏色相關數據的示例。這一策略旨在增強 RVIS 的顏色感知能力和在文本識別任務中的整體性能。

4.3 消融研究與分析

1.視覺問答和多模態推理:實驗結果如表 3 所示,我們沒有展示 LLaVA 和 MiniGPT-4 在 VCR 上的結果,因為它們沒有按照提示從四個候選選項中選擇一個。這可能歸因于 Vicuna 的自身能力,它是僅用對話數據微調的 LLaMA 模型。與傳統的視覺語言模型(如 Flamingo-3B 和 OFA)相比,設計的 LMEye 變體和其他多模態大語言模型能夠在答案選擇(VCR)和短答案生成任務(VQA)上實現更好的零樣本性能,即使 LMEye (Bloomz-7b1) 在預訓練階段僅見過 170 萬張圖像。因此,基于凍結的視覺編碼器和大語言模型構建訓練高效的多模態大語言模型的方法是可行的。此外,在預訓練階段引入更強大的語言模型和高質量的圖像文本數據,將提高語言模型理解圖像信息的準確性,例如各種 LMEye (Bloomz-7b1) 和 LMEye (OPT-iml-1.3b) 變體的性能比較。當我們引入基于 BLIP-2 的 LMEye,并通過收集的多模態指令數據訓練交互框架時,它在復雜視覺問題任務 OK-VQA 上的性能大幅提高了約 5%,并且比 InstructBLIP 表現更好。通過進一步比較它們在表 1 和表 2 中的性能,我們可以發現引入兩階段交互式感知網絡(RVIS)對提高整體多模態性能的有效性。各種高質量的指令數據在提高問題理解和信息搜索準確性方面也起著重要作用。

2.長答案視覺問答:我們主要在構建的評估基準上評估各種 LMEye 變體,包括詳細圖像描述和視覺問答任務。根據表 4 中的實驗結果,我們可以看到經過多模態指令微調的 LMEye 模型幾乎顯著提高了所有生成指標。結合圖 4 頂部給出的示例,我們認為多模態指令跟隨微調方法有助于大語言模型實現類似于 GPT-4 的圖像理解能力。此外,我們發現 LMEye (Bloomz-7b1) 能夠理解各種問題的意圖并生成準確的響應。與 LLaVA (Vicuna-7b)、MiniGPT-4 和 BLIP-2 相比,這些模型為關于圖像的不同問題融入了靜態視覺信息,而我們的方法可以獲取與人類查詢相關的相應視覺信息,并生成更準確的響應(見實驗表和圖 4 中的比較性能)。

表4:在第四節A部分給出的自建評估基準上的消融實驗。“長答案視覺問答”主要側重于用一個或多個句子回答問題。“詳細圖像描述”需要模型對圖像進行詳細描述。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

3.詳細描述:與 MiniGPT-4 和 LLaVA 使用的多模態指令跟隨數據不同,我們引入了藝術品描述數據作為指令微調數據的一部分,從而提高了模型理解藝術品的能力。我們觀察到,大語言模型可以利用其存儲的知識對藝術品進行充分的分析,如圖 4 中的藝術品理解所示。從表 4 中我們還觀察到,詳細圖像描述能力的提高主要來自于使用相關的指令數據。我們的方法主要提高了多模態大語言模型在各種查詢的 VQA 任務上的性能。總之,LMEye 變體的消融實驗表明,所提出的交互式感知網絡可以即插即用于各種大語言模型,并通過引入基于請求的視覺信息搜索模塊提高整體性能。

4.4 視頻理解的可擴展性

先前的實驗展示了 LMEye 在各種大語言模型(如 BLOOM、LLaMA、FlanT5 和 OPT)上的顯著可擴展性,這暗示了它在視頻處理領域的潛在擴展能力。該方法包括訓練一個專門的視頻編碼器和轉換器,利用 RVIS 與長時間編碼信號交互的能力。我們的方法包括聚合短視頻幀的編碼信息,并在視頻動作和流程理解的嚴格基準測試中進行測試。我們視頻理解實驗的表 5 結果證實了擴展 LMEye 能力以理解視頻內容的可行性。例如,LMEye 與領先的基線模型 VPGTrans 相比表現更優,在動作預測方面提高了約 7%,在流程理解任務中提高了約 3.5%。即使 LMEye 沒有使用視頻數據進行訓練,也能取得這樣的成績,這表明它在這些場景中的性能優于 Video-ChatGPT。我們的發現不僅突出了該模型的成功擴展,還展示了與視頻相關的多模態大語言模型相比,它值得稱贊的性能。這一進展為該領域的進一步發展和應用指明了有前景的方向。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

表 5來自 SEED-Bench 的視頻理解和推理基準上的零樣本性能。AP(動作預測)側重于根據當前視頻幀預測下一個動作,PU(流程理解)是選擇正確描述視頻中時間動作的選項 。

4.5 案例研究

圖 4 展示了 LMEye 在各種領域(包括指令跟隨視覺問答(VQA)、藝術品理解、知識 VQA 和中文 VQA)的性能對比分析,從而突出了其應用的可擴展性。最初,我們的觀察結果表明,LMEye 變體在回答與物體顏色和數量的枚舉和識別相關的視覺問題方面表現卓越,如圖 4 第一行所示。此外,當 LMEye-FlanT5xl 模型在訓練過程中接觸到藝術品數據集時,其分析藝術品的能力變得明顯,展示了它在不同數據分布上的強大適應性。有趣的是,當 LMEye 與一個中英雙語大語言模型 Lychee-Base-11B 集成時,它不僅在中文 VQA 中表現出色,還在英語知識 VQA 任務中表現出有效的泛化能力。這種多功能性證明了它全面的語言理解能力。此外,圖 5 展示了一個與 LMEye-FlanT5XL 進行的隨機多輪人機交互示例,突出了它在處理開放世界多模態推理查詢方面的有效性。圖 5 中藍色突出顯示的響應特別說明了我們的模型在這些復雜場景中的高水平性能。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 4各種 LMEye 變體生成的一些案例示例。藝術品理解和多輪對話基于 LMEye (FlanT5XL)。為了檢查 LMEye 對不同大語言模型的穩定性,我們還基于一個中英雙語大語言模型 Lychee-Base-11B 開發了 LMEye-IPN-Lychee。IPN 指交互式感知網絡,Lizhi 是 Lychee 模型的中文拼音 。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 5在隨機對話設置中,與 LMEye-FlanT5-XL 進行多輪人機交互的示例。藍色文字顯示了對推理問題的正確回答 。

五、討論與未來工作

總體而言,我們主要對多模態指令微調的多模態大語言模型提出了一些觀察和未來方向:

指令微調的大語言模型在多模態任務上具有更好的泛化能力:先前的工作表明,經過指令微調的大語言模型的 BLIP-2 變體在許多多模態任務中表現最佳。在表 3 中,我們觀察到 LMEye (OPT-iml-1.3b)?在 VCR 和 OK-VQA 任務上,比使用更大規模 OPT 版本的 FROMAGe (OPT-6.7b) 性能更好。這可能是因為指令微調的大語言模型比原始大語言模型更能理解人類查詢,因此它們在多模態問答任務中表現更好。未來,在構建多模態大語言模型時,我們可以采用經過監督微調的大語言模型作為骨干模型。

表3:在三個常見多模態數據集上的消融實驗結果。帶有“?”的LMEye變體表示我們僅保留預訓練的線性投影層并去除交互過程(RVIS)。“NUMIMG”表示特征對齊階段包含的圖像總數。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

多模態指令跟隨數據的質量和多樣性很重要:LLaVA (Vicuna-7b) 和 MiniGPT-4 (Vicuna-7b) 的比較表明,包含更多樣化多模態指令數據的 LLaVA 性能優于 MiniGPT-4。這一發現與相關研究一致,該研究表明多樣的多模態指令數據可以提高多模態大語言模型在各種任務中的整體性能 。當前的多模態指令跟隨數據通常是由強大的 GPT-4 通過 Self-Instruct 技術構建的。雖然這些自動生成的指令數據具有多樣性,但在質量方面仍有提升空間。未來,納入高質量的多模態任務數據(包括視頻、圖像和音頻),以增強指令微調的多模態大語言模型的綜合能力將是有益的。

視覺信息應與人類指令交互:先前的工作 InstructBLIP 嘗試將文本問題輸入到 Q-Former 中,以優化其在特定視覺問答任務中的性能,從而取得了優異的結果。這些問題通過利用 Q-Former 架構中的自注意力層,促進了視覺信息的提取。與 BLIP-2 不同,LMEye 專注于提取對大語言模型編碼請求具有高信息價值的圖像特征,實現了大語言模型與視覺信息之間的動態交互。此外,我們引入了多樣的多模態指令跟隨數據來訓練 LMEye,使其能夠適應廣泛的人類查詢。因此,大語言模型可以利用豐富的視覺信息有效地完成不同的任務。總之,使視覺信息與人類指令交互對于提高多模態大語言模型的能力是有效的。

幻覺問題:雖然多模態大語言模型在生成詳細的圖像描述或藝術品分析時,很容易產生與客觀圖像和常識不符、無意義的片段,或者捏造事實,如圖 6 中圖像的詳細描述所示。為了解決這個問題,未來我們可以引入對齊技術(如人類反饋強化學習(RLHF) )、檢索增強或多模態思維鏈(COT) ,以提高生成內容的真實性。


LMEye:面向大語言模型的交互式感知網絡-AI.x社區

圖 6一個展示多模態大語言模型中存在的幻覺問題的案例。藍色文字代表 LMEye 和 LLaVA 的錯誤回答 。

六、局限性

盡管我們的模型努力提高與人類查詢的對齊程度,但需要承認的是,它們并不能完全對齊,也并非完全安全。盡管我們努力提高輸出質量,但我們的模型在避免生成有毒或有偏見的內容、捏造事實和其他不良輸出方面仍然存在局限性。在某些情況下,模型可能會無意中生成冒犯性、歧視性或有害的輸出,這可能歸因于訓練數據中的偏差或大語言模型本身的能力問題。此外,由于可用的多模態指令跟隨數據在質量和多樣性方面的限制,模型可能會對某些查詢提供錯誤的響應。

七、結論

我們提出了 LMEye,為大語言模型附加了一個類似人眼的交互式感知網絡,旨在通過大語言模型與視覺信息之間的動態交互實現大型視覺語言模型。我們方法的核心是開發基于請求的視覺信息搜索(RVIS)模塊。該模塊促進了大語言模型與明確的視覺信息之間的直接交互,擺脫了傳統大語言模型僅依賴內部自注意力計算的方式。我們的方法特別值得注意的是,與現有的更大的多模態大語言模型相比,它用更少的參數實現了這種增強的功能。實驗結果表明,在兩個評估基準(MMBench 和 SEED-Bench)上,我們的方法以更少的參數取得了優于更大的多模態大語言模型的性能。消融研究驗證了 LMEye 變體在開放世界視覺問答、詳細圖像描述和多模態推理任務上的有效性。我們在不同領域的廣泛測試進一步證明了 RVIS 框架具有高度的可擴展性和適應性。它不僅在不同的數據類型(包括文本、圖像和視頻)上有效,而且在各種大語言模型上也有效。這種可擴展性和適應性突顯了 RVIS 作為視覺語言模型開發領域變革性工具的潛力。


本文轉載自公眾號AIRoobt ,作者:Yunxin Li等

原文鏈接:??https://mp.weixin.qq.com/s/jP_WfaxAt-8dnhPo-3fZ9g??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 日本精品久久久一区二区三区 | 国产一区视频在线 | 激情综合五月 | av超碰| 国产91视频免费 | 欧美一区二区在线免费观看 | 亚洲欧美国产毛片在线 | 一区二区在线 | 亚洲国产一区二区三区 | 久久久精品国产 | 亚洲免费片 | 视频一区中文字幕 | av在线一区二区 | 午夜在线视频 | 久草福利 | 亚洲国产一区二区三区 | 国产午夜精品久久久 | 精品亚洲一区二区三区 | 成人毛片网站 | 久久久久国产精品免费免费搜索 | 国产成人一区二区三区电影 | 国产高清一二三区 | 亚洲精品视频三区 | 免费视频一区二区三区在线观看 | 一区二区视频在线观看 | 午夜影视网 | 亚洲欧美在线观看 | 亚洲精品在线播放 | av香蕉 | 做a网站| 国产在线97 | 一级毛片视频 | 中文字幕第100页 | 天天色av | 国产一区二区在线播放 | 久久亚洲国产精品日日av夜夜 | 四虎最新| h视频在线免费 | 一区二区三区四区在线 | 午夜视频在线观看视频 | 免费看欧美一级片 |