僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破
本文共同一作為葛俊岐 (清華大學(xué)本科生),陳子熠 (清華大學(xué)本科生),林錦濤 (香港大學(xué)博士生),祝金國(guó) (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺(jué)基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,代表作有 Deformable DETR、DCN v2 等。
隨著語(yǔ)言大模型的成功,視覺(jué) - 語(yǔ)言多模態(tài)大模型 (Vision-Language Multimodal Models, 簡(jiǎn)寫(xiě)為 VLMs) 發(fā)展迅速,但在長(zhǎng)上下文場(chǎng)景下表現(xiàn)卻不盡如人意,這一問(wèn)題嚴(yán)重制約了多模態(tài)模型在實(shí)際應(yīng)用中的潛力。
為解決這一問(wèn)題,清華大學(xué),香港大學(xué)和上海 AI Lab 聯(lián)合提出了一種新的用于多模態(tài)大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態(tài)大模型在長(zhǎng)上下文場(chǎng)景下的新突破。
- 論文地址:https://arxiv.org/abs/2412.09616
- 項(xiàng)目主頁(yè):https://zzdhybthu.github.io/V2PE.github.io/
- 開(kāi)源代碼:https://github.com/OpenGVLab/V2PE
位置編碼是多模態(tài)大模型中的關(guān)鍵技術(shù),用于讓模型理解輸入序列的相對(duì)位置關(guān)系。它使得 VLMs 能夠理解詞語(yǔ)在句子中的位置,并識(shí)別圖像塊在原圖中的二維位置。然而,現(xiàn)有的多模態(tài)模型通常在圖像 token 上沿用文本模型的位置編碼方式,這并非最優(yōu)方案。
V2PE 提出了一種為視覺(jué) token 分配可變位置增量的新方法,有效解決了傳統(tǒng)位置編碼在處理超長(zhǎng)上下文任務(wù)時(shí)的性能瓶頸問(wèn)題。通過(guò)避免位置編碼超出模型訓(xùn)練上下文窗口的限制,V2PE 顯著提升了模型在 32K 至 1M 長(zhǎng)度超長(zhǎng)上下文任務(wù)中的表現(xiàn)。相比傳統(tǒng)位置編碼的模型,采用 V2PE 的模型在這些任務(wù)中實(shí)現(xiàn)了突破性改進(jìn),甚至超越了最先進(jìn)的閉源大模型。
V2PE 工作有以下貢獻(xiàn):
- 構(gòu)建了一個(gè)用于 VLMs 長(zhǎng)上下文訓(xùn)練和評(píng)估的混合數(shù)據(jù)集。研究團(tuán)隊(duì)通過(guò)這一數(shù)據(jù)集發(fā)現(xiàn),直接將 LLM 的位置編碼機(jī)制應(yīng)用于視覺(jué) token 是次優(yōu)選擇。
- 提出了可變視覺(jué)位置信息編碼 (V2PE),一種創(chuàng)新的位置編碼策略,通過(guò)為視覺(jué) token 分配可變且較小的增量,大幅提升了 VLMs 對(duì)長(zhǎng)多模態(tài)上下文的理解和推理能力。
- 將 V2PE 方法和擴(kuò)展訓(xùn)練數(shù)據(jù)應(yīng)用于開(kāi)源視覺(jué)模型 InternVL2-2B, 微調(diào)后的模型在統(tǒng)一多模態(tài)基準(zhǔn)測(cè)試和長(zhǎng)上下文多模態(tài)任務(wù)中表現(xiàn)優(yōu)異,成功處理長(zhǎng)達(dá) 1M token 的序列,展現(xiàn)了卓越的長(zhǎng)上下文處理能力。
可變視覺(jué)位置編碼
突破視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景中的新邊界
在人工智能領(lǐng)域,視覺(jué) - 語(yǔ)言模型 因其在多模態(tài)任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而,在處理視頻、高分辨率圖像或長(zhǎng)篇圖文文檔等長(zhǎng)上下文場(chǎng)景時(shí),其泛化能力卻顯著下降,這限制了它們?cè)趯?shí)際應(yīng)用中的潛力,并影響了用戶(hù)體驗(yàn)的進(jìn)一步提升。
V2PE 旨在解決的核心問(wèn)題在于:為什么 VLMs 在長(zhǎng)上下文場(chǎng)景下表現(xiàn)不佳,以及如何提升它們?cè)陂L(zhǎng)序列多模態(tài)理解與推理上的能力?
為了研究 VLMs 為什么在長(zhǎng)上下文場(chǎng)景表現(xiàn)不佳,研究團(tuán)隊(duì)通過(guò)構(gòu)建大規(guī)模的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集,系統(tǒng)地評(píng)估和分析 VLMs 的能力,在這一過(guò)程中,他們意識(shí)到位置編碼策略在 VLMs 的性能中起著至關(guān)重要的作用。
傳統(tǒng)的 VLMs 位置編碼通常不區(qū)分文本 token 和圖像 token,并在訓(xùn)練中使用固定的編碼規(guī)則。然而,文本 token 屬于一維數(shù)據(jù),位置編碼僅需傳達(dá)先后順序;圖像 token 則為二維數(shù)據(jù),位置編碼需傳遞圖像塊的空間位置信息,還要考慮多分辨率下縮略圖與子圖像塊的對(duì)應(yīng)關(guān)系。此外,當(dāng)模型處理超出訓(xùn)練上下文窗口的長(zhǎng)序列時(shí),固定位置編碼會(huì)超出模型已知范圍,導(dǎo)致推理能力受限。
因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專(zhuān)門(mén)針對(duì)視覺(jué) - 語(yǔ)言模型(VLMs)中的長(zhǎng)上下文場(chǎng)景。V2PE 通過(guò)為視覺(jué) token 分配更小的、可變的位置增量,有效地管理長(zhǎng)多模態(tài)序列。
增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集
作者引入了兩個(gè)增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長(zhǎng)上下文能力并建立評(píng)估框架。
- Long-VQA 數(shù)據(jù)集擴(kuò)展了 17 個(gè)被廣泛采用的數(shù)據(jù)集,將內(nèi)容從短序列擴(kuò)展到包含高達(dá) 32K token 的序列。任務(wù)涵蓋常識(shí)推理、事實(shí)知識(shí)和解釋文本和視覺(jué)信息。
- Long-MR 數(shù)據(jù)集受多模態(tài)大海撈針 benchamrk -- MM-NIAH 的啟發(fā),通過(guò)在交錯(cuò)的文本圖像中檢測(cè)目標(biāo)圖像或段落,評(píng)估 VLMs 處理超長(zhǎng)上下文的能力。
可變視覺(jué)位置編碼
位置編碼在視覺(jué) - 語(yǔ)言模型中的作用
位置編碼是 Transformer 架構(gòu)中的基本組成部分,它通過(guò)為 token 提供位置信息來(lái)捕獲序列關(guān)系。位置編碼通常涉及兩個(gè)步驟:位置索引推導(dǎo)和位置嵌入計(jì)算
。
- 位置索引推導(dǎo):為每個(gè) token
分配位置索引
。
- 位置嵌入計(jì)算:將這些索引轉(zhuǎn)換為影響注意力機(jī)制的位置嵌入。
可變位置索引推導(dǎo)
作者提出了一種針對(duì)模態(tài)特定的遞歸函數(shù),為文本和視覺(jué) token 分配不同的位置索引:
其中是一個(gè)小于 1 的增量,用于減少視覺(jué) token 的位置索引增加速率。在訓(xùn)練過(guò)程中,
可以從一組分?jǐn)?shù)值中動(dòng)態(tài)選擇,以適應(yīng)不同的輸入長(zhǎng)度和復(fù)雜性。
這種方法與傳統(tǒng)的長(zhǎng)上下文方法相比具有幾個(gè)優(yōu)勢(shì):
1. V2PE 保留了 VLMs 中的所有視覺(jué) token,保留了視覺(jué)內(nèi)容的豐富性和細(xì)節(jié)。
2. V2PE 允許 VLMs 通過(guò)在訓(xùn)練期間動(dòng)態(tài)選擇來(lái)適應(yīng)任意間隔的位置索引,避免了位置編碼外推引起的不準(zhǔn)確。
長(zhǎng)上下文能力顯著提升
經(jīng)過(guò)一系列的實(shí)驗(yàn)和分析,研究團(tuán)隊(duì)取得了顯著的成果。通過(guò)引入 Variable Visual Position Encoding (V2PE) 和增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集,研究團(tuán)隊(duì)得到了以下幾個(gè)重要的發(fā)現(xiàn):
對(duì)模型上下文能力的影響
在上下文長(zhǎng)度 32k 以?xún)?nèi)的數(shù)據(jù)上訓(xùn)練模型,在 64k 以?xún)?nèi),多種長(zhǎng)度的基準(zhǔn)測(cè)試上進(jìn)行測(cè)試。實(shí)驗(yàn)的結(jié)果表明,在測(cè)試長(zhǎng)度超出訓(xùn)練的上下文長(zhǎng)度時(shí),模型效果會(huì)顯著下降,但選用更小的增量可以有效緩解這一現(xiàn)象。
- 在 1M 上下文長(zhǎng)度下的表現(xiàn)提升
作者分別在 32k 和 256k 的訓(xùn)練數(shù)據(jù)上微調(diào)模型,并在長(zhǎng)達(dá) 1M 的多種上下文長(zhǎng)度上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,V2PE 在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)明顯優(yōu)于不加 V2PE 的模型,也優(yōu)于使用插值方法的模型,甚至能超越先進(jìn)的閉源大模型。
此外,作者將訓(xùn)練好的 V2PE 模型與其他視覺(jué) - 語(yǔ)言模型在多種基準(zhǔn)測(cè)試進(jìn)行了對(duì)比,結(jié)果表明,V2PE 在長(zhǎng)上下文多模態(tài)任務(wù)上的表現(xiàn)優(yōu)于其他模型,證明了 V2PE 的有效性。
消融實(shí)驗(yàn)中,作者將 V2PE 方法與 token 壓縮的方法以及在訓(xùn)練時(shí)固定視覺(jué) token 的位置編碼增量的方法進(jìn)行了對(duì)比,證明了 V2PE 的優(yōu)勢(shì)。
在對(duì)注意力圖的分析中,作者關(guān)注注意力圖的尾部,即對(duì)應(yīng)序列末端的問(wèn)題部分的注意力圖。作者發(fā)現(xiàn),隨著的減小,模型能更好地把注意力集中在問(wèn)題對(duì)應(yīng)的答案附近,證明了 V2PE 能夠有效地提升模型將注意力對(duì)齊到輸入序列中的關(guān)鍵部分的能力。
V2PE 的提出,為視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)提供了新的思路。通過(guò)為視覺(jué) token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓(xùn)練上下文窗口的問(wèn)題,提升了模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)。
作者相信,V2PE 的提出將為視覺(jué) - 語(yǔ)言模型的發(fā)展帶來(lái)新的機(jī)遇,為模型在長(zhǎng)上下文多模態(tài)任務(wù)中的應(yīng)用提供更多可能性。