僅縮小視覺(jué)Token位置編碼間隔，輕松讓多模態(tài)大模型理解百萬(wàn)Token！清華大學(xué)，香港大學(xué)，上海AI Lab新突破

作者：機(jī)器之心 2025-01-15 13:40:00

V2PE 的提出，為視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)提供了新的思路。

本文共同一作為葛俊岐 (清華大學(xué)本科生)，陳子熠 (清華大學(xué)本科生)，林錦濤 (香港大學(xué)博士生)，祝金國(guó) (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲，他的研究方向是視覺(jué)基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型，代表作有 Deformable DETR、DCN v2 等。

隨著語(yǔ)言大模型的成功，視覺(jué) - 語(yǔ)言多模態(tài)大模型 (Vision-Language Multimodal Models, 簡(jiǎn)寫(xiě)為 VLMs) 發(fā)展迅速，但在長(zhǎng)上下文場(chǎng)景下表現(xiàn)卻不盡如人意，這一問(wèn)題嚴(yán)重制約了多模態(tài)模型在實(shí)際應(yīng)用中的潛力。

為解決這一問(wèn)題，清華大學(xué)，香港大學(xué)和上海 AI Lab 聯(lián)合提出了一種新的用于多模態(tài)大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ，取得多模態(tài)大模型在長(zhǎng)上下文場(chǎng)景下的新突破。

論文地址：https://arxiv.org/abs/2412.09616
項(xiàng)目主頁(yè)：https://zzdhybthu.github.io/V2PE.github.io/
開(kāi)源代碼：https://github.com/OpenGVLab/V2PE

位置編碼是多模態(tài)大模型中的關(guān)鍵技術(shù)，用于讓模型理解輸入序列的相對(duì)位置關(guān)系。它使得 VLMs 能夠理解詞語(yǔ)在句子中的位置，并識(shí)別圖像塊在原圖中的二維位置。然而，現(xiàn)有的多模態(tài)模型通常在圖像 token 上沿用文本模型的位置編碼方式，這并非最優(yōu)方案。

V2PE 提出了一種為視覺(jué) token 分配可變位置增量的新方法，有效解決了傳統(tǒng)位置編碼在處理超長(zhǎng)上下文任務(wù)時(shí)的性能瓶頸問(wèn)題。通過(guò)避免位置編碼超出模型訓(xùn)練上下文窗口的限制，V2PE 顯著提升了模型在 32K 至 1M 長(zhǎng)度超長(zhǎng)上下文任務(wù)中的表現(xiàn)。相比傳統(tǒng)位置編碼的模型，采用 V2PE 的模型在這些任務(wù)中實(shí)現(xiàn)了突破性改進(jìn)，甚至超越了最先進(jìn)的閉源大模型。

V2PE 工作有以下貢獻(xiàn)：

構(gòu)建了一個(gè)用于 VLMs 長(zhǎng)上下文訓(xùn)練和評(píng)估的混合數(shù)據(jù)集。研究團(tuán)隊(duì)通過(guò)這一數(shù)據(jù)集發(fā)現(xiàn)，直接將 LLM 的位置編碼機(jī)制應(yīng)用于視覺(jué) token 是次優(yōu)選擇。
提出了可變視覺(jué)位置信息編碼 (V2PE)，一種創(chuàng)新的位置編碼策略，通過(guò)為視覺(jué) token 分配可變且較小的增量，大幅提升了 VLMs 對(duì)長(zhǎng)多模態(tài)上下文的理解和推理能力。
將 V2PE 方法和擴(kuò)展訓(xùn)練數(shù)據(jù)應(yīng)用于開(kāi)源視覺(jué)模型 InternVL2-2B, 微調(diào)后的模型在統(tǒng)一多模態(tài)基準(zhǔn)測(cè)試和長(zhǎng)上下文多模態(tài)任務(wù)中表現(xiàn)優(yōu)異，成功處理長(zhǎng)達(dá) 1M token 的序列，展現(xiàn)了卓越的長(zhǎng)上下文處理能力。

可變視覺(jué)位置編碼

突破視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景中的新邊界

在人工智能領(lǐng)域，視覺(jué) - 語(yǔ)言模型因其在多模態(tài)任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而，在處理視頻、高分辨率圖像或長(zhǎng)篇圖文文檔等長(zhǎng)上下文場(chǎng)景時(shí)，其泛化能力卻顯著下降，這限制了它們?cè)趯?shí)際應(yīng)用中的潛力，并影響了用戶(hù)體驗(yàn)的進(jìn)一步提升。

V2PE 旨在解決的核心問(wèn)題在于：為什么 VLMs 在長(zhǎng)上下文場(chǎng)景下表現(xiàn)不佳，以及如何提升它們?cè)陂L(zhǎng)序列多模態(tài)理解與推理上的能力？

為了研究 VLMs 為什么在長(zhǎng)上下文場(chǎng)景表現(xiàn)不佳，研究團(tuán)隊(duì)通過(guò)構(gòu)建大規(guī)模的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集，系統(tǒng)地評(píng)估和分析 VLMs 的能力，在這一過(guò)程中，他們意識(shí)到位置編碼策略在 VLMs 的性能中起著至關(guān)重要的作用。

傳統(tǒng)的 VLMs 位置編碼通常不區(qū)分文本 token 和圖像 token，并在訓(xùn)練中使用固定的編碼規(guī)則。然而，文本 token 屬于一維數(shù)據(jù)，位置編碼僅需傳達(dá)先后順序；圖像 token 則為二維數(shù)據(jù)，位置編碼需傳遞圖像塊的空間位置信息，還要考慮多分辨率下縮略圖與子圖像塊的對(duì)應(yīng)關(guān)系。此外，當(dāng)模型處理超出訓(xùn)練上下文窗口的長(zhǎng)序列時(shí)，固定位置編碼會(huì)超出模型已知范圍，導(dǎo)致推理能力受限。

因此，作者提出了 Variable Visual Position Encoding (V2PE)，這是一種新穎的位置編碼方法，專(zhuān)門(mén)針對(duì)視覺(jué) - 語(yǔ)言模型（VLMs）中的長(zhǎng)上下文場(chǎng)景。V2PE 通過(guò)為視覺(jué) token 分配更小的、可變的位置增量，有效地管理長(zhǎng)多模態(tài)序列。

增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集

作者引入了兩個(gè)增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集：Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長(zhǎng)上下文能力并建立評(píng)估框架。

Long-VQA 數(shù)據(jù)集擴(kuò)展了 17 個(gè)被廣泛采用的數(shù)據(jù)集，將內(nèi)容從短序列擴(kuò)展到包含高達(dá) 32K token 的序列。任務(wù)涵蓋常識(shí)推理、事實(shí)知識(shí)和解釋文本和視覺(jué)信息。
Long-MR 數(shù)據(jù)集受多模態(tài)大海撈針 benchamrk -- MM-NIAH 的啟發(fā)，通過(guò)在交錯(cuò)的文本圖像中檢測(cè)目標(biāo)圖像或段落，評(píng)估 VLMs 處理超長(zhǎng)上下文的能力。

可變視覺(jué)位置編碼

位置編碼在視覺(jué) - 語(yǔ)言模型中的作用

位置編碼是 Transformer 架構(gòu)中的基本組成部分，它通過(guò)為 token 提供位置信息來(lái)捕獲序列關(guān)系。位置編碼通常涉及兩個(gè)步驟：位置索引推導(dǎo)和位置嵌入計(jì)算。

位置索引推導(dǎo)：為每個(gè) token分配位置索引。
位置嵌入計(jì)算：將這些索引轉(zhuǎn)換為影響注意力機(jī)制的位置嵌入。

可變位置索引推導(dǎo)

作者提出了一種針對(duì)模態(tài)特定的遞歸函數(shù)，為文本和視覺(jué) token 分配不同的位置索引：

其中是一個(gè)小于 1 的增量，用于減少視覺(jué) token 的位置索引增加速率。在訓(xùn)練過(guò)程中，可以從一組分?jǐn)?shù)值中動(dòng)態(tài)選擇，以適應(yīng)不同的輸入長(zhǎng)度和復(fù)雜性。

這種方法與傳統(tǒng)的長(zhǎng)上下文方法相比具有幾個(gè)優(yōu)勢(shì)：

1. V2PE 保留了 VLMs 中的所有視覺(jué) token，保留了視覺(jué)內(nèi)容的豐富性和細(xì)節(jié)。

2. V2PE 允許 VLMs 通過(guò)在訓(xùn)練期間動(dòng)態(tài)選擇來(lái)適應(yīng)任意間隔的位置索引，避免了位置編碼外推引起的不準(zhǔn)確。

長(zhǎng)上下文能力顯著提升

經(jīng)過(guò)一系列的實(shí)驗(yàn)和分析，研究團(tuán)隊(duì)取得了顯著的成果。通過(guò)引入 Variable Visual Position Encoding (V2PE) 和增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集，研究團(tuán)隊(duì)得到了以下幾個(gè)重要的發(fā)現(xiàn)：

對(duì)模型上下文能力的影響

在上下文長(zhǎng)度 32k 以?xún)?nèi)的數(shù)據(jù)上訓(xùn)練模型，在 64k 以?xún)?nèi)，多種長(zhǎng)度的基準(zhǔn)測(cè)試上進(jìn)行測(cè)試。實(shí)驗(yàn)的結(jié)果表明，在測(cè)試長(zhǎng)度超出訓(xùn)練的上下文長(zhǎng)度時(shí)，模型效果會(huì)顯著下降，但選用更小的增量可以有效緩解這一現(xiàn)象。

在 1M 上下文長(zhǎng)度下的表現(xiàn)提升

作者分別在 32k 和 256k 的訓(xùn)練數(shù)據(jù)上微調(diào)模型，并在長(zhǎng)達(dá) 1M 的多種上下文長(zhǎng)度上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明，V2PE 在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)明顯優(yōu)于不加 V2PE 的模型，也優(yōu)于使用插值方法的模型，甚至能超越先進(jìn)的閉源大模型。

此外，作者將訓(xùn)練好的 V2PE 模型與其他視覺(jué) - 語(yǔ)言模型在多種基準(zhǔn)測(cè)試進(jìn)行了對(duì)比，結(jié)果表明，V2PE 在長(zhǎng)上下文多模態(tài)任務(wù)上的表現(xiàn)優(yōu)于其他模型，證明了 V2PE 的有效性。

消融實(shí)驗(yàn)中，作者將 V2PE 方法與 token 壓縮的方法以及在訓(xùn)練時(shí)固定視覺(jué) token 的位置編碼增量的方法進(jìn)行了對(duì)比，證明了 V2PE 的優(yōu)勢(shì)。

在對(duì)注意力圖的分析中，作者關(guān)注注意力圖的尾部，即對(duì)應(yīng)序列末端的問(wèn)題部分的注意力圖。作者發(fā)現(xiàn)，隨著的減小，模型能更好地把注意力集中在問(wèn)題對(duì)應(yīng)的答案附近，證明了 V2PE 能夠有效地提升模型將注意力對(duì)齊到輸入序列中的關(guān)鍵部分的能力。

V2PE 的提出，為視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)提供了新的思路。通過(guò)為視覺(jué) token 分配可變的位置增量，V2PE 有效地解決了位置編碼超出模型訓(xùn)練上下文窗口的問(wèn)題，提升了模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)。

作者相信，V2PE 的提出將為視覺(jué) - 語(yǔ)言模型的發(fā)展帶來(lái)新的機(jī)遇，為模型在長(zhǎng)上下文多模態(tài)任務(wù)中的應(yīng)用提供更多可能性。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心