成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

僅縮小視覺(jué)Token位置編碼間隔,輕松讓多模態(tài)大模型理解百萬(wàn)Token!清華大學(xué),香港大學(xué),上海AI Lab新突破

人工智能 新聞
V2PE 的提出,為視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)提供了新的思路。

本文共同一作為葛俊岐 (清華大學(xué)本科生),陳子熠 (清華大學(xué)本科生),林錦濤 (香港大學(xué)博士生),祝金國(guó) (上海 AI Lab 青年研究員)。本文的通訊作者是朱錫洲,他的研究方向是視覺(jué)基礎(chǔ)模型和多模態(tài)基礎(chǔ)模型,代表作有 Deformable DETR、DCN v2 等。

隨著語(yǔ)言大模型的成功,視覺(jué) - 語(yǔ)言多模態(tài)大模型 (Vision-Language Multimodal Models, 簡(jiǎn)寫(xiě)為 VLMs) 發(fā)展迅速,但在長(zhǎng)上下文場(chǎng)景下表現(xiàn)卻不盡如人意,這一問(wèn)題嚴(yán)重制約了多模態(tài)模型在實(shí)際應(yīng)用中的潛力。

為解決這一問(wèn)題,清華大學(xué),香港大學(xué)和上海 AI Lab 聯(lián)合提出了一種新的用于多模態(tài)大模型的位置編碼方法 ——Variable Vision Position Embedding (V2PE) ,取得多模態(tài)大模型在長(zhǎng)上下文場(chǎng)景下的新突破。

圖片

  • 論文地址:https://arxiv.org/abs/2412.09616
  • 項(xiàng)目主頁(yè):https://zzdhybthu.github.io/V2PE.github.io/
  • 開(kāi)源代碼:https://github.com/OpenGVLab/V2PE

位置編碼是多模態(tài)大模型中的關(guān)鍵技術(shù),用于讓模型理解輸入序列的相對(duì)位置關(guān)系。它使得 VLMs 能夠理解詞語(yǔ)在句子中的位置,并識(shí)別圖像塊在原圖中的二維位置。然而,現(xiàn)有的多模態(tài)模型通常在圖像 token 上沿用文本模型的位置編碼方式,這并非最優(yōu)方案。

V2PE 提出了一種為視覺(jué) token 分配可變位置增量的新方法,有效解決了傳統(tǒng)位置編碼在處理超長(zhǎng)上下文任務(wù)時(shí)的性能瓶頸問(wèn)題。通過(guò)避免位置編碼超出模型訓(xùn)練上下文窗口的限制,V2PE 顯著提升了模型在 32K 至 1M 長(zhǎng)度超長(zhǎng)上下文任務(wù)中的表現(xiàn)。相比傳統(tǒng)位置編碼的模型,采用 V2PE 的模型在這些任務(wù)中實(shí)現(xiàn)了突破性改進(jìn),甚至超越了最先進(jìn)的閉源大模型。

圖片

V2PE 工作有以下貢獻(xiàn):

  • 構(gòu)建了一個(gè)用于 VLMs 長(zhǎng)上下文訓(xùn)練和評(píng)估的混合數(shù)據(jù)集。研究團(tuán)隊(duì)通過(guò)這一數(shù)據(jù)集發(fā)現(xiàn),直接將 LLM 的位置編碼機(jī)制應(yīng)用于視覺(jué) token 是次優(yōu)選擇。
  • 提出了可變視覺(jué)位置信息編碼 (V2PE),一種創(chuàng)新的位置編碼策略,通過(guò)為視覺(jué) token 分配可變且較小的增量,大幅提升了 VLMs 對(duì)長(zhǎng)多模態(tài)上下文的理解和推理能力。
  • 將 V2PE 方法和擴(kuò)展訓(xùn)練數(shù)據(jù)應(yīng)用于開(kāi)源視覺(jué)模型 InternVL2-2B, 微調(diào)后的模型在統(tǒng)一多模態(tài)基準(zhǔn)測(cè)試和長(zhǎng)上下文多模態(tài)任務(wù)中表現(xiàn)優(yōu)異,成功處理長(zhǎng)達(dá) 1M token 的序列,展現(xiàn)了卓越的長(zhǎng)上下文處理能力。

可變視覺(jué)位置編碼

突破視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景中的新邊界

在人工智能領(lǐng)域,視覺(jué) - 語(yǔ)言模型 因其在多模態(tài)任務(wù)中的出色表現(xiàn)而備受關(guān)注。然而,在處理視頻、高分辨率圖像或長(zhǎng)篇圖文文檔等長(zhǎng)上下文場(chǎng)景時(shí),其泛化能力卻顯著下降,這限制了它們?cè)趯?shí)際應(yīng)用中的潛力,并影響了用戶(hù)體驗(yàn)的進(jìn)一步提升。

V2PE 旨在解決的核心問(wèn)題在于:為什么 VLMs 在長(zhǎng)上下文場(chǎng)景下表現(xiàn)不佳,以及如何提升它們?cè)陂L(zhǎng)序列多模態(tài)理解與推理上的能力?

為了研究 VLMs 為什么在長(zhǎng)上下文場(chǎng)景表現(xiàn)不佳,研究團(tuán)隊(duì)通過(guò)構(gòu)建大規(guī)模的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集,系統(tǒng)地評(píng)估和分析 VLMs 的能力,在這一過(guò)程中,他們意識(shí)到位置編碼策略在 VLMs 的性能中起著至關(guān)重要的作用。

傳統(tǒng)的 VLMs 位置編碼通常不區(qū)分文本 token 和圖像 token,并在訓(xùn)練中使用固定的編碼規(guī)則。然而,文本 token 屬于一維數(shù)據(jù),位置編碼僅需傳達(dá)先后順序;圖像 token 則為二維數(shù)據(jù),位置編碼需傳遞圖像塊的空間位置信息,還要考慮多分辨率下縮略圖與子圖像塊的對(duì)應(yīng)關(guān)系。此外,當(dāng)模型處理超出訓(xùn)練上下文窗口的長(zhǎng)序列時(shí),固定位置編碼會(huì)超出模型已知范圍,導(dǎo)致推理能力受限。

因此,作者提出了 Variable Visual Position Encoding (V2PE),這是一種新穎的位置編碼方法,專(zhuān)門(mén)針對(duì)視覺(jué) - 語(yǔ)言模型(VLMs)中的長(zhǎng)上下文場(chǎng)景。V2PE 通過(guò)為視覺(jué) token 分配更小的、可變的位置增量,有效地管理長(zhǎng)多模態(tài)序列。

增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集

圖片

作者引入了兩個(gè)增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集:Long Visual Question Answering (Long-VQA) 和 Long Multimodal Retrieval (Long-MR)。旨在提升 VLMs 的長(zhǎng)上下文能力并建立評(píng)估框架。

  • Long-VQA 數(shù)據(jù)集擴(kuò)展了 17 個(gè)被廣泛采用的數(shù)據(jù)集,將內(nèi)容從短序列擴(kuò)展到包含高達(dá) 32K token 的序列。任務(wù)涵蓋常識(shí)推理、事實(shí)知識(shí)和解釋文本和視覺(jué)信息。
  • Long-MR 數(shù)據(jù)集受多模態(tài)大海撈針 benchamrk -- MM-NIAH 的啟發(fā),通過(guò)在交錯(cuò)的文本圖像中檢測(cè)目標(biāo)圖像或段落,評(píng)估 VLMs 處理超長(zhǎng)上下文的能力。

可變視覺(jué)位置編碼

位置編碼在視覺(jué) - 語(yǔ)言模型中的作用

位置編碼是 Transformer 架構(gòu)中的基本組成部分,它通過(guò)為 token 提供位置信息來(lái)捕獲序列關(guān)系。位置編碼通常涉及兩個(gè)步驟:位置索引推導(dǎo)圖片和位置嵌入計(jì)算圖片

  • 位置索引推導(dǎo):為每個(gè) token圖片分配位置索引圖片
  • 位置嵌入計(jì)算:將這些索引轉(zhuǎn)換為影響注意力機(jī)制的位置嵌入。

可變位置索引推導(dǎo)

作者提出了一種針對(duì)模態(tài)特定的遞歸函數(shù),為文本和視覺(jué) token 分配不同的位置索引:

圖片

其中圖片是一個(gè)小于 1 的增量,用于減少視覺(jué) token 的位置索引增加速率。在訓(xùn)練過(guò)程中,圖片可以從一組分?jǐn)?shù)值中動(dòng)態(tài)選擇,以適應(yīng)不同的輸入長(zhǎng)度和復(fù)雜性。

這種方法與傳統(tǒng)的長(zhǎng)上下文方法相比具有幾個(gè)優(yōu)勢(shì):

1. V2PE 保留了 VLMs 中的所有視覺(jué) token,保留了視覺(jué)內(nèi)容的豐富性和細(xì)節(jié)。

2. V2PE 允許 VLMs 通過(guò)在訓(xùn)練期間動(dòng)態(tài)選擇圖片來(lái)適應(yīng)任意間隔的位置索引,避免了位置編碼外推引起的不準(zhǔn)確。

長(zhǎng)上下文能力顯著提升

經(jīng)過(guò)一系列的實(shí)驗(yàn)和分析,研究團(tuán)隊(duì)取得了顯著的成果。通過(guò)引入 Variable Visual Position Encoding (V2PE) 和增強(qiáng)的長(zhǎng)上下文多模態(tài)數(shù)據(jù)集,研究團(tuán)隊(duì)得到了以下幾個(gè)重要的發(fā)現(xiàn):

  • 圖片對(duì)模型上下文能力的影響

圖片

在上下文長(zhǎng)度 32k 以?xún)?nèi)的數(shù)據(jù)上訓(xùn)練模型,在 64k 以?xún)?nèi),多種長(zhǎng)度的基準(zhǔn)測(cè)試上進(jìn)行測(cè)試。實(shí)驗(yàn)的結(jié)果表明,在測(cè)試長(zhǎng)度超出訓(xùn)練的上下文長(zhǎng)度時(shí),模型效果會(huì)顯著下降,但選用更小的增量圖片可以有效緩解這一現(xiàn)象。

  • 在 1M 上下文長(zhǎng)度下的表現(xiàn)提升

圖片

作者分別在 32k 和 256k 的訓(xùn)練數(shù)據(jù)上微調(diào)模型,并在長(zhǎng)達(dá) 1M 的多種上下文長(zhǎng)度上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,V2PE 在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)明顯優(yōu)于不加 V2PE 的模型,也優(yōu)于使用插值方法的模型,甚至能超越先進(jìn)的閉源大模型。

圖片

此外,作者將訓(xùn)練好的 V2PE 模型與其他視覺(jué) - 語(yǔ)言模型在多種基準(zhǔn)測(cè)試進(jìn)行了對(duì)比,結(jié)果表明,V2PE 在長(zhǎng)上下文多模態(tài)任務(wù)上的表現(xiàn)優(yōu)于其他模型,證明了 V2PE 的有效性。

圖片

圖片

消融實(shí)驗(yàn)中,作者將 V2PE 方法與 token 壓縮的方法以及在訓(xùn)練時(shí)固定視覺(jué) token 的位置編碼增量的方法進(jìn)行了對(duì)比,證明了 V2PE 的優(yōu)勢(shì)。

在對(duì)注意力圖的分析中,作者關(guān)注注意力圖的尾部,即對(duì)應(yīng)序列末端的問(wèn)題部分的注意力圖。作者發(fā)現(xiàn),隨著圖片的減小,模型能更好地把注意力集中在問(wèn)題對(duì)應(yīng)的答案附近,證明了 V2PE 能夠有效地提升模型將注意力對(duì)齊到輸入序列中的關(guān)鍵部分的能力。

圖片

V2PE 的提出,為視覺(jué) - 語(yǔ)言模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)提供了新的思路。通過(guò)為視覺(jué) token 分配可變的位置增量,V2PE 有效地解決了位置編碼超出模型訓(xùn)練上下文窗口的問(wèn)題,提升了模型在長(zhǎng)上下文場(chǎng)景下的表現(xiàn)。

作者相信,V2PE 的提出將為視覺(jué) - 語(yǔ)言模型的發(fā)展帶來(lái)新的機(jī)遇,為模型在長(zhǎng)上下文多模態(tài)任務(wù)中的應(yīng)用提供更多可能性。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-06-20 14:37:59

模型AI圖像生成

2025-02-10 08:40:00

訓(xùn)練數(shù)據(jù)模型

2023-02-19 10:22:06

ChatGPT人工智能

2023-08-30 13:23:00

模型訓(xùn)練

2024-10-25 14:30:00

模型AI

2024-02-01 13:03:00

AI模型

2020-08-13 10:00:56

AI 數(shù)據(jù)人工智能

2025-05-23 09:18:25

2024-11-25 14:30:00

2023-03-14 14:06:52

訓(xùn)練模型

2025-02-25 13:51:16

2025-02-27 13:00:00

2012-04-06 16:44:30

BMCITSMITIL

2013-09-27 17:29:16

清華大學(xué)IT運(yùn)維RIIL

2011-10-26 10:57:56

EqualLogic戴爾存儲(chǔ)

2025-05-28 11:55:28

模型AI評(píng)估

2023-05-19 13:01:10

ChatGPT模型

2023-02-10 13:15:37

AI智能

2012-06-21 14:30:40

超算大賽
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日日夜夜天天 | 欧美日韩中文字幕 | 日韩α片 | 国产精品毛片一区二区三区 | 中文字幕1区2区3区 日韩在线视频免费观看 | 99re6热在线精品视频播放 | 午夜av免费| 亚洲一区二区三区在线视频 | 国产精品日韩欧美一区二区三区 | 成人午夜网站 | 亚洲精品99| 精品欧美黑人一区二区三区 | 日韩精品亚洲专区在线观看 | 国产一区二区在线播放 | www国产成人免费观看视频 | 蜜桃官网 | 亚洲在线视频 | 极品国产视频 | av一区在线 | 亚洲一区在线日韩在线深爱 | 天天澡天天狠天天天做 | 亚洲一区二区在线播放 | 精品视频在线播放 | 麻豆天堂 | 国产欧美一级二级三级在线视频 | 免费国产一区 | julia中文字幕久久一区二区 | 五月天婷婷狠狠 | gav成人免费播放视频 | 网站黄色在线免费观看 | 欧美八区| 亚洲码欧美码一区二区三区 | 自拍视频在线观看 | 中文字幕一区二区三区乱码在线 | 亚洲日日夜夜 | 国产精品久久久久久久久久久久久久 | 国产精品av久久久久久毛片 | 黄色亚洲 | 国产伦一区二区三区 | 国产成人免费视频网站高清观看视频 | 国产成人在线视频免费观看 |