多榜單登頂!華為 & 哈工深團隊提出 AdaReTaKe,突破長視頻理解極限
第一作者為哈爾濱工業大學(深圳)博士生王霄和華為大模型研究員佀慶一,該工作完成于王霄在華為實習期間。王霄的研究方向為多模態視頻理解和生成,佀慶一的研究方向為多模態理解、LLM post-training和高效推理。
隨著視頻內容的重要性日益提升,如何處理理解長視頻成為多模態大模型面臨的關鍵挑戰。長視頻理解能力,對于智慧安防、智能體的長期記憶以及多模態深度思考能力有著重要價值。
華為與哈爾濱工業大學(深圳)聯合提出了一個全新的長視頻理解框架 ——AdaReTaKe(Adaptively Reducing Temporal and Knowledge redundancy)。無需訓練,該框架通過在推理時動態壓縮視頻冗余信息,使多模態大模型能夠處理長度提升至原來的 8 倍(高達 2048 幀),在多個基準測試中超越同規模模型 3-5%,位列 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長視頻理解榜單開源模型第一,為長視頻理解設立了新標桿。
- 論文標題:AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding
- 論文鏈接:https://arxiv.org/abs/2503.12559
- 開源代碼:https://github.com/SCZwangxiao/video-FlexReduc.git
下圖展示了 AdaReTaKe 的效果。在單卡 A100 上基于 QWen2VL 實驗,AdaReTaKe 將輸入視頻 context length 壓縮固定的 16K,進而將所能處理的最大幀數由 256 提升至 2048,持續地提升多個 benchmark 上的表現。
在 AdaReTaKe 的 Github 倉庫中可以發現其使用方法比較簡潔,只需要對 transformers 導入的模型進行簡單的 patch 即可,支持 QWen2VL、QWen2.5VL、LLaVA-OneVision 等多種多模態理解模型。
接下來,將從前言、設計思路、方法以及實驗效果四個方面介紹 AdaReTaKe。
前言
隨著多模態大模型需要處理的序列長度越來越長,其顯存開銷的大頭越來越趨向于被 KV Cache [1] 占據。為了減少顯存開銷,從而處理更長視頻以獲得更多有效信息,現有方法主要采用視覺序列壓縮技術,基于 Attention 的稀疏性質,通過刪除、合并冗余 token 減少序列長度。但是已有方法未能充分挖掘視覺稀疏程度在視頻時序上、大模型層間的不一致性。
設計思路
- 大多數視覺序列壓縮技術的核心是尋找 attention 過程中的 Heavy Hitter [2]。即最收到 prompt 關注的多個視覺 token,如下圖所示。
- Heavy Hitter 在視頻時序上分布不均勻。如下圖所示,研究團隊對 VideoMME 上隨機采樣的 64 個視頻實驗發現,時序上 Heavy Hitter 密度差距最多可以達到 7 倍。
- Heavy Hitter 在大模型層間分布不均勻。如下圖所示,研究團隊對 VideoMME 全量視頻實驗發現,大模型不同層之間 Heavy Hitter 密度差距最多可以達到 4 倍,且這種密度差異并非單調變化。
基于上述發現,團隊設計了 AdaReTaKe 方法,賦能視頻大模型在相同的計算資源和上下文窗口下盡可能多的放入更有信息量的信息,從而實現對更長序列的理解和更多細節的捕捉。具體方法如下:
方法
AdaReTaKe 框架圖
ReTaKe 系列的核心有兩個方面,其一是大模型視頻序列分塊壓縮方法(來自 ReTaKe),其二是動態壓縮率分配方法(AdaReTaKe),根據時間與模型層間冗余性差異動態分配壓縮率。
大模型視頻序列分塊壓縮方法
大模型視頻序列分塊壓縮方法首先將視頻幀分割成若干個包含 τ 幀的塊,通過視覺編碼器和投影層提取每塊的特征,并根據最大上下文長度 為每個塊分配一個基于其內容的壓縮比率,確保最終序列長度不超過 。然后,將每個塊依次輸入大模型進行預填充。每一個分塊預填充(chunk prefilling)結束后,壓縮其對應的 KV cache,從而在減少冗余的同時保持重要細節,提高長視頻序列處理能力。
基于視頻時間與模型層間冗余性的壓縮率分配
1. 時間自適應分配
將長視頻分塊,根據相鄰幀相似度動態分配壓縮比。靜態片段高壓縮,動態片段保留更多細節。
2. 層次自適應分配
不同模型層關注不同抽象特征(如淺層紋理、深層語義),通過注意力分數調整各層壓縮比率,避免 “一刀切” 策略。
3. 理論保障
提出壓縮損失上界理論,確保動態分配策略接近最優解,信息保留最大化。
實驗結果分析
基準方法比較
ReTaKe 方法能夠一致提升各個基準的長視頻理解能力。實驗結果顯示,AdaReTaKe 方法在 VideoMME、MLVU、LongVideoBench 和 LVBench 四個長視頻理解基準上,對于 LLaVA-Video、QWen2VL 和 QWen2.5VL 三種基準模型有一致且穩定的性能提升,平均提升幅度高達 3%-5%。對于平均時長最長(超過 1 小時)的 LVBench,AdaReTaKe 將 7B 和 72B 模型的準確率分別提升 5.9% 和 6.0%。
消融實驗
研究團隊通過一系列對比實驗深入探討了 AdaReTaKe 模型各組件對性能提升的具體貢獻。首先,將基線模型(#0)與加入了 token 壓縮的方法進行對比,發現盡管 token 壓縮引入了輕微的性能下降(#1),但它允許模型在同一上下文長度內處理更多的幀(#2),從而捕捉到更豐富的信息,最終實現了凈性能增益。其次,在不同層和不同幀之間應用不同的壓縮比率(分別為 #3 和 #4),結果顯示這種分配策略能夠有效提升模型性能,驗證了 AdaReTaKe 方法的有效性。最后,通過擴展上下文長度至 MLLMs 的一般上限(#5),模型性能得到了顯著提升。
ReTaKe 對細粒度時序感知能力的影響
總的來說,如果單純考慮 ReTaKe 對視頻的壓縮,可能會對某些細粒度任務(如 Needle QA,NQA)的性能造成輕微損害。但由于它使得模型能夠在相同上下文長度內處理更多的幀,從而吸收了更豐富的信息。因此最終,這種潛在的損害不僅被有效抵消,還在多個任務中實現了超越基線的表現。
實驗對比了基線模型 LLaVA-Video-7B 和 QWen2VL-7B 的表現,結果顯示:單純實現 token 壓縮導致 Needle QA 性能略有下降,這是由于壓縮不可避免地帶來了一定的信息丟失,但在其他相對粗粒度的任務中,如動作順序(AO)、關鍵信息檢索(KIR)以及時間定位(TG),ReTaKe 的壓縮策略帶來了略微的性能提升。最終,得益于更密集的幀采樣,模型能夠補償因壓縮造成的細微信息損失,并有效增強了對動作的理解及關鍵信息的提取。
可視化結果
可視化結果顯示,ReTaKe 能有效識別并保留關鍵信息和細微語義變化的區域,如身體動作和面部表情,同時過濾掉靜態場景中的冗余幀。
長視頻理解榜單
團隊于 VideoMME 榜單位列第二位,開源模型第一位,僅次于 Gemini-1.5-Pro。在 MLVU、LongVideoBench 和 LVBench 榜單位列第一位,其中 LongVideoBench 是超過 GPT-4o 的首個開源模型。
未來研究方向
- 原生視頻壓縮模塊:當前依賴訓練后的啟發式壓縮策略,未來可設計端到端壓縮模塊,將壓縮能力和模型深度融合。
- 智能分塊策略:現有視頻分塊方法依賴固定時長,探索基于語義邊界的分塊(如場景切換)可進一步提升效率。
- 多模態聯合優化:結合音頻、文本等多模態信號,構建冗余評估的綜合指標,實現更精準的壓縮。
總結
長視頻理解是最接近人類接收信息方式的場景,也是長序列推理在多模態場景下的首要戰場,ReTaKe 系列論文通過大模型視頻 token 壓縮技術,解決了長視頻理解中的動態冗余難題,為 AI 處理小時級視頻提供了新范式,助力學術界與工業界探索視頻智能的邊界。未來,隨著原生壓縮與多模態融合的突破,長視頻理解將邁向更智能的時代!