ICML 2025 | 長視頻理解新SOTA!螞蟻&人大開源ViLAMP-7B,單卡可處理3小時視頻
該工作第一作者為中國人民大學高瓴人工智能學院碩士生程傳奇,目前于螞蟻技術研究院實習,其主要研究領域為多模態大模型,螞蟻技術研究院副研究員關健為共同第一作者。
在視覺語言模型(Vision-Language Models,VLMs)取得突破性進展的當下,長視頻理解的挑戰顯得愈發重要。以標準 24 幀率的標清視頻為例,僅需數分鐘即可產生逾百萬的視覺 token,這已遠超主流大語言模型 4K-128K 的上下文處理極限。當面對影視級的長視頻內容時,傳統解決方案的不足愈加凸顯:粗放式的幀采樣策略往往造成關鍵幀信息遺漏,而特征融合方法雖能降低數據維度,卻不可避免地導致語義完整性受損。
近日,螞蟻和人大的研究團隊帶來了一個創新性的解決方案。他們提出視覺語言大模型 ViLAMP(Video-Language Model with Mixed Precision),實現了對超長視頻的高效處理。這個方法的核心在于其獨特的 “混合精度” 策略:對視頻中的關鍵內容保持高精度分析,而對次要內容進行強力壓縮,就像人類在觀看視頻時會重點關注關鍵場景,而對過渡時空信息只做快速掃描一樣。
- 論文標題:Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation
- 論文地址:https://arxiv.org/abs/2504.02438
- Github:https://github.com/steven-ccq/ViLAMP
實驗結果令人振奮:ViLAMP 在 Video-MME 等五個主流視頻理解基準上全面超越現有方案,特別是在處理長視頻時展現出顯著優勢。更重要的是,它可以在單張 A100 GPU 上連續處理長達 1 萬幀(按每秒 1 幀計算約 3 小時)的視頻內容,同時保持穩定的理解準確率。這一突破不僅大大提升了視頻處理效率,更為在線教育、視頻監控、直播分析等實際應用場景帶來了新的可能。相關論文已被 ICML 2025 接收。
橫軸:處理的視頻幀數(從 0 到 10,000 幀),縱軸: GPU 內存使用量(MB)。測試在單塊 NVIDIA A100 GPU 上進行。
VideoNIAH(視頻版本大海撈針任務)測試結果。橫軸:視頻總長度(2K-10K 幀);縱軸:表示目標視頻在完整視頻中的相對位置(0% 表示在開頭,100% 表示在結尾)。
視頻信息在時空維度均呈現稀疏性與冗余性
為解決長視頻處理的效率問題,研究團隊首先對主流視覺語言模型(包括 LLaVA-OneVision、LLaVA-Video、Qwen2-VL 和 LongVA)進行了系統性分析,發現了視頻信息在時間和空間上均存在顯著的稀疏性和冗余性:
- 幀間注意力分析:在現有模型中,用戶 Query 對相應視頻的注意力高度集中 ——90% 的注意力僅分布在不到 5% 的視頻幀上(稱為關鍵幀)。更重要的是,這 5% 的關鍵幀之間往往存在很強的視覺相似度。
- 幀內注意力分析:在每一幀的內部,模型的注意力也展現出相似的稀疏性質 ——50% 的 patch(幀劃分的最小單位)就承載了 80% 的模型注意力,但這些受關注的 patch 與關鍵幀中的對應 patch 具有遠超隨機基線水平的相似度。
這一發現表明現有模型在處理視頻時存在大量計算資源的浪費。實際上,處理長視頻不需要對每一幀、每個 patch 都投入同樣的計算量。基于此,研究團隊提出 “差分蒸餾原則”(Differential Distill Principle):識別并保留重要的視頻信息,同時壓縮那些雖然相關但高度冗余的信息。其中,重要信息應該同時滿足兩個條件:(1)高查詢相關性:與當前用戶 Query 高度相關;(2)低信息冗余性:包含獨特的視頻信息。這一原則為后續設計高效的視頻處理算法奠定了理論基礎。
ViLAMP: 基于差分蒸餾的雙層混合精度架構
前文的注意力分析揭示了一個關鍵問題:現有視覺語言模型對視頻中所有幀和 patch 都采用相同的處理方式,導致大量計算資源的浪費。基于這一認識,研究團隊提出了專門面向長視頻處理的高效架構 ViLAMP,它能夠根據信息的重要程度自適應地分配計算資源。
ViLAMP 模型結構圖
ViLAMP 通過層次化的壓縮框架實現這一策略:在幀級別,對重要的關鍵幀保留完整的視覺 token 表示,以捕獲關鍵信息;而對于非關鍵幀,則采用強力壓縮策略;在 patch 級別,通過差分機制增大重要 patch 的權重。
模型具體包含兩個核心機制:
1. 差分關鍵幀選擇(Differential Keyframe Selection,DKS)
為實現關鍵幀的高效識別,ViLAMP 采用了基于貪心策略的選擇算法。該算法在最大化與用戶 Query 的相關性的同時,通過差分機制降低幀間冗余,確保選中的關鍵幀既重要又多樣化。
2. 差分特征合并(Differential Feature Merging,DFM)
針對非關鍵幀的處理,ViLAMP 創新性地通過差分加權池化,將每個非關鍵幀壓縮為單個信息量最大化的 token。在壓縮過程中,模型賦予那些與用戶 Query 相關且具有獨特性的 patch 較高的權重,同時降低與相鄰的關鍵幀有顯著重復的 patch 的權重,從而在大幅降低計算量的同時保留關鍵信息。
這種雙層混合精度架構既確保了模型能夠準確捕獲視頻中的關鍵信息,又顯著降低了計算開銷。
突破性性能:全面超越現有方案
在五個主流視頻理解基準上的實驗表明:
1.ViLAMP 以 7B 參數量達到或超越了部分 70B 量級模型的表現,特別是在 Video-MME 長視頻子集上比現有最優模型提升 4.8%。
2. 針對當前視頻理解基準中視頻長度不足的問題,本文提出了面向視頻理解場景的 “大海撈針” 任務 ——VideoNIAH。該任務將一段目標短視頻(1 分鐘以內)插入到小時級別的長視頻中,要求模型在不依賴先驗信息的情況下,從超長視頻上下文中定位并理解該片段,進而回答相關問題。與傳統基于文本的 NIAH 任務不同,VideoNIAH 中的答案無法直接從視頻對應的文本描述中提取。因此,該任務本質上更具挑戰性,難以達到語言模型在文本 NIAH 任務中所表現出的近乎完美的準確率(例如 99%)。VideoNIAH 任務的性能上限受限于模型對目標短視頻原始 QA 的理解水平,進一步凸顯了該任務對視頻內容深層次理解能力的嚴格要求。在這一新提出的超長視頻理解基準上,ViLAMP 在處理包含 10K 幀(約 3 小時)的視頻時仍能保持 58.15% 的準確率(原始 QA 數據集準確率 78.9%),超越 VideoChat-Flash 基線模型 12.82%,展現出較強的長視頻建模能力。
3. 計算效率顯著提升:內存消耗相比 LLaMA-VID 基線降低約 50%,在 8,192 幀情況下計算量減少 80% 以上。
4. 深入的消融實驗表明:與已有的關鍵幀選擇方案相比,DKS 在長視頻場景下表現出明顯優勢;與 Q-former 和平均池化等特征融合方案相比,DFM 在所有數據集上都展現出 3 個百分點以上的性能優勢。
模型表現
Video-MME 排行榜
計算效率對比
結語
ViLAMP 通過創新的差分蒸餾框架成功突破了長視頻處理的計算瓶頸,不僅在性能上實現了飛躍,更為視頻理解領域提供了新的研究思路。該工作的原理性貢獻和實用價值將推動視頻理解技術在更多實際場景中的落地應用。期待未來看到更多基于此框架的創新發展。