萬幀？單卡！智源研究院開源輕量級超長視頻理解模型Video-XL-2

2025-06-03 14:15:33

人工智能新聞

近日，智源研究院聯合上海交通大學等機構，正式發布新一代超長視頻理解模型：Video-XL-2。

長視頻理解是多模態大模型關鍵能力之一。盡管 OpenAI GPT-4o、Google Gemini 等私有模型已在該領域取得顯著進展，當前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。

近日，智源研究院聯合上海交通大學等機構，正式發布新一代超長視頻理解模型：Video-XL-2。相較于上一版本的 Video-XL，該模型在多個維度全面優化了多模態大模型對長視頻內容的理解能力：

效果更佳：Video-XL-2 在長視頻理解任務中表現出色，在 MLVU、Video-MME、LVBench 等主流評測基準上達到了同參數規模開源模型的領先水平。
長度更長：新模型顯著擴展了可處理視頻的時長，支持在單張顯卡上高效處理長達萬幀的視頻輸入。
速度更快：Video-XL-2 大幅提升了處理效率，編碼 2048 幀視頻僅需 12 秒，顯著加速長視頻理解流程。

目前，Video-XL-2 的模型權重已全面向社區開放。未來，該模型有望在影視內容分析、異常行為監測等多個實際場景中展現重要應用價值。

項目主頁：https://unabletousegit.github.io/video-xl2.github.io/
模型 hf 鏈接：https://huggingface.co/BAAI/Video-XL-2
倉庫鏈接：https://github.com/VectorSpaceLab/Video-XL

技術簡介

圖 1：Video-XL-2 的模型架構示意圖

在模型架構設計上，Video-XL-2 主要由三個核心組件構成：視覺編碼器（Visual Encoder）、動態 Token 合成模塊（Dynamic Token Synthesis, DTS）以及大語言模型（LLM）。

具體而言，Video-XL-2 采用 SigLIP-SO400M 作為視覺編碼器，對輸入視頻進行逐幀處理，將每一幀編碼為高維視覺特征。隨后，DTS 模塊對這些視覺特征進行融合壓縮，并建模其時序關系，以提取更具語義的動態信息。處理后的視覺表征通過平均池化與多層感知機（MLP）進一步映射到文本嵌入空間，實現模態對齊。最終，對齊后的視覺信息輸入至 Qwen2.5-Instruct，以實現對視覺內容的理解與推理，并完成相應的下游任務。

圖 2：Video-XL-2 的訓練階段示意圖

在訓練策略上，Video-XL-2 采用了四階段漸進式訓練的設計，逐步構建其強大的長視頻理解能力。前兩個階段主要利用圖像 / 視頻 - 文本對，完成 DTS 模塊的初始化與跨模態對齊；第三階段則引入更大規模，更高質量的圖像與視頻描述數據，初步奠定模型對視覺內容的理解能力；第四階段，在大規模、高質量且多樣化的圖像與視頻指令數據上進行微調，使 Video-XL-2 的視覺理解能力得到進一步提升與強化，從而能夠更準確地理解和響應復雜的視覺指令。

圖 3. Chunk-based Prefilling

圖 4. Bi-granularity KV Decoding

此外，Video-XL-2 還系統性設計了效率優化策略。首先，Video-XL-2 引入了分段式的預裝填策略（Chunk-based Prefilling，如圖 3 所示）：將超長視頻劃分為若干連續的片段（chunk），在每個 chunk 內部使用稠密注意力機制進行編碼，而不同 chunk 之間則通過時間戳傳遞上下文信息。該設計顯著降低了預裝填階段的計算成本與顯存開銷。

其次，Video-XL-2 還設計了基于雙粒度 KV 的解碼機制（Bi-granularity KV Decoding，如圖 4 所示）：在推理過程中，模型會根據任務需求，選擇性地對關鍵片段加載完整的 KVs（dense KVs），而對其他次要片段僅加載降采樣后的稀疏的 KVs（sparse KVs）。這一機制有效縮短了推理窗口長度，從而大幅提升解碼效率。得益于上述策略的協同優化，Video-XL-2 實現了在單張顯卡上對萬幀級視頻的高效推理，顯著增強了其在實際應用場景中的實用性。

實驗效果

圖 5：Video-XL-2 的主要對比結果

表 1：Video-XL-2 的全面對比結果

在模型具體表現方面，Video-XL-2 在 MLVU、VideoMME 和 LVBench 等主流長視頻評測基準上全面超越現有所有輕量級開源模型，達成當前最先進性能（SOTA），相較第一代 Video-XL 實現了顯著提升。尤其值得關注的是，在 MLVU 和 LVBench 上，Video-XL-2 的性能已接近甚至超越了如 Qwen2.5-VL-72B 和 LLaVA-Video-72B 等參數規模高達 720 億的大模型。

此外，在時序定位（Temporal Grounding）任務中，Video-XL-2 也表現出色，在 Charades-STA 數據集上取得了領先的結果，進一步驗證了其在多模態視頻理解場景中的廣泛適用性與實際價值。

圖 6：Video-XL-2 輸入長度的對比展示

除了效果上的提升，Video-XL-2 在視頻長度方面也展現出顯著優勢。如圖 6 所示，在單張 24GB 消費級顯卡（如 RTX 3090 / 4090）上，Video-XL-2 可處理長達千幀的視頻；而在單張 80GB 高性能顯卡（如 A100 / H100）上，模型更支持萬幀級視頻輸入，遠超現有主流開源模型。相較于 VideoChat-Flash 和初代 Video-XL，Video-XL-2 顯著拓展了視頻理解的長度并有效降低了資源需求，為處理復雜的視頻任務提供了有力的支撐。

圖 7：Video-XL-2 Prefilling 速度的對比展示

圖 8：Video-XL-2 Prefilling 速度和輸入幀數的關系圖

最后，Video-XL-2 在速度上也展現出卓越性能。如上圖所示，Video-XL-2 僅需 12 秒即可完成 2048 幀視頻的預填充。更重要的是，其預填充時間與輸入幀數之間呈現出近似線性增長，體現了其出色的可擴展性。相比之下，Video-XL 與 VideoChat-Flash 在輸入長視頻條件下的工作效率明顯落后于 Video-XL-2。