單卡搞定萬幀視頻理解!智源研究院開源輕量級超長視頻理解模型Video-XL-2
單張顯卡,就能處理萬幀視頻輸入,并且編碼2048幀視頻僅需12秒!
國產(chǎn)開源模型又上大分,這次是在長視頻理解領(lǐng)域:
智源研究院聯(lián)合上海交通大學(xué)等機構(gòu),正式發(fā)布新一代超長視頻理解模型Video-XL-2。
長視頻理解是多模態(tài)大模型關(guān)鍵能力之一。盡管OpenAI GPT-4o、Google Gemini等私有模型已在該領(lǐng)域取得顯著進展,當(dāng)前的開源模型在效果、計算開銷和運行效率等方面仍存在明顯短板。
而Video-XL-2相較于上一版本的Video-XL,在多個維度全面優(yōu)化了開源多模態(tài)大模型對長視頻內(nèi)容的理解能力:
- 效果更佳:Video-XL-2在長視頻理解任務(wù)中表現(xiàn)出色,在MLVU、Video-MME、LVBench等主流評測基準(zhǔn)上達到了同參數(shù)規(guī)模開源模型的領(lǐng)先水平。
- 長度更長:新模型顯著擴展了可處理視頻的時長,支持在單張顯卡上高效處理長達萬幀的視頻輸入。
- 速度更快:Video-XL-2大幅提升了處理效率,編碼2048幀視頻僅需12秒,顯著加速長視頻理解流程。
目前,Video-XL-2的模型權(quán)重已全面向社區(qū)開放。未來,該模型有望在影視內(nèi)容分析、異常行為監(jiān)測等多個實際場景中展現(xiàn)重要應(yīng)用價值。
技術(shù)簡介
在模型架構(gòu)設(shè)計上,Video-XL-2主要由三個核心組件構(gòu)成:視覺編碼器(Visual Encoder)、動態(tài) Token 合成模塊(Dynamic Token Synthesis, DTS)以及大語言模型(LLM)。
△Video-XL-2的模型架構(gòu)示意圖
具體而言,Video-XL-2采用SigLIP-SO400M作為視覺編碼器,對輸入視頻進行逐幀處理,將每一幀編碼為高維視覺特征。
隨后,DTS模塊對這些視覺特征進行融合壓縮,并建模其時序關(guān)系,以提取更具語義的動態(tài)信息。處理后的視覺表征通過平均池化與多層感知機(MLP)進一步映射到文本嵌入空間,實現(xiàn)模態(tài)對齊。最終,對齊后的視覺信息輸入至Qwen2.5-Instruct,以實現(xiàn)對視覺內(nèi)容的理解與推理,并完成相應(yīng)的下游任務(wù)。
△Video-XL-2的訓(xùn)練階段示意圖
在訓(xùn)練策略上,Video-XL-2采用了四階段漸進式訓(xùn)練的設(shè)計 ,逐步構(gòu)建其強大的長視頻理解能力。
前兩個階段主要利用圖像/視頻-文本對,完成DTS模塊的初始化與跨模態(tài)對齊;第三階段則引入更大規(guī)模,更高質(zhì)量的圖像與視頻描述數(shù)據(jù),初步奠定模型對視覺內(nèi)容的理解能力;第四階段,在大規(guī)模、高質(zhì)量且多樣化的圖像與視頻指令數(shù)據(jù)上進行微調(diào),使Video-XL-2的視覺理解能力得到進一步提升與強化,從而能夠更準(zhǔn)確地理解和響應(yīng)復(fù)雜的視覺指令。
此外,Video-XL-2還系統(tǒng)性設(shè)計了效率優(yōu)化策略。
首先,Video-XL-2引入了分段式的預(yù)裝填策略(Chunk-based Prefilling):將超長視頻劃分為若干連續(xù)的片段(chunk),在每個chunk內(nèi)部使用稠密注意力機制進行編碼,而不同chunk之間則通過時間戳傳遞上下文信息。該設(shè)計顯著降低了預(yù)裝填階段的計算成本與顯存開銷。
△Chunk-based Prefilling
其次,Video-XL-2還設(shè)計了基于雙粒度KV的解碼機制(Bi-granularity KV Decoding):
在推理過程中,模型會根據(jù)任務(wù)需求,選擇性地對關(guān)鍵片段加載完整的KVs(dense KVs),而對其他次要片段僅加載降采樣后的稀疏的KVs(sparse KVs)。這一機制有效縮短了推理窗口長度,從而大幅提升解碼效率。得益于上述策略的協(xié)同優(yōu)化,Video-XL-2實現(xiàn)了在單張顯卡上對萬幀級視頻的高效推理,顯著增強了其在實際應(yīng)用場景中的實用性。
△Bi-granularity KV Decoding
實驗效果
在模型具體表現(xiàn)方面,Video-XL-2在MLVU、VideoMME 和 LVBench等主流長視頻評測基準(zhǔn)上全面超越現(xiàn)有所有輕量級開源模型,達成當(dāng)前最先進性能(SOTA),相較第一代 Video-XL 實現(xiàn)了顯著提升。
△Video-XL-2的主要對比結(jié)果
尤其值得關(guān)注的是,在MLVU和LVBench上,Video-XL-2的性能已接近甚至超越了如Qwen2.5-VL-72B和LLaVA-Video-72B等參數(shù)規(guī)模高達720億的大模型。
此外,在時序定位(Temporal Grounding)任務(wù)中,Video-XL-2也表現(xiàn)出色,在Charades-STA數(shù)據(jù)集上取得了領(lǐng)先的結(jié)果,進一步驗證了其在多模態(tài)視頻理解場景中的廣泛適用性與實際價值。
△Video-XL-2的全面對比結(jié)果
除了效果上的提升,Video-XL-2在視頻長度方面也展現(xiàn)出顯著優(yōu)勢。
如下圖所示,在單張24GB消費級顯卡(如 RTX 3090 / 4090)上,Video-XL-2可處理長達千幀的視頻;而在單張 80GB 高性能顯卡(如 A100 / H100)上,模型更支持萬幀級視頻輸入,遠超現(xiàn)有主流開源模型。
△Video-XL-2輸入長度的對比展示
相較于VideoChat-Flash 和初代 Video-XL,Video-XL-2顯著拓展了視頻理解的長度并有效降低了資源需求,為處理復(fù)雜的視頻任務(wù)提供了有力的支撐。
最后,Video-XL-2在速度上也展現(xiàn)出卓越性能。
Video-XL-2僅需12秒即可完成2048幀視頻的預(yù)填充。更重要的是,其預(yù)填充時間與輸入幀數(shù)之間呈現(xiàn)出近似線性增長,體現(xiàn)了其出色的可擴展性。
△Video-XL-2 Prefilling速度和輸入幀數(shù)的關(guān)系圖
相比之下,Video-XL與VideoChat-Flash 在輸入長視頻條件下的工作效率明顯落后于Video-XL-2。
△Video-XL-2 Prefilling速度的對比展示
應(yīng)用潛力
得益于出色的視頻理解能力與對超長視頻的高效處理性能,Video-XL-2在多種實際應(yīng)用場景中展現(xiàn)出很高的應(yīng)用潛力。例如,它可廣泛應(yīng)用于影視內(nèi)容分析、劇情理解、監(jiān)控視頻中的異常行為檢測與安全預(yù)警等任務(wù),為現(xiàn)實世界中的復(fù)雜視頻理解需求提供高效、精準(zhǔn)的技術(shù)支撐。
以下是一些具體的例子,將展示Video-XL-2在實際應(yīng)用中的潛力:
Example 1:電影情節(jié)問答
Question: A bald man wearing a green coat is speaking on the phone. What color is the phone?Answer: The phone’s color is red
Example 2:監(jiān)控異常檢測
Question: Is there any unexpected event happening in this surveillance footage?Answer: There is physical altercation between the customers and the store employees
Example 3: 影視作品內(nèi)容總結(jié)
Example4:游戲直播內(nèi)容總結(jié)
更多技術(shù)細節(jié),可以在項目主頁一探究竟,詳細技術(shù)報告is coming soon~
項目主頁:https://unabletousegit.github.io/video-xl2.github.io/
模型hf鏈接:https://huggingface.co/BAAI/Video-XL-2
倉庫鏈接:https://github.com/VectorSpaceLab/Video-XL