AI危險(xiǎn)檢測(cè)再進(jìn)化！三層級(jí)解析長(zhǎng)視頻異常，各種時(shí)序粒度均有明顯優(yōu)勢(shì) | CVPR HighLight

作者：量子位 2025-04-09 09:25:00

來(lái)自華中科大等機(jī)構(gòu)的研究人員，提出了新的視頻異常理解模型Holmes-VAU，以及相關(guān)數(shù)據(jù)集。

多模態(tài)視頻異常理解任務(wù)，又有新突破！

“異常理解”是指在視頻監(jiān)控、自動(dòng)駕駛等場(chǎng)景中，利用模型發(fā)現(xiàn)視頻中的異常內(nèi)容，從而預(yù)判危險(xiǎn)，以便及時(shí)做出決策。

來(lái)自華中科大等機(jī)構(gòu)的研究人員，提出了新的視頻異常理解模型Holmes-VAU，以及相關(guān)數(shù)據(jù)集。

與通用多模態(tài)大模型對(duì)比，Holmes-VAU在各種時(shí)序粒度的視頻異常理解上都展現(xiàn)出顯著優(yōu)勢(shì)。

為了實(shí)現(xiàn)開(kāi)放世界的多模態(tài)視頻異常理解（VAU），已有的VAU benchmark只有短視頻的caption標(biāo)注或長(zhǎng)視頻的instruction標(biāo)注，忽略了視頻異常事件的時(shí)序復(fù)雜性。

為同時(shí)促進(jìn)模型對(duì)短視頻的感知能力和對(duì)長(zhǎng)視頻的推理能力，作者提出了一種高效半自動(dòng)數(shù)據(jù)引擎并構(gòu)建了HIVAU-70k數(shù)據(jù)集，包含超7萬(wàn)視頻異常理解任務(wù)的多時(shí)序尺度指令數(shù)據(jù)。

同時(shí)作者提出了一種基于異常分?jǐn)?shù)的時(shí)序采樣器，從長(zhǎng)視頻中動(dòng)態(tài)稀疏采樣關(guān)鍵幀到后續(xù)多模態(tài)大模型中，顯著提升了異常分析的準(zhǔn)確性和推理效率。

多層級(jí)視頻異常理解指令數(shù)據(jù)集

針對(duì)視頻異常理解任務(wù)(Video Anomaly Understanding)，以往的一些異常視頻指令數(shù)據(jù)集主要有兩方面問(wèn)題：

數(shù)據(jù)集中的視頻時(shí)長(zhǎng)較短，導(dǎo)致模型缺乏對(duì)長(zhǎng)視頻的異常理解能力；
即便包含長(zhǎng)視頻，也缺乏對(duì)長(zhǎng)視頻的細(xì)粒度和結(jié)構(gòu)化的標(biāo)注，導(dǎo)致模型的異常理解空間難以對(duì)齊。

為此，作者提出了一個(gè)大型多模態(tài)指令數(shù)據(jù)集HIVAU-70k，其中包含多種時(shí)間粒度的視頻異常標(biāo)注，由粗到細(xì)分別為：

video-level：未裁剪長(zhǎng)視頻，包括視頻中所有異常事件的文本描述分析；
event-level：從長(zhǎng)視頻中裁剪出的異常事件片段，包括單個(gè)異常事件的文本描述分析；
clip-level：從event中進(jìn)一步裁剪出的視頻片段，包括視頻片段的文本描述。

HIVAU-70k中的指令數(shù)據(jù)包括視頻描述、異常判斷、異常描述和異常分析等任務(wù)，為視頻異常理解多模態(tài)大模型提供了豐富多樣的數(shù)據(jù)來(lái)源。

這樣的多層級(jí)指令數(shù)據(jù)集是怎么構(gòu)造的呢？從一個(gè)未裁剪的長(zhǎng)視頻開(kāi)始，需要依次經(jīng)過(guò)以下三個(gè)步驟：

分層視頻解耦（Hierarchical Video Decoupling）：將video-level視頻中的異常事件標(biāo)注并裁剪出來(lái)，得到event-level視頻, 再對(duì)event-level視頻進(jìn)一步平均切分得到clip-level視頻；
分層自由文本注釋（Hierarchical Free-text Annotation）：對(duì)于clip-level視頻，使用人工或caption model得到clip caption；對(duì)于event-level視頻，結(jié)合所包含的clip-level caption和異常類別，提示LLM得到事件總結(jié)；對(duì)于video-level視頻，結(jié)合所包含的事件總結(jié)和異常類別，提示LLM得到視頻總結(jié)；
層次化指令數(shù)據(jù)構(gòu)建（Hierarchical Instruction Data Construction）：針對(duì)不同層級(jí)的視頻及其文本標(biāo)注，設(shè)計(jì)不同的任務(wù)，構(gòu)造任務(wù)相關(guān)的問(wèn)題并與文本注釋組合，得到最終的指令數(shù)據(jù)。

與其他相關(guān)的數(shù)據(jù)集相比，HIVAU-70k不僅有數(shù)量上的優(yōu)勢(shì)，還提供了多粒度的文本標(biāo)注以及時(shí)序上的異常邊界標(biāo)注。

動(dòng)態(tài)稀疏采樣的視頻異常理解模型

長(zhǎng)視頻異常理解在使用大型語(yǔ)言模型（LLMs）或視覺(jué)語(yǔ)言模型（VLMs）時(shí)，常因幀冗余問(wèn)題而受到限制，導(dǎo)致異常檢測(cè)的準(zhǔn)確性變得復(fù)雜。

以往的VAU（視頻異常理解）方法難以聚焦異常。

例如，密集窗口采樣方法會(huì)增加大量冗余幀的計(jì)算量，而均勻幀采樣方法常常錯(cuò)過(guò)關(guān)鍵異常幀，使其應(yīng)用范圍局限于短視頻。

為此，作者提出了Anomaly-focused Temporal Sampler (ATS)，并將其集成到VLM中，通過(guò)在HIVAU-70k上的指令微調(diào)，構(gòu)建了Holmes-VAU模型。

異常幀通常比正常幀包含更多信息，并表現(xiàn)出更大的變化，基于這一觀察，作者設(shè)計(jì)了一種采樣策略，在異常分?jǐn)?shù)較高的區(qū)域采樣更多幀，同時(shí)在分?jǐn)?shù)較低的區(qū)域減少采樣。

為實(shí)現(xiàn)非均勻采樣，作者提出了一種“密度感知采樣器”（density-aware sampler），用于從總共T個(gè)輸入幀中選擇N個(gè)幀。

具體來(lái)說(shuō)，作者將異常分?jǐn)?shù)S視為概率質(zhì)量函數(shù)，并首先沿時(shí)間維度累積它們，得到累積分布函數(shù)（CDF），記為 S_cumsum：

接著，在累積軸上均勻采樣N個(gè)點(diǎn)，并將這些點(diǎn)映射到累積分布S_cumsum上。相應(yīng)的時(shí)間軸上的N個(gè)時(shí)間戳?xí)挥成涞阶罱咏膸饕罱K形成采樣的幀索引集合G。

△Holmes-VAU模型框架圖

如下展示了測(cè)試集上的異常分?jǐn)?shù)和采樣幀的可視化結(jié)果。這些結(jié)果表明了ATS的準(zhǔn)確異常檢測(cè)能力，最終輸入到多模態(tài)大模型的采樣幀也集中于異常區(qū)域。

△Anomly-focused Temporal Sampler (ATS) 異常分?jǐn)?shù)及采樣幀示意圖

實(shí)驗(yàn)結(jié)果

異常推理性能評(píng)估

作者在HIVAU-70k的測(cè)試集上，將模型輸出的推理文本與注釋的真實(shí)文本進(jìn)行比較，計(jì)算了包括BLEU、CIDEr、METEOR和ROUGE等指標(biāo)來(lái)衡量模型輸出的異常理解文本質(zhì)量。

與通用多模態(tài)大模型對(duì)比，Holmes-VAU在各種時(shí)序粒度的視頻異常理解上都展現(xiàn)出顯著優(yōu)勢(shì)。

在多層級(jí)標(biāo)注中，對(duì)不同層級(jí)指令數(shù)據(jù)集的組合，可以觀察發(fā)現(xiàn)，單一層級(jí)的標(biāo)注只能提升單一層級(jí)任務(wù)的性能。

不同層級(jí)的標(biāo)注組合可以相互補(bǔ)充，實(shí)現(xiàn)從clip-level的基礎(chǔ)視覺(jué)感知, 到event-level單一異常事件的分析，再到video-level的長(zhǎng)時(shí)序異常總結(jié)和推理等方面的全面提升，達(dá)到更細(xì)粒度和完整的多模態(tài)異常空間對(duì)齊。