TRACE：因果事件建模助力視頻理解大模型的時(shí)間定位能力

作者：機(jī)器之心 2025-03-17 08:45:00

TRACE 用 “因果事件建模” 撕開了長(zhǎng)視頻的迷霧，以 “任務(wù)分治” 策略破解了效率與精度的不可能。它為 AI 理解視頻的方式提供了一種新的可能 —— 不是囫圇吞棗，而是邏輯推演。

論文第一作者為香港中文大學(xué)（深圳）理工學(xué)院在讀博士生郭永新，指導(dǎo)老師為通訊作者為香港中文大學(xué)（深圳）理工學(xué)院 / 人工智能學(xué)院助理教授唐曉瑩，課題組研究方向包括大模型、聯(lián)邦學(xué)習(xí)、充電智能優(yōu)化與博弈等。

下班回家后你正深陷于一部?jī)尚r(shí)的綜藝節(jié)目中，渴望找到那些讓人捧腹的爆笑片段，卻如同大海撈針。或者，在緊張刺激的足球賽中，你渴望捕捉到那決定性的絕殺瞬間，但傳統(tǒng) AI 視頻處理技術(shù)效率低下，且模型缺乏泛化能力。為解決這些問(wèn)題，香港中文大學(xué)（深圳）唐曉瑩課題組聯(lián)合騰訊 PCG 發(fā)布 TRACE 技術(shù)，通過(guò)因果事件建模為視頻理解大模型提供精準(zhǔn)的時(shí)間定位能力。

論文標(biāo)題：TRACE: Temporal Grounding Video LLM via Causal Event Modeling
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding
論文地址：https://arxiv.org/pdf/2410.05643
https://arxiv.org/pdf/2405.13382
Github：https://github.com/gyxxyg/TRACE

一. 背景

在長(zhǎng)視頻內(nèi)容檢索的研究領(lǐng)域中，用戶常面臨時(shí)間線導(dǎo)航效率低下的困境。傳統(tǒng)的視頻檢索方法采用逐幀分析的線性處理策略，如同逐幀查字典，效率低下且泛化能力差。而現(xiàn)有的多模態(tài)大模型，雖然泛化能力更強(qiáng)，但是效果仍然差強(qiáng)人意。

我們認(rèn)為這背后的矛盾本質(zhì)上源于視頻理解大模型的輸出依然使用自然語(yǔ)言建模，無(wú)法清晰準(zhǔn)確地描述視頻本身的結(jié)構(gòu)。TRACE 的絕妙之處是給視頻事件構(gòu)建結(jié)構(gòu)化表征，將每個(gè)模型的輸出表示為一系列事件，進(jìn)一步把每個(gè)事件拆成三元組「時(shí)間戳 - 顯著性分?jǐn)?shù) - 文本描述」，通過(guò)因果推理鏈重構(gòu)視頻邏輯骨架。

TRACE 技術(shù)突破了傳統(tǒng)方法的局限，不再依賴沒(méi)有清晰結(jié)構(gòu)的文字描述，而是通過(guò)事件級(jí)別的因果建模，顯著提升了時(shí)序理解與定位精度，為視頻內(nèi)容檢索實(shí)現(xiàn)了 “大海撈針”。

二. 方法

TRACE 方法引入了結(jié)構(gòu)化建模創(chuàng)新：把視頻理解大模型的輸出拆解成「時(shí)間戳 - 顯著性分?jǐn)?shù) - 文本描述」三元事件單元，實(shí)現(xiàn)因果事件建模 —— 通過(guò)視覺(jué)輸入、文本指令和已有事件預(yù)測(cè)下一個(gè)事件

I：文本指令，F(xiàn)：視頻幀的輸入，tk, sk 和 ck：時(shí)間戳、顯著性分?jǐn)?shù)和文本描述。

我們通過(guò)條件概率分解發(fā)現(xiàn)，因果事件建模可表示為自回歸模型，具有特殊的 token 順序。基于這一發(fā)現(xiàn)，我們提出了視頻大模型 TRACE（Temporal grounding via Causal Event modeling）。而且，TRACE 還為時(shí)間和分?jǐn)?shù)設(shè)計(jì)了專用的 tokenizer，就像給它們創(chuàng)建了特定的表征系統(tǒng)。這樣，模型就能更準(zhǔn)確地理解和生成時(shí)間戳和顯著性分?jǐn)?shù)了，并為每個(gè)任務(wù)設(shè)計(jì)不同的編碼器和解碼器頭，解碼器頭能根據(jù)任務(wù)自動(dòng)切換，從而提高整體性能和適應(yīng)性。

針對(duì)時(shí)間和分?jǐn)?shù)的特殊編碼器

我們?yōu)闀r(shí)間和分?jǐn)?shù)設(shè)計(jì)專用 tokenizer：時(shí)間用 6 位編碼（例：[10.23, 125.37]→<0><0><1><0><.><2><sep><0><1><2><5><.><4><sync>），分?jǐn)?shù)用 3 位編碼（例：[4.5] →<4><.><5><sync>）。每個(gè)詞庫(kù)含 13個(gè)token，包括10個(gè)數(shù)字token以及三個(gè)特殊token：<.><sep><sync > ，通過(guò)組合實(shí)現(xiàn)精確數(shù)值表達(dá)。

通過(guò)切換 head 來(lái)生成不同的任務(wù)

在推理階段，模型通過(guò) < sync > 令牌切換任務(wù)專用解碼器：依次生成時(shí)間→分?jǐn)?shù)→描述，每個(gè)任務(wù)配備獨(dú)立解碼頭。<sync > 出現(xiàn)時(shí)自動(dòng)切換解碼任務(wù)。

視頻幀的特征編碼

TRACE 使用 CLIP ViT-L 從每幀提取大量的原始 token，然后通過(guò)基于 slot 的 token 壓縮方案將每一幀壓縮為 8 個(gè) token。這些精煉后的 token 既保留了關(guān)鍵視覺(jué)信息的完整性，又有效地將時(shí)間感知元素融入特征表征中。

訓(xùn)練策略和數(shù)據(jù)

模型 backbone 模型基于 Mistral-7B 架構(gòu)，分兩階段訓(xùn)練：

第一階段：訓(xùn)練視覺(jué)壓縮模塊 + 任務(wù)頭（抽 128 幀，學(xué)習(xí)率 1e-3）
第二階段：凍結(jié)上述模塊，專注調(diào) LLM 基座（同抽 128 幀，學(xué)習(xí)率 5e-6）

三. 評(píng)測(cè)

zero-shot

我們?cè)谌?zero-shot 任務(wù)測(cè)試表現(xiàn)：

Dense video caption：Youcook2
Moment retrieval：Charades-STA
Video highlight detection：QVHighlights

從表中可以看出，TRACE 模型都取得了 “碾壓” 其他通用 video LLM 的效果，比 Temporal grouding LLM 有更大優(yōu)勢(shì)。

Ablation study

在 zero-shot 模式下，我們測(cè)試了 causal event modeling 和 independent encoder/heads 等關(guān)鍵模塊在消融實(shí)驗(yàn)下的結(jié)果，如下表所示。

實(shí)驗(yàn)結(jié)果驗(yàn)證了我們提出的因果事件建模以及對(duì)時(shí)間 / 分?jǐn)?shù)使用獨(dú)立的編解碼器的有效性。另外，從結(jié)果中我們還可以發(fā)現(xiàn)，隨著采樣幀數(shù)的增加，模型的效果隨之增加。

Fine tune

在實(shí)驗(yàn)中，我們還比較了 TRACE 與其他模型在 finetune 之后的效果。

在評(píng)測(cè)中，TRACE 相比 TimeChat 等模型有了巨大的提升，在 Youcook2 數(shù)據(jù)集上取得了 SOTA 效果。無(wú)論是 zero-shot 任務(wù)還是 finetune 后的效果，TRACE 都取得了優(yōu)于其他模型的成績(jī)。

四．結(jié)語(yǔ)

總之，TRACE 用 “因果事件建模” 撕開了長(zhǎng)視頻的迷霧，以 “任務(wù)分治” 策略破解了效率與精度的不可能。它為 AI 理解視頻的方式提供了一種新的可能 —— 不是囫圇吞棗，而是邏輯推演。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

AI 模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

TRACE：因果事件建模助力視頻理解大模型的時(shí)間定位能力

一. 背景

二. 方法

三. 評(píng)測(cè)

四．結(jié)語(yǔ)