MinT:第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型
本文經(jīng)AIGC Studio公眾號授權轉載,轉載請聯(lián)系出處。
MinT 是第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型。使用 MinT 生成時間控制的多事件視頻。給定一系列事件文本提示及其所需的開始和結束時間戳,MinT 可以合成具有一致主題和背景的平滑連接事件。此外,它可以靈活地控制每個事件的時間跨度。下圖展示了連續(xù)手勢、日常活動、面部表情和貓咪動作的結果。
相關鏈接
- 論文:http://arxiv.org/abs/2412.05263v1
- 項目:https://mint-video.github.io/
摘要
現(xiàn)實世界的視頻由一系列事件組成。使用現(xiàn)有的視頻生成器生成具有精確時間控制的此類序列是不可行的,因為這些生成器依賴于一段文本作為輸入。當使用單個提示生成多個事件時,這些方法通常會忽略某些事件或無法按正確的順序排列它們。為了解決這一限制,我們提出了 MinT,這是一個具有時間控制的多事件視頻生成器。我們的主要見解是將每個事件綁定到生成的視頻中的特定時間段,這使模型可以一次關注一個事件。為了實現(xiàn)事件字幕和視頻標記之間的時間感知交互,我們設計了一種基于時間的位置編碼方法,稱為 ReRoPE。這種編碼有助于指導交叉注意操作。通過在時間基礎數(shù)據(jù)上微調預先訓練的視頻擴散變換器,我們的方法可以生成具有平滑連接事件的連貫視頻。在文獻中,我們的模型首次提供了對生成視頻中事件時間的控制。大量實驗表明,MinT 的表現(xiàn)遠遠優(yōu)于現(xiàn)有的開源模型。
方法
- 模型采用了全局字幕、時間字幕列表和場景切換條件(可選)。每個時間字幕和場景切換都與視頻中的時間跨度綁定。
- 為了對基于時間的事件字幕進行條件化,我們在 DiT 塊中引入了一個新的時間交叉注意層。
- 論文設計了一種新穎的重新縮放旋轉位置嵌入 (ReRoPE) 來指示視頻標記與事件字幕和場景切換標記之間的時間對應關系(可選)。這使 MinT 能夠控制事件的開始和結束時間以及鏡頭過渡時間。
結果
定性結果
這里我們展示了一些高分辨率視頻(1024x576)。我們使用彩色邊框和字幕來指示每個事件的時間段。我們首先在每個事件之前暫停播放視頻,然后再次連續(xù)播放。您可以在此處找到更多 512x288 視頻。
與 SOTA 模型的比較
現(xiàn)有的視頻生成器難以生成連續(xù)事件。將其與 SOTA 開源模型 CogVideoX-5B 和 Mochi 1以及商業(yè)模型 Kling 1.5和 Gen3-Alpha 進行了比較。 將所有時間字幕連接到一個長提示,并運行它們的在線 API 來生成視頻。 我們用于 SOTA 模型的提示可以在提示中找到。
現(xiàn)有模型經(jīng)常會在結果中遺漏一些事件,或者合并多個事件并混淆它們的順序。相比之下,MinT 可以按照所需的時間跨度無縫合成所有事件。有關 SOTA 模型行為的更多分析,請參閱論文附錄 C.6。在此處 查看更多比較。
MinT 關于 OOD 提示的結果
MinT 針對主要描述以人為中心的事件的時間字幕視頻進行了微調。然而,我們表明我們的模型仍然具有基礎模型生成新概念的能力。在這里,我們展示了 MinT 以分布外提示為條件生成的視頻
VBench 上的快速增強
我們利用 LLM 將簡短提示擴展為詳細的全局字幕和時間字幕,從而可以生成具有更豐富動作的更有趣視頻。我們用于 LLM 的指令可以在提示中找到。在這里,我們使用原始簡短提示(稱為Short)和詳細的全局字幕(稱為Global)與我們的基礎模型生成的視頻進行比較。這允許普通用戶使用我們的模型,而無需繁瑣地指定事件和時間戳。
場景切換調節(jié)
長視頻往往包含豐富的事件,但也伴隨著許多場景切換。直接用它們訓練視頻生成器將導致生成結果中出現(xiàn)不想要的突然鏡頭轉換。相反,我們建議在訓練期間明確地根據(jù)場景切換時間戳來條件化模型。一旦模型學會了這種條件作用,我們就可以將它們設置為零,以在推理時生成無剪切的視頻。 在這里,我們比較了用不同的場景切換條件生成的視頻。我們在輸入場景切換時間暫停視頻(用青色邊框突出顯示)。我們的模型引入了所需的鏡頭轉換,并且仍然可以保留主體身份和場景背景
事件時間跨度控制
我們展示了 MinT 對事件時間的細粒度控制。在每個示例中,我們將所有事件的開始和結束時間偏移特定值。因此,每行都顯示了事件發(fā)生的順利進展
結論
論文提出的MinT是一個具有事件時間控制的多事件視頻生成框架。方法采用獨特的位置編碼方法來指導視頻的時間動態(tài),從而產(chǎn)生流暢連接的事件和一致的主題。借助 LLM論文進一步設計了一個提示增強器,可以從簡單的提示中生成運動豐富的視頻。