MinT：第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型

作者：AIGC Studio 2025-01-08 08:48:57

論文提出的MinT是一個具有事件時間控制的多事件視頻生成框架。

本文經(jīng)AIGC Studio公眾號授權轉載，轉載請聯(lián)系出處。

MinT 是第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型。使用 MinT 生成時間控制的多事件視頻。給定一系列事件文本提示及其所需的開始和結束時間戳，MinT 可以合成具有一致主題和背景的平滑連接事件。此外，它可以靈活地控制每個事件的時間跨度。下圖展示了連續(xù)手勢、日常活動、面部表情和貓咪動作的結果。

摘要

現(xiàn)實世界的視頻由一系列事件組成。使用現(xiàn)有的視頻生成器生成具有精確時間控制的此類序列是不可行的，因為這些生成器依賴于一段文本作為輸入。當使用單個提示生成多個事件時，這些方法通常會忽略某些事件或無法按正確的順序排列它們。為了解決這一限制，我們提出了 MinT，這是一個具有時間控制的多事件視頻生成器。我們的主要見解是將每個事件綁定到生成的視頻中的特定時間段，這使模型可以一次關注一個事件。為了實現(xiàn)事件字幕和視頻標記之間的時間感知交互，我們設計了一種基于時間的位置編碼方法，稱為 ReRoPE。這種編碼有助于指導交叉注意操作。通過在時間基礎數(shù)據(jù)上微調預先訓練的視頻擴散變換器，我們的方法可以生成具有平滑連接事件的連貫視頻。在文獻中，我們的模型首次提供了對生成視頻中事件時間的控制。大量實驗表明，MinT 的表現(xiàn)遠遠優(yōu)于現(xiàn)有的開源模型。

方法

模型采用了全局字幕、時間字幕列表和場景切換條件（可選）。每個時間字幕和場景切換都與視頻中的時間跨度綁定。
為了對基于時間的事件字幕進行條件化，我們在 DiT 塊中引入了一個新的時間交叉注意層。
論文設計了一種新穎的重新縮放旋轉位置嵌入 (ReRoPE) 來指示視頻標記與事件字幕和場景切換標記之間的時間對應關系（可選）。這使 MinT 能夠控制事件的開始和結束時間以及鏡頭過渡時間。

結果

定性結果

這里我們展示了一些高分辨率視頻（1024x576）。我們使用彩色邊框和字幕來指示每個事件的時間段。我們首先在每個事件之前暫停播放視頻，然后再次連續(xù)播放。您可以在此處找到更多 512x288 視頻。

與 SOTA 模型的比較

現(xiàn)有的視頻生成器難以生成連續(xù)事件。將其與 SOTA 開源模型 CogVideoX-5B 和 Mochi 1以及商業(yè)模型 Kling 1.5和 Gen3-Alpha 進行了比較。將所有時間字幕連接到一個長提示，并運行它們的在線 API 來生成視頻。我們用于 SOTA 模型的提示可以在提示中找到。

現(xiàn)有模型經(jīng)常會在結果中遺漏一些事件，或者合并多個事件并混淆它們的順序。相比之下，MinT 可以按照所需的時間跨度無縫合成所有事件。有關 SOTA 模型行為的更多分析，請參閱論文附錄 C.6。在此處查看更多比較。

MinT 關于 OOD 提示的結果

MinT 針對主要描述以人為中心的事件的時間字幕視頻進行了微調。然而，我們表明我們的模型仍然具有基礎模型生成新概念的能力。在這里，我們展示了 MinT 以分布外提示為條件生成的視頻

VBench 上的快速增強

我們利用 LLM 將簡短提示擴展為詳細的全局字幕和時間字幕，從而可以生成具有更豐富動作的更有趣視頻。我們用于 LLM 的指令可以在提示中找到。在這里，我們使用原始簡短提示（稱為Short）和詳細的全局字幕（稱為Global）與我們的基礎模型生成的視頻進行比較。這允許普通用戶使用我們的模型，而無需繁瑣地指定事件和時間戳。

場景切換調節(jié)

長視頻往往包含豐富的事件，但也伴隨著許多場景切換。直接用它們訓練視頻生成器將導致生成結果中出現(xiàn)不想要的突然鏡頭轉換。相反，我們建議在訓練期間明確地根據(jù)場景切換時間戳來條件化模型。一旦模型學會了這種條件作用，我們就可以將它們設置為零，以在推理時生成無剪切的視頻。在這里，我們比較了用不同的場景切換條件生成的視頻。我們在輸入場景切換時間暫停視頻（用青色邊框突出顯示）。我們的模型引入了所需的鏡頭轉換，并且仍然可以保留主體身份和場景背景

事件時間跨度控制

我們展示了 MinT 對事件時間的細粒度控制。在每個示例中，我們將所有事件的開始和結束時間偏移特定值。因此，每行都顯示了事件發(fā)生的順利進展

結論

論文提出的MinT是一個具有事件時間控制的多事件視頻生成框架。方法采用獨特的位置編碼方法來指導視頻的時間動態(tài)，從而產(chǎn)生流暢連接的事件和一致的主題。借助 LLM論文進一步設計了一個提示增強器，可以從簡單的提示中生成運動豐富的視頻。

責任編輯：張燕妮來源： AIGC Studio

AI 模型視頻生成

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看