成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MinT:第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型

人工智能 新聞
論文提出的MinT是一個具有事件時間控制的多事件視頻生成框架。

本文經(jīng)AIGC Studio公眾號授權轉載,轉載請聯(lián)系出處。

MinT 是第一個能夠生成順序事件并控制其時間戳的文本轉視頻模型。使用 MinT 生成時間控制的多事件視頻。給定一系列事件文本提示及其所需的開始和結束時間戳,MinT 可以合成具有一致主題和背景的平滑連接事件。此外,它可以靈活地控制每個事件的時間跨度。下圖展示了連續(xù)手勢、日常活動、面部表情和貓咪動作的結果。

圖片

圖片

相關鏈接

  • 論文:http://arxiv.org/abs/2412.05263v1
  • 項目:https://mint-video.github.io/

摘要

現(xiàn)實世界的視頻由一系列事件組成。使用現(xiàn)有的視頻生成器生成具有精確時間控制的此類序列是不可行的,因為這些生成器依賴于一段文本作為輸入。當使用單個提示生成多個事件時,這些方法通常會忽略某些事件或無法按正確的順序排列它們。為了解決這一限制,我們提出了 MinT,這是一個具有時間控制的多事件視頻生成器。我們的主要見解是將每個事件綁定到生成的視頻中的特定時間段,這使模型可以一次關注一個事件。為了實現(xiàn)事件字幕和視頻標記之間的時間感知交互,我們設計了一種基于時間的位置編碼方法,稱為 ReRoPE。這種編碼有助于指導交叉注意操作。通過在時間基礎數(shù)據(jù)上微調預先訓練的視頻擴散變換器,我們的方法可以生成具有平滑連接事件的連貫視頻。在文獻中,我們的模型首次提供了對生成視頻中事件時間的控制。大量實驗表明,MinT 的表現(xiàn)遠遠優(yōu)于現(xiàn)有的開源模型。

方法

圖片

  • 模型采用了全局字幕、時間字幕列表和場景切換條件(可選)。每個時間字幕和場景切換都與視頻中的時間跨度綁定。
  • 為了對基于時間的事件字幕進行條件化,我們在 DiT 塊中引入了一個新的時間交叉注意層。
  • 論文設計了一種新穎的重新縮放旋轉位置嵌入 (ReRoPE) 來指示視頻標記與事件字幕和場景切換標記之間的時間對應關系(可選)。這使 MinT 能夠控制事件的開始和結束時間以及鏡頭過渡時間。

結果

定性結果

這里我們展示了一些高分辨率視頻(1024x576)。我們使用彩色邊框和字幕來指示每個事件的時間段。我們首先在每個事件之前暫停播放視頻,然后再次連續(xù)播放。您可以在此處找到更多 512x288 視頻。

圖片圖片

與 SOTA 模型的比較

現(xiàn)有的視頻生成器難以生成連續(xù)事件。將其與 SOTA 開源模型 CogVideoX-5B 和 Mochi 1以及商業(yè)模型 Kling 1.5和 Gen3-Alpha 進行了比較。 將所有時間字幕連接到一個長提示,并運行它們的在線 API 來生成視頻。 我們用于 SOTA 模型的提示可以在提示中找到。

現(xiàn)有模型經(jīng)常會在結果中遺漏一些事件,或者合并多個事件并混淆它們的順序。相比之下,MinT 可以按照所需的時間跨度無縫合成所有事件。有關 SOTA 模型行為的更多分析,請參閱論文附錄 C.6。在此處 查看更多比較。

圖片圖片圖片

MinT 關于 OOD 提示的結果

MinT 針對主要描述以人為中心的事件的時間字幕視頻進行了微調。然而,我們表明我們的模型仍然具有基礎模型生成新概念的能力。在這里,我們展示了 MinT 以分布外提示為條件生成的視頻

圖片

VBench 上的快速增強

我們利用 LLM 將簡短提示擴展為詳細的全局字幕和時間字幕,從而可以生成具有更豐富動作的更有趣視頻。我們用于 LLM 的指令可以在提示中找到。在這里,我們使用原始簡短提示(稱為Short)和詳細的全局字幕(稱為Global)與我們的基礎模型生成的視頻進行比較。這允許普通用戶使用我們的模型,而無需繁瑣地指定事件和時間戳。

場景切換調節(jié)

長視頻往往包含豐富的事件,但也伴隨著許多場景切換。直接用它們訓練視頻生成器將導致生成結果中出現(xiàn)不想要的突然鏡頭轉換。相反,我們建議在訓練期間明確地根據(jù)場景切換時間戳來條件化模型。一旦模型學會了這種條件作用,我們就可以將它們設置為零,以在推理時生成無剪切的視頻。 在這里,我們比較了用不同的場景切換條件生成的視頻。我們在輸入場景切換時間暫停視頻(用青色邊框突出顯示)。我們的模型引入了所需的鏡頭轉換,并且仍然可以保留主體身份和場景背景圖片

事件時間跨度控制

我們展示了 MinT 對事件時間的細粒度控制。在每個示例中,我們將所有事件的開始和結束時間偏移特定值。因此,每行都顯示了事件發(fā)生的順利進展

圖片

結論

論文提出的MinT是一個具有事件時間控制的多事件視頻生成框架。方法采用獨特的位置編碼方法來指導視頻的時間動態(tài),從而產(chǎn)生流暢連接的事件和一致的主題。借助 LLM論文進一步設計了一個提示增強器,可以從簡單的提示中生成運動豐富的視頻。

責任編輯:張燕妮 來源: AIGC Studio
相關推薦

2021-07-07 06:04:33

人工智能Pytorch神經(jīng)網(wǎng)絡

2015-04-17 09:18:35

JavaiOS

2012-12-21 15:29:07

Android

2024-02-26 09:36:45

SoraOpen AIAPI

2017-10-13 15:59:24

iPhone機器學習iOS

2013-10-30 22:10:28

Clouda程序

2022-10-17 10:28:05

Web 組件代碼

2020-11-13 07:08:51

Spring Boot應用Spring

2010-07-30 14:58:06

Flex應用

2011-03-21 14:24:13

Debian 6

2013-01-14 09:44:58

JavaScriptJSJS框架

2012-02-08 11:15:38

HibernateJava

2011-03-03 21:04:08

bug程序員

2023-09-21 22:43:17

Django框架

2021-04-07 13:38:27

Django項目視圖

2011-06-14 15:32:26

Android視頻教程

2010-03-15 10:37:46

Pthon腳本

2021-11-02 08:00:00

機器學習API技術

2025-05-28 09:04:00

谷歌AI搜索

2024-06-07 08:59:35

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91av视频 | 精品成人av | 国产精品激情小视频 | 国产一区二区三区久久久久久久久 | 精品一区在线 | 欧美亚洲国产日韩 | 国产精品日日摸夜夜添夜夜av | 四虎影视免费观看 | 久久久99精品免费观看 | 久久av一区二区三区 | 久久久xxx | 一区二区免费高清视频 | 国产免费一级一级 | 国产午夜精品一区二区三区 | 美女视频一区二区 | 欧美日韩久久 | 天堂av在线影院 | 男女啪啪高潮无遮挡免费动态 | 国产精品激情 | 成人黄视频在线观看 | 日韩欧美一区二区三区四区 | 久久综合伊人 | 国产精品爱久久久久久久 | 国产精品久久av | 亚洲一区二区三区高清 | 欧美日韩一区二区在线播放 | 亚洲欧美国产精品久久 | 亚洲av毛片 | 一级a性色生活片久久毛片波多野 | 91精品久久久久久久久中文字幕 | 99热都是精品 | 亚洲国产精品久久 | 精品国产乱码久久久久久闺蜜 | 日批免费在线观看 | 欧美成人猛片aaaaaaa | 在线观看亚洲欧美 | 国产精品综合 | 国产成人福利在线观看 | 521av网站| 亚洲成人av一区二区 | 日韩人体视频 |