成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用測試時間訓(xùn)練(TTT)生成一分鐘視頻

譯文 精選
人工智能
英偉達(dá)、斯坦福大學(xué)、加州大學(xué)伯克利分校及其他機(jī)構(gòu)的這項新研究應(yīng)運而生,它引入了一種名為測試時間訓(xùn)練(TTT)的技術(shù),以突破目前的限制。

譯者 | 布加迪

審校 | 重樓

從文本生成視頻已取得了長足的進(jìn)展,但在制作更長的多場景故事時仍然會遇到瓶頸。雖然Sora、Veo和Movie Gen之類的擴(kuò)散模型已提高了視覺質(zhì)量的門檻,但它們通常僅限于 20秒以內(nèi)的片段。真正的挑戰(zhàn)是什么?上下文。從一段文本生成一段一分鐘的故事驅(qū)動型視頻需要模型處理數(shù)十萬個token,同時保持?jǐn)⑹潞鸵曈X的連貫性。英偉達(dá)、斯坦福大學(xué)、加州大學(xué)伯克利分校及其他機(jī)構(gòu)的這項新研究應(yīng)運而生,它引入了一種名為測試時間訓(xùn)練(TTT)的技術(shù),以突破目前的限制。

長視頻遇到的問題是什么?

Transformer(尤其是用于視頻生成的Transformer)依賴自注意力機(jī)制。由于急劇增長的計算成本,這些機(jī)制面對序列長度很難有良好的擴(kuò)展性。試圖生成包含動態(tài)場景和一致角色的整整一分鐘高分辨率視頻,意味著需要處理30多萬個token的信息。這使得模型效率低下,并且長時間運行后通常不連貫。

一些團(tuán)隊嘗試通過使用Mamba或DeltaNet之類的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)來規(guī)避這個問題,這類網(wǎng)絡(luò)提供了線性時間上下文處理能力。然而,這些模型將上下文壓縮到固定大小的隱藏狀態(tài)中,從而限制了模型的表達(dá)能力。這就好比試圖將整部電影塞進(jìn)一張明信片里,有些細(xì)部根本就塞不進(jìn)去。

TTT(測試時間訓(xùn)練)如何解決這個問題?

這篇論文基于這一理念:將RNN的隱藏狀態(tài)轉(zhuǎn)化為易于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)本身,從而提高其表達(dá)能力。具體來說,論文作者提議使用TTT層,這本質(zhì)上是小型的兩層MLP,它們可以在處理輸入序列時動態(tài)調(diào)整或適應(yīng)。這些層在推理過程中使用自監(jiān)督損失加以更新,這可以幫助它們動態(tài)地從視頻不斷變化的上下文中學(xué)習(xí)。

想象一下能夠?qū)崟r調(diào)整的模型:隨著視頻的逐幀展開,其內(nèi)部記憶會進(jìn)行調(diào)整,以便更好地理解角色、動作和故事情節(jié)。這就是TTT所能實現(xiàn)的。

使用測試時間訓(xùn)練生成一分鐘視頻的示例

將TTT 層添加到預(yù)訓(xùn)練的Transformer

將TTT層添加到預(yù)訓(xùn)練的 Transformer 中使其可以生成具有高度時間一致性和運動平滑度的一分鐘視頻。

提示:“杰瑞抓起一塊奶酪,跑向老鼠洞,湯姆緊追不舍。他及時溜了進(jìn)去,湯姆撞到了墻上。杰瑞躲在安全舒適的地方,在一張小桌子旁享用著戰(zhàn)利品,開心地啃著,畫面逐漸變暗。”

基準(zhǔn)比較

按人類評估Elo分?jǐn)?shù)來衡量,TTT-MLP在時間一致性、運動平滑度和整體美觀度方面優(yōu)于所有其他基準(zhǔn)。

提示:“湯姆正開心地在餐桌旁啃蘋果派。杰瑞看起來很想吃一個。杰瑞走到屋前門外,按響了門鈴。湯姆過來開門時,杰瑞繞到廚房后面。杰瑞偷走了湯姆的蘋果派。杰瑞拿著蘋果派跑到老鼠洞里,而湯姆在后面緊緊追趕。眼看湯姆就要抓住杰瑞,杰瑞成功鉆入了老鼠洞,湯姆一頭撞到了墻上。”

局限性

生成的一分鐘視頻展現(xiàn)出概念驗證具有的明顯潛力,但仍然含有明顯的偽影。

工作原理淺析

該系統(tǒng)基于預(yù)訓(xùn)練的Diffusion Transformer模型CogVideo-X 5B,該模型之前只能生成3 秒長的片段。研究人員將TTT層插入到模型中,并訓(xùn)練了它們(以及局部注意力模塊),以處理更長的序列。

為了控制成本,自注意力機(jī)制被限制在3秒長的短片段上,而TTT層負(fù)責(zé)理解涉及這些片段的整體敘事。該架構(gòu)還包含門控機(jī)制,以確保TTT層在訓(xùn)練初期不會降低性能。

他們通過雙向處理序列并將視頻分割成帶注釋的場景來進(jìn)一步改進(jìn)訓(xùn)練。比如說,他們使用故事板格式詳細(xì)描述每個3秒的片段,包括背景、角色位置、攝像機(jī)角度和動作。

數(shù)據(jù)集:不一樣的《貓和老鼠》

為了在一致且易于理解的視覺領(lǐng)域進(jìn)行研究,團(tuán)隊從7 個多小時的經(jīng)典《貓和老鼠》動畫片中精選出一個數(shù)據(jù)集。這些動畫片被分解成多個場景,并精細(xì)地標(biāo)注成 3 秒長的片段。通過專注于動畫片數(shù)據(jù),研究人員避免了照片寫實的復(fù)雜性,并專注于敘事連貫性和運動動態(tài)。

標(biāo)注人員為每個片段撰寫了描述性段落,確保模型擁有豐富的結(jié)構(gòu)化輸入可供學(xué)習(xí)。這還便于多階段訓(xùn)練——先使用 3 秒的片段,然后逐步增加到最長 63 秒的序列。

性能:它真的有效嗎?

是的,效果出色。與Mamba 2、Gated DeltaNet 和滑動窗口注意力等領(lǐng)先的基準(zhǔn)模型相比,TTT-MLP模型在100個視頻的人工評估中平均比它們高出34個Elo點。

評估考慮以下因素:

?文本對齊:視頻與提示的銜接程度

?運動自然度:角色運動的真實度

?美學(xué):光照、色彩和視覺吸引力

?時間一致性:跨場景的視覺連貫性

TTT-MLP在運動和場景一致性方面尤為出色,能夠保持動態(tài)動作的邏輯連續(xù)性,其他模型難以做到這一點。

偽影與局限性

盡管結(jié)果令人鼓舞,但仍然存在偽影。光照變化可能不一致,或者運動看起來漂浮不定(比如奶酪不自然地懸浮)。這些問題可能與基礎(chǔ)模型CogVideo-X的局限性有關(guān)。另一個瓶頸是效率。雖然TTT-MLP的速度比完全自注意力模型快得多(快2.5 倍),但仍然比更精簡的RNN方法(比如Gated DeltaNet)慢。話雖如此,TTT只需要進(jìn)行微調(diào),不用從頭開始訓(xùn)練,這使得它在許多用例中更加實用。

這種方法的獨特優(yōu)勢

?表達(dá)性記憶:TTT將RNN的隱藏狀態(tài)轉(zhuǎn)化為易于訓(xùn)練的網(wǎng)絡(luò),使其遠(yuǎn)比固定大小的矩陣更具表達(dá)力。

?適應(yīng)性:TTT 層在推理過程中可以學(xué)習(xí)和調(diào)整,使其能夠?qū)崟r響應(yīng)展開的視頻。

?可擴(kuò)展性:在資源充足的情況下,該方法可以擴(kuò)展,以支持更長、更復(fù)雜的視頻故事。

?實用的微調(diào):研究人員僅對TTT層和門控進(jìn)行微調(diào),從而保持訓(xùn)練的輕量級和高效性。

未來方向

團(tuán)隊指出了幾個擴(kuò)展機(jī)會:

?優(yōu)化TTT 內(nèi)核以加快推理速度

?嘗試使用更大或不同的骨干模型

?探索更復(fù)雜的故事情節(jié)和專題領(lǐng)域

?使用基于Transformer的隱藏狀態(tài)而不是MLP,以提升表現(xiàn)力

TTT視頻生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1

下表解釋了該模型與其他熱門視頻生成模型之間的差異:

模型

核心重點

輸入類型

關(guān)鍵特性

與TTT有何不同

TTT(測試

時間訓(xùn)練)

長格式視頻生成,

附有動態(tài)適應(yīng)

文本故事板

-推理過程中可調(diào)整

-可處理超過60秒的視頻

-連貫的多場景故事

為長視頻設(shè)計,生成過程中可更新內(nèi)部狀態(tài),以確保敘事一致性

MoCha

說話角色生成

文本+語音

-沒有關(guān)鍵點或參照圖像

-語音驅(qū)動型通體動畫

專注于角色對話和表達(dá),而不是全場景敘事視頻

Goku

高質(zhì)量視頻和

圖像生成

文本和語音

-經(jīng)過校正的流Transformer

-支持多模態(tài)輸入

針對質(zhì)量和訓(xùn)練速度經(jīng)過優(yōu)化;并不為長格式敘事設(shè)計

OmniHuman1

逼真的人類動畫

圖像+音頻+文本

-多重條件信號

-高分辨率化身

創(chuàng)建栩栩如生的人類;并不為長序列或動態(tài)場景轉(zhuǎn)場建模

DreamActor-

M1

圖像到動畫

(臉/身體)

圖像+驅(qū)動視頻

-整體式運動模仿

-高幀一致性

將靜態(tài)圖像變動畫;不使用文本或處理逐一場景的故事生成

結(jié)語

測試時間訓(xùn)練為解決長上下文視頻生成問題提供了一個引人入勝的新視角。通過讓模型在推理過程中學(xué)習(xí)和適應(yīng),它彌補(bǔ)了敘事方面的關(guān)鍵空白:在這個領(lǐng)域,連貫性、情感和節(jié)奏完全與視覺保真度同樣重要。

無論你是生成式AI研究人員、創(chuàng)意技術(shù)專家,還是對AI生成的媒體的未來充滿好奇的產(chǎn)品領(lǐng)導(dǎo)者,這篇文章都指向了從文本生成動態(tài)連貫視頻的未來。

原文標(biāo)題:Generating One-Minute Videos with Test-Time Training,作者:Nitika Sharma

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2017-03-30 19:28:26

HBase分布式數(shù)據(jù)

2017-07-06 08:12:02

索引查詢SQL

2020-05-21 19:46:19

區(qū)塊鏈數(shù)字貨幣比特幣

2022-07-18 06:16:07

單點登錄系統(tǒng)

2018-06-26 05:23:19

線程安全函數(shù)代碼

2017-02-21 13:00:27

LoadAverage負(fù)載Load

2018-07-31 16:10:51

Redo Undo數(shù)據(jù)庫數(shù)據(jù)

2011-02-21 17:48:35

vsFTPd

2018-12-12 22:51:24

Java包裝語言

2020-07-17 07:44:25

云計算邊緣計算IT

2016-09-12 17:28:45

云存儲應(yīng)用軟件存儲設(shè)備

2020-07-09 07:37:06

數(shù)據(jù)庫Redis工具

2020-06-11 08:04:12

WDMDWDMMWDM

2013-11-15 07:24:50

4G LTE圖解

2015-11-12 10:32:40

GitHub控制系統(tǒng)分布式

2018-03-27 09:28:33

緩存策略系統(tǒng)

2016-12-16 11:05:00

分布式互斥線程

2021-08-06 08:50:45

加密貨幣比特幣區(qū)塊鏈

2020-10-13 14:55:31

云計算云安全技術(shù)

2018-11-28 11:08:30

并查集集合數(shù)據(jù)結(jié)構(gòu)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩和的一区二区 | 午夜视频一区二区三区 | 精品国产一区二区三区日日嗨 | 久久久久久免费毛片精品 | 欧美成人a| 国产精品高潮呻吟久久av黑人 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 中文字幕精品一区二区三区精品 | 免费看黄色小视频 | 婷婷综合色 | 免费一级毛片 | 射久久| 亚洲精品在线视频 | 国产精品久久国产精品 | 成人不卡视频 | 中文字幕av中文字幕 | 特一级毛片 | 色伊人久久 | 国产精品一区二区三区在线播放 | 黄色国产大片 | 日日操视频 | 成人在线中文字幕 | 国产国拍亚洲精品av | 亚洲v区 | 日韩国产在线 | 91久久精品国产91久久性色tv | 九色网址 | 一区二区三区精品在线视频 | 国产亚洲精品久久久优势 | 美女在线国产 | 亚洲 欧美 日韩 在线 | 黄网站在线观看 | 亚洲精选一区二区 | 亚洲一区二区欧美 | 国产成人精品一区二区三区在线 | 久久伊人亚洲 | 成人国产精品免费观看视频 | 日韩一三区 | 九九热re| 一区二区三区精品视频 | k8久久久一区二区三区 |