使用測試時間訓練(TTT)生成一分鐘視頻 原創
從文本生成視頻已取得了長足的進展,但在制作更長的多場景故事時仍然會遇到瓶頸。雖然Sora、Veo和Movie Gen之類的擴散模型已提高了視覺質量的門檻,但它們通常僅限于 20秒以內的片段。真正的挑戰是什么?上下文。從一段文本生成一段一分鐘的故事驅動型視頻需要模型處理數十萬個token,同時保持敘事和視覺的連貫性。英偉達、斯坦福大學、加州大學伯克利分校及其他機構的這項新研究應運而生,它引入了一種名為測試時間訓練(TTT)的技術,以突破目前的限制。
長視頻遇到的問題是什么?
Transformer(尤其是用于視頻生成的Transformer)依賴自注意力機制。由于急劇增長的計算成本,這些機制面對序列長度很難有良好的擴展性。試圖生成包含動態場景和一致角色的整整一分鐘高分辨率視頻,意味著需要處理30多萬個token的信息。這使得模型效率低下,并且長時間運行后通常不連貫。
一些團隊嘗試通過使用Mamba或DeltaNet之類的循環神經網絡(RNN)來規避這個問題,這類網絡提供了線性時間上下文處理能力。然而,這些模型將上下文壓縮到固定大小的隱藏狀態中,從而限制了模型的表達能力。這就好比試圖將整部電影塞進一張明信片里,有些細部根本就塞不進去。
TTT(測試時間訓練)如何解決這個問題?
??這篇論文??基于這一理念:將RNN的隱藏狀態轉化為易于訓練的神經網絡本身,從而提高其表達能力。具體來說,論文作者提議使用TTT層,這本質上是小型的兩層MLP,它們可以在處理輸入序列時動態調整或適應。這些層在推理過程中使用自監督損失加以更新,這可以幫助它們動態地從視頻不斷變化的上下文中學習。?
想象一下能夠實時調整的模型:隨著視頻的逐幀展開,其內部記憶會進行調整,以便更好地理解角色、動作和故事情節。這就是TTT所能實現的。
使用測試時間訓練生成一分鐘視頻的示例
將TTT 層添加到預訓練的Transformer
將TTT層添加到預訓練的 Transformer 中使其可以生成具有高度時間一致性和運動平滑度的一分鐘視頻。
提示:“杰瑞抓起一塊奶酪,跑向老鼠洞,湯姆緊追不舍。他及時溜了進去,湯姆撞到了墻上。杰瑞躲在安全舒適的地方,在一張小桌子旁享用著戰利品,開心地啃著,畫面逐漸變暗。”
基準比較
按人類評估Elo分數來衡量,TTT-MLP在時間一致性、運動平滑度和整體美觀度方面優于所有其他基準。
提示:“湯姆正開心地在餐桌旁啃蘋果派。杰瑞看起來很想吃一個。杰瑞走到屋前門外,按響了門鈴。湯姆過來開門時,杰瑞繞到廚房后面。杰瑞偷走了湯姆的蘋果派。杰瑞拿著蘋果派跑到老鼠洞里,而湯姆在后面緊緊追趕。眼看湯姆就要抓住杰瑞,杰瑞成功鉆入了老鼠洞,湯姆一頭撞到了墻上。”
局限性
生成的一分鐘視頻展現出概念驗證具有的明顯潛力,但仍然含有明顯的偽影。
工作原理淺析
該系統基于預訓練的Diffusion Transformer模型CogVideo-X 5B,該模型之前只能生成3 秒長的片段。研究人員將TTT層插入到模型中,并訓練了它們(以及局部注意力模塊),以處理更長的序列。
為了控制成本,自注意力機制被限制在3秒長的短片段上,而TTT層負責理解涉及這些片段的整體敘事。該架構還包含門控機制,以確保TTT層在訓練初期不會降低性能。
他們通過雙向處理序列并將視頻分割成帶注釋的場景來進一步改進訓練。比如說,他們使用故事板格式詳細描述每個3秒的片段,包括背景、角色位置、攝像機角度和動作。
數據集:不一樣的《貓和老鼠》
為了在一致且易于理解的視覺領域進行研究,團隊從7 個多小時的經典《貓和老鼠》動畫片中精選出一個數據集。這些動畫片被分解成多個場景,并精細地標注成 3 秒長的片段。通過專注于動畫片數據,研究人員避免了照片寫實的復雜性,并專注于敘事連貫性和運動動態。
標注人員為每個片段撰寫了描述性段落,確保模型擁有豐富的結構化輸入可供學習。這還便于多階段訓練——先使用 3 秒的片段,然后逐步增加到最長 63 秒的序列。
性能:它真的有效嗎?
是的,效果出色。與Mamba 2、Gated DeltaNet 和滑動窗口注意力等領先的基準模型相比,TTT-MLP模型在100個視頻的人工評估中平均比它們高出34個Elo點。
評估考慮以下因素:
?文本對齊:視頻與提示的銜接程度
?運動自然度:角色運動的真實度
?美學:光照、色彩和視覺吸引力
?時間一致性:跨場景的視覺連貫性
TTT-MLP在運動和場景一致性方面尤為出色,能夠保持動態動作的邏輯連續性,其他模型難以做到這一點。
偽影與局限性
盡管結果令人鼓舞,但仍然存在偽影。光照變化可能不一致,或者運動看起來漂浮不定(比如奶酪不自然地懸浮)。這些問題可能與基礎模型CogVideo-X的局限性有關。另一個瓶頸是效率。雖然TTT-MLP的速度比完全自注意力模型快得多(快2.5 倍),但仍然比更精簡的RNN方法(比如Gated DeltaNet)慢。話雖如此,TTT只需要進行微調,不用從頭開始訓練,這使得它在許多用例中更加實用。
這種方法的獨特優勢
?表達性記憶:TTT將RNN的隱藏狀態轉化為易于訓練的網絡,使其遠比固定大小的矩陣更具表達力。
?適應性:TTT 層在推理過程中可以學習和調整,使其能夠實時響應展開的視頻。
?可擴展性:在資源充足的情況下,該方法可以擴展,以支持更長、更復雜的視頻故事。
?實用的微調:研究人員僅對TTT層和門控進行微調,從而保持訓練的輕量級和高效性。
未來方向
團隊指出了幾個擴展機會:
?優化TTT 內核以加快推理速度
?嘗試使用更大或不同的骨干模型
?探索更復雜的故事情節和專題領域
?使用基于Transformer的隱藏狀態而不是MLP,以提升表現力
TTT視頻生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1
下表解釋了該模型與其他熱門視頻生成模型之間的差異:
模型? | 核心重點? | 輸入類型? | 關鍵特性? | 與TTT有何不同? |
TTT(測試 時間訓練) | 長格式視頻生成, 附有動態適應 | 文本故事板 | -推理過程中可調整 -可處理超過60秒的視頻 -連貫的多場景故事 | 為長視頻設計,生成過程中可更新內部狀態,以確保敘事一致性 |
MoCha | 說話角色生成 | 文本+語音 | -沒有關鍵點或參照圖像 -語音驅動型通體動畫 | 專注于角色對話和表達,而不是全場景敘事視頻 |
Goku | 高質量視頻和 圖像生成 | 文本和語音 | -經過校正的流Transformer -支持多模態輸入 | 針對質量和訓練速度經過優化;并不為長格式敘事設計 |
OmniHuman1 | 逼真的人類動畫 | 圖像+音頻+文本 | -多重條件信號 -高分辨率化身 | 創建栩栩如生的人類;并不為長序列或動態場景轉場建模 |
DreamActor- M1 | 圖像到動畫 (臉/身體) | 圖像+驅動視頻 | -整體式運動模仿 -高幀一致性 | 將靜態圖像變動畫;不使用文本或處理逐一場景的故事生成 |
結語
測試時間訓練為解決長上下文視頻生成問題提供了一個引人入勝的新視角。通過讓模型在推理過程中學習和適應,它彌補了敘事方面的關鍵空白:在這個領域,連貫性、情感和節奏完全與視覺保真度同樣重要。
無論你是生成式AI研究人員、創意技術專家,還是對AI生成的媒體的未來充滿好奇的產品領導者,這篇文章都指向了從文本生成動態連貫視頻的未來。
原文標題:??Generating One-Minute Videos with Test-Time Training??,作者:Nitika Sharma
