兩分鐘1200幀的長視頻生成器StreamingT2V來了,代碼將開源
廣闊的戰場,風暴兵在奔跑……
prompt:Wide shot of battlefield, stormtroopers running...
這段長達 1200 幀的 2 分鐘視頻來自一個文生視頻(text-to-video)模型,盡管 AI 生成的痕跡依然濃重,但我們必須承認,其中的人物和場景具有相當不錯的一致性。
這是如何辦到的呢?要知道,雖然近些年文生視頻技術的生成質量和文本對齊質量都已經相當出色,但大多數現有方法都聚焦于生成短視頻(通常是 16 或 24 幀長度)。然而,適用于短視頻的現有方法通常無法用于長視頻(≥ 64 幀)。
即使是生成短序列,通常也需要成本高昂的訓練,比如訓練步數超過 260K,批大小超過 4500。如果不在更長的視頻上進行訓練,通過短視頻生成器來制作長視頻,得到的長視頻通常質量不佳。而現有的自回歸方法(通過使用短視頻后幾幀生成新的短視頻,進而合成長視頻)也存在場景切換不一致等一些問題。
為了克服現有方法的缺點和局限,Picsart AI Resarch 等多個機構聯合提出了一種新的文生視頻方法:StreamingT2V。這也是一種自回歸方法,并配備了長短期記憶模塊,進而可以生成具有時間一致性的長視頻。
- 論文標題:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text
- 論文地址:https://arxiv.org/abs/2403.14773
- 項目地址:https://streamingt2v.github.io/
如下是一段 600 幀 1 分鐘的視頻生成結果,可以看到蜜蜂和花朵都有非常出色的一致性:
為此,該團隊提出了條件注意力模塊(CAM)。得益于其注意力性質,它可以有效地借用之前幀的內容信息來生成新的幀,同時還不會讓之前幀的結構 / 形狀限制新幀中的運動情況。
而為了解決生成的視頻中人與物外觀變化的問題,該團隊又提出了外觀保留模塊(APM):其可從一張初始圖像(錨幀)提取對象或全局場景的外觀信息,并使用該信息調節所有視頻塊的視頻生成過程。
為了進一步提升長視頻生成的質量和分辨率,該團隊針對自回歸生成任務對一個視頻增強模型進行了改進。為此,該團隊選擇了一個高分辨率文生視頻模型并使用了 SDEdit 方法來提升連續 24 幀(其中有 8 幀重疊幀)視頻塊的質量。
為了使視頻塊增強過渡變得平滑,他們還設計了一種隨機混合方法,能以無縫方式混合重疊的增強過的視頻塊。
方法
首先,生成 5 秒時長的 256 × 256 分辨率的視頻(16fps),然后將其增強至更高的分辨率(720 × 720)。圖 2 展示了其完整的工作流程。
長視頻生成部分由初始化階段(Initialization Stage)和流式文生視頻階段(Streaming T2V Stage)構成。
其中,初始化階段是使用一個預訓練的文生視頻模型(比如可以使用 Modelscope)來生成第一個 16 幀的視頻塊;而流式文生視頻階段則是以自回歸方式生成后續幀的新內容。
對于自回歸過程(見圖 3),該團隊新提出的 CAM 可以利用之前視頻塊最后 8 幀的短期信息,實現塊之間的無縫切換。另外,他們還會使用新提出的 APM 模塊來提取一張固定錨幀的長期信息,使自回歸過程能穩健地應對事物和場景細節在生成過程中的變化。
在生成得到了長視頻(80、240、600、1200 或更多幀)之后,他們再通過流式優化階段(Streaming Refinement Stage)來提升視頻質量。這個過程會以自回歸方式使用一個高分辨率文生短視頻模型(如可使用 MS-Vid2Vid-XL),再搭配上新提出的用于無縫視頻塊處理的隨機混合方法。而且后一步無需額外的訓練,這使得該方法無需較高的計算成本。
條件注意力模塊
首先,將所使用的預訓練文生(短)視頻模型記為 Video-LDM。注意力模塊(CAM)的構成是一個特征提取器、一個向 Video-LDM UNet 注入的特征注入器。
其中特征提取器使用了逐幀的圖像編碼器,之后是與 Video-LDM UNet 直到中間層一直使用的一樣的編碼器層(并通過 UNet 的權重初始化)。
對于特征注入,這里的設計則是讓 UNet 中的每個長程跳躍連接通過交叉注意力關注 CAM 生成的相應特征。
外觀保留模塊
APM 模塊可通過使用固定錨幀中的信息來將長期記憶整合進視頻生成過程中。這有助于維持視頻塊生成過程中的場景和對象特征。
為了讓 APM 能平衡處理錨幀和文本指令給出的引導信息,該團隊做出了兩點改進:(1)將錨幀的 CLIP 圖像 token 與文本指令的 CLIP 文本 token 混合起來;(2)為每個交叉注意力層引入了一個權重來使用交叉注意力。
自回歸視頻增強
為了自回歸地增強 24 幀的生成視頻塊,這里使用的是高分辨率(1280x720)的文生(短)視頻模型(Refiner Video-LDM,見圖 3)。這個過程的做法是首先向輸入視頻塊加入大量噪聲,然后再使用這個文生視頻擴散模型來進行去噪處理。
不過,這種方法不足以解決視頻塊之間的過渡不匹配的問題。
為此,該團隊的解決方案是隨機混合方法。具體詳情請參閱原論文。
實驗
在實驗中,該團隊使用的評估指標包括:用于評估時間一致性的 SCuts 分數、用于評估運動量和扭變誤差的運動感知扭變誤差(MAWE)、用于評估文本對齊質量的 CLIP 文本圖像相似度分數(CLIP)、美學分數(AE)。
消融研究
為了評估各種新組件的有效性,該團隊從驗證集中隨機采樣 75 個 prompt 執行了消融研究。
用于條件處理的 CAM:CAM 能幫助模型生成更一致的視頻,其 SCuts 分數比相比較的其它基線模型低 88%。
長期記憶:圖 6 表明長期記憶能在自回歸生成過程中極大幫助維持對象和場景的特征穩定。
在一個定量評估指標(人再識別分數)上,APM 實現了 20% 的提升。
用于視頻增強的隨機混合:與其它兩個基準相比,隨機混合能帶來顯著的質量提升,從圖 4 中也能看到:StreamingT2V 可以得到更平滑的過渡。
StreamingT2V 對比基線模型
該團隊通過定量和定性評估比較了集成上述改進的 StreamingT2V 與多種模型,包括使用自回歸方法的圖像到視頻方法 I2VGen-XL、SVD、DynamiCrafter-XL、SEINE,視頻到視頻方法 SparseControl,文本到長視頻方法 FreeNoise。
定量評估:從表 8 可以看出,在測試集上的定量評估表明,StreamingT2V 在無縫視頻塊過渡和運動一致性方面的表現最佳。新方法的 MAWE 分數也顯著優于其它所有方法 —— 甚至比第二好的 SEINE 低 50% 以上。SCuts 分數上也有類似表現。
此外,在生成視頻的單幀質量上,StreamingT2V 僅略遜于 SparseCtrl。這表明這個新方法能夠生成高質量的長視頻,并且比其它對比方法具有更好的時間一致性和運動動態。
定性評估:下圖展示了 StreamingT2V 與其它方法的效果比較,可以看出新方法能在保證視頻動態效果的同時維持更好的一致性。
更多研究細節,可參考原論文。