千幀長視頻時代到來!MIT全新擴散算法讓任意模型突破時長極限
進入到 2025 年,視頻生成(尤其是基于擴散模型)領域還在不斷地「推陳出新」,各種文生視頻、圖生視頻模型展現出了酷炫的效果。其中,長視頻生成一直是現有視頻擴散的痛點。
近期,MIT 團隊火遍外網的新論文《History-guided Video Diffusion》提出了一種全新算法 Diffusion Forcing Transformer(DFoT),在不改動原有架構的情況下就能讓模型穩定輸出比之前近 50 倍、近千幀長的視頻。
- 論文地址:https://arxiv.org/abs/2502.06764
- 項目主頁:https://boyuan.space/history-guidance/
該算法生成的視頻如此之長,以至于只能截短并降低幀率才能放下。我們先來一睹生成視頻的效果。
在現有的視頻擴散模型中,無分類器引導(Classifier-free Guidance, CFG) 已被廣泛應用于提升采樣質量。然而,目前的視頻模型通常只使用第一幀進行引導,而忽略了其他歷史幀的重要性。作者的研究發現:歷史信息才是提升視頻生成質量的關鍵因素!
因此,通過在去噪過程中混合長歷史模型和短歷史模型的不同預測,論文提出了一系列「歷史引導」算法 (History Guidance),顯著提升了視頻擴散模型的質量、生成長度、魯棒性與可組合性。
在 X 上,論文共同一作 Boyuan Chen 的論文推介收獲了十幾萬的閱讀量、近千的點贊量。
該工作剛一推出便受到了大量網友的贊譽,尤其看到了 DFoT 算法對視頻擴散模型的影響。
谷歌研究科學家、3d gaussian splating 一作 George Kopanas 轉達并評論道,「一年前,連續的長期視頻看起來是不可能的。而現在可以做到了!這項工作令人印象深刻,也提供了一個非常有趣的潛在想法。」
方法概覽
論文提出首先要訓練一個能根據不同部分的歷史進行去噪預測的視頻模型。作者把不同歷史定義如下:
- 不同長度的歷史
- 歷史的不同子集
- 特定頻率域的歷史。
這樣的模型能夠靈活地應對不同場景,例如圖生視頻或是延長已有的視頻。遺憾的是,目前的視頻擴散模型架構并不具備這種靈活性。如果簡單地把歷史幀編碼后喂給 AdaLN 層并使用無分類器引導常見的隨機丟棄法進行訓練,實際效果會非常差。
相反,作者提出了一個極其簡潔的算法 Diffusion Forcing Transformer (DFoT),在不改變架構的情況下就可以實現以上目標。
具體來說,作者提出把熱門前作 Diffusion Forcing 中提出的噪聲掩碼 (noise as masking) 概念帶入到視頻生成架構中 —— 訓練擴散模型時可以對每一幀使用不同的噪聲強度。某一幀無噪聲時相當于直接把該幀作為條件信息,而最強的噪聲相當于完全移除這一幀的信息。給定一個既有的傳統 DiT 架構,DFoT 只需要控制噪聲掩碼就可以訓練任意子序列的預測任務。
作者提到,這樣做保留了把現有模型直接微調成 DFoT 的可行性,并且 Adobe 公司已經在他們的視頻大模型 CausVid 上驗證過了 Diffusion Forcing 微調。
圖(左):傳統的視頻模型要需要把歷史信息編碼進 AdaLN 層來兼容多歷史幀。圖(右):DFoT 架構僅用噪聲掩碼來區分歷史幀和預測幀。
DFoT 一旦訓練好就可以進行極其靈活的采樣。如下圖所示,如果要把前四幀作為條件,可以控制噪聲掩碼給前四幀 0 噪聲(第一行);如果要進行無條件生成,可以把所有歷史幀設為白噪聲(第二行);如果要把短歷史作為條件,可以掩碼較早的歷史幀。
DFoT 的采樣和歷史引導。
基于這種能力,作者引出了一系列「歷史引導」算法。歷史引導擴展了無分類起引導的概念,不僅在采樣過程中組合有條件模型和無條件模型,還能通過加權去噪組合多重不同的歷史條件。其中最簡單的版本 (HG-v) 已經能大幅提高視頻的質量,較為先進一點的跨時間歷史采樣 (Temporal History Guidance) 和跨頻率域歷史采樣 (Fractional History Guidance) 更是分別增強了魯棒性和動作幅度。
實驗結果
作者進行了一系列實驗來分別驗證 DFoT 架構和歷史引導。
首先,在經典的 Kinetics 600 數據集上,DFoT 超過了所有同架構下的視頻擴散算法,并僅使用學術屆的計算就和谷歌閉源大模型的結果打成平手。
不光如此,DFoT 是可以用任意長度的歷史生成視頻的,并不像其他算法一樣在訓練時就要指定特定歷史長度。作者還特意驗證了從經典擴散算法微調而來的 DFoT 模型,發現一樣能獲得出色的效果。
無歷史引導下 DFoT 的效果。
接下來,作者開始驗證結合了歷史引導的 DfoT。
在 kinetics600 上,原有的任務是給定前 6 幀預測下面 11 幀。由于 DFoT 極其穩定,作者直接把 11 幀拓展到了 64 幀,并在 FVD 和 vBench 上大幅超過了之前的模型。同時,文中提出的 HG-f 可以在保持穩定性的情況下避免模型生成靜止的畫面。
kinetics 上的對比。
在 RealEstate10K 數據集上,論文更是斷崖式領先:在此之前,大部分算法只能在該數據集上做到給定開頭結尾去插值中間幀,兩個最強閉源模型 LVSM 和 4DiM 的在給定第一幀預測視頻的情況下最多只能生成二三十幀。
而 Diffusion Forcing Transformer 和歷史引導直接做到了單圖生成近一千幀,并且提供了全套開源和 Huggingface 展示。
DFoT 可以在 RealEstate10K 上單圖生成近千幀。
總結
論文提出了 Diffusion Forcing Transformer (DFoT),一個能用任何歷史幀作為條件的視頻擴散架構。DFoT 讓歷史引導 (History Guidance) 成為了可能,使得視頻質量和長度都大幅增加。論文還涉及了大量其他內容,例如數學證明,魯棒性,組合性和機器人實驗等近四十頁。
作者提供的開源實現詳細提供了復現的所有步驟,并且在 Huggingface 上提供了在線體驗,感興趣的讀者可以直接根據論文主頁的鏈接在瀏覽器里直接驗證論文效果。
Huggingface 地址:https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer
此外,為了方便讀者們進一步學習了解該論文,我們邀請到了論文共同一作、MIT計算機系四年級博士生陳博遠于北京時間2月27日20:00直播解讀該研究,歡迎感興趣的讀者預約觀看。