港科大開源VideoVAE+,視頻重建質量全面超越最新模型
港科大團隊重磅開源 VideoVAE+,提出了一種強大的跨模態的視頻變分自編碼器(Video VAE),通過提出新的時空分離的壓縮機制和創新性引入文本指導,實現了對大幅運動視頻的高效壓縮與精準重建,同時保持很好的時間一致性和運動恢復。
- 論文地址:https://arxiv.org/abs/2412.17805
- 代碼已開源:https://github.com/VideoVerses/VideoVAEPlus
VideoVAE + 模型大幅超過最新模型包括英偉達在 2024.11 發布的 Cosmos Tokenizer,同時也超越一眾方法包括騰訊在 2024.12 發布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。
什么是 VideoVAE 模型
VideoVAE 模型(Video Variational Autoencoder)是一種基于深度學習的生成模型,用于對視頻數據進行壓縮、重建和生成,講視頻從 RGB 像素空間投影到低維度的 latent 空間。常用于結合 Diffusion 生成模型組成兩階段的模型結構:即先通過 VideoVAE 的編碼器(Encoder)實現壓縮數據維度,去除冗余信息,再在低維 latent 空間用 diffusion 模型進行 latent 生成,最后通過 VideoVAE 的解碼器(Decoder)將 latent 解碼到 RGB 視頻,從而實現降低計算資源,更加高效的生成。
目前方法
一些方法直接采用圖像 VAE 進行逐幀壓縮,忽略了幀與幀之間的時間關聯性,導致視頻生成過程中出現嚴重的時序閃爍問題。此外,時間維度上的冗余信息未被充分壓縮,使得后續的擴散模型訓練效率低下,成本高昂。
另外,最近很多方法開始使用 VideoVAE,考慮時間維度,但仍存在諸多問題。包括細節模糊和失真(比如面部、手部、邊緣和文本),以及重建大幅運動的視頻時,出現運動卡頓(缺乏連貫及合理的時序過渡)和偽影等問題。
圖 1:該研究將該研究的方法和一眾優秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 進行了視覺對比,VideoVAE + 能夠準確重建大幅運動的視頻,并且有效解決了運動卡頓,重建模糊,細節缺失等問題。
方法
為了解決上述問題,VideoVAE + 提出了一種新的 cross-modal Video VAE 架構,其設計的關鍵點包括:
1. 時空分離的壓縮機制:提出一種時序感知的空間壓縮方法,有效分離空間和時間信息處理,避免因時空耦合而導致的運動偽影。
2. 輕量級運動壓縮模型:專門設計了一個模型用于時序壓縮,高效捕獲視頻中的運動動態。
3. 文本信息融合:利用文本到視頻數據集中的文本信息作為指導,提高視頻細節的保留能力和時間穩定性。
4. 圖像和視頻的聯合訓練:通過在圖像和視頻數據上的聯合訓練,增強了模型在多任務上的重建性能和適應性。
文章對比了三種時空建模方法:同步建模、順序建模以及該研究提出的最優時空建模方案。
- 方式 1 同時建模:通過將預訓練的 2D 空間 VAE 擴展為 3D VAE 實現,進行時間和空間的同步壓縮。然而,這種方法在捕捉時間動態時容易導致信息混淆,影響生成質量。
- 方式 2 順序建模:先通過空間編碼器壓縮空間維度,再用時間編碼器壓縮時間信息。但這種方式對時序細節的處理較為有限,容易出現時序一致性問題。
- 該研究的方法:該研究結合兩種方法的優勢,提出最優的時空建模策略。
該研究的方案具體包括時序感知的空間自編碼器(Temporal-aware Spatial AutoEncoder)和時序自編碼器(Temporal Autoencoder):
在第一階段,該研究將 2D 卷積擴展為核大小為 (1,3,3) 的 3D 卷積,并與同時建模類似,同時添加了額外的 3D 卷積層來建模時序維度,該研究將第一階段的模型稱為時序感知的空間自編碼器。但與方式 1 同時建模不同的是,在第一階段中,該研究僅壓縮空間信息,而不壓縮時序信息。
在第二階段中,該研究引入了另一個時序自編碼器(Temporal Autoencoder)來進一步編碼和壓縮時間維度信息,這作為第二階段的壓縮部分。該研究遵循方式 2 的時間編碼器和解碼器設計。通過這種方式該研究同時實現了更好的細節恢復能力和運動恢復能力。
同時,該研究提出引入跨模態信息,通過文本指導進一步增強視頻生成的細節保留和時間一致性。
該技術的主要特點有:
1. 智能特征分塊
將視頻的視覺特征圖分割成小塊(patch),并將它們作為 token 進行處理,不同層采用多種尺寸(8×8、4×4、2×2、1×1),確保每層特征的細節追蹤到位。
2. 跨模態注意力機制
首次在 Video VAE 任務上引入文本信息作為語義指導,讓視覺 token(作為 Query)與文本嵌入(作為 Key 和 Value)計算跨模態注意力,提升細節重建質量。
3. 強大的文本嵌入器
采用先進的 Flan-T5 模型,將文字轉化為語義向量,為視頻生成提供堅實的語義基礎。
其次,該研究采用了圖像與視頻的聯合訓練。模型能夠同時接受圖像和視頻作為訓練數據,既學習圖像壓縮能力,又提升視頻壓縮性能。在訓練中該研究觀察到,加入更多高質量的圖像數據,能進一步增強視頻自編碼性能。
結果
該研究提供了 latent 在 16 channel 和 4 channel 兩個版本的模型,以及在三個不同的數據集上對效果進行了全面評測。
該研究的 VideoVAE + 模型大幅超過最新模型包括英偉達在 2024.11 發布的 Cosmos Tokenizer,同時也超越一眾方法包括騰訊在 2024.12 發布的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。
同時該研究提供了 Demo video 可以更直觀地查看模型的視覺效果。