RTX3090可跑,360AI團隊開源最新視頻模型FancyVideo,紅衣大叔都說好
論文作者之一 Ao Ma,碩士畢業于中科院計算所,曾在 MSRA 視覺計算組和阿里通義實驗室進行學術研究和算法落地工作。目前是奇虎 360-AIGC 團隊-視頻生成方向負責人,長期致力于視覺生成方向研究和落地,以及開源社區建設。
近日,開源社區又迎來一款強力的「視頻生成」工作,可以在消費級顯卡 (如 GeForce RTX 3090) 上生成任意分辨率、任意寬高比、不同風格、不同運動幅度的視頻,其衍生模型還能夠完成視頻擴展、視頻回溯的功能…… 這便是 360AI 團隊和中山大學聯合研發的 FancyVideo,一種基于 UNet 架構的視頻生成模型。
作者基于已經開源的 61 幀模型,實測效果如下。
首先適配不同分辨率、寬高比:
其次支持不同風格:
最后生成不同運動性:
- 論文地址:https://arxiv.org/abs/2408.08189
- 項目主頁:https://fancyvideo.github.io/
- 代碼倉庫:https://github.com/360CVGroup/FancyVideo
- 論文標題:FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance
跨幀文本引導模塊
作者在進行視頻生成研究過程中,發現現有的文本到視頻(T2V)工作通常會采用空間交叉注意力(Spatial Cross Attention),將文本等價地引導至不同幀的生成過程中,缺乏對不同幀靈活性的文本引導(如下圖左)。這會導致模型理解提示詞所傳達的時間邏輯和生成具有連續運動視頻的能力受到限制。
FancyVideo 正是從這一角度切入,特殊設計了跨幀文本引導模塊(Cross-frame Textual Guidance Module, CTGM, 如下圖右)改進了現有文本控制機制。
具體來說,CTGM 包含 3 個子模塊:
- 時序信息注入器(Temporal Information Injector, TII)-- 將來自潛在特征的幀特定信息注入文本條件中,從而獲得跨幀文本條件;
- 時序特征提取器(Temporal Affinity Refiner, TAR)-- 沿時間維度細化跨幀文本條件與潛在特征之間的相關矩陣;
- 時序特征增強器(Temporal Feature Booster, TFB)-- 增強了潛在特征的時間一致性。
FancyVideo 訓練流程
FancyVideo 整體訓練 Pipeline 如下所示。其中在模型結構方面,FancyVideo 選擇在 2D T2I 模型基礎上插入時序層和基于 CTGM 的運動性模塊的方式構造 T2V 模型。在生成視頻時,先進行 T2I 操作生成首幀,再進行 I2V。這既保存了 T2I 模型的能力,使視頻整體畫質變高,又大大減少了訓練代價。
此外,為實現運動控制的能力,FancyVideo 在訓練階段將基于 RAFT 提取視頻運動信息和 time embedding 一起注入到網絡中。
實驗結果
作者通過定量和定性兩個方面對模型效果進行評估。他們首先在 EvalCrafter Benchmark 上比較了 FancyVideo 和其他 T2V 模型,可以看到 FancyVideo 在視頻生成質量、文本一致性、運動性和時序一致性方面均處于領先位置。
論文還在 UCF-101 和 MSR-VTT Benchmark 上進行了 Zero-shot 的評測,在衡量生成視頻豐富性的 IS 指標和文本一致性的 CLIPSIM 指標均取得了 SOTA 結果。
此外,論文還基于 FancyVideo 模型的 T2V 和 I2V 能力分別和前人方法進行了人工評測,結果顯示在視頻生成質量、文本一致性、運動性和時序一致性角度 FancyVideo 均處于領先。
最后,論文中采用消融實驗探究了 CTGM 的不同子模塊對于視頻生成結果的影響,以驗證各個子模塊的合理性和有效性。
應用場景
基于這種訓練 pipline 和策略,FancyVideo 可以同時完成 T2V 和 I2V 功能,還可以在生成關鍵關鍵幀的基礎上進行插幀操作:
視頻擴展、視頻回溯操作:
FancyVideo 上線開源社區不到一周,已經有手快的同學自發搭建了 FancyVideo 的 ComfyUI 插件,讓大家可以在自己的機器上玩的開心。
此外,據作者了解,后續 FancyVideo 團隊除了會放出更長、效果更好的模型到開源社區,還計劃上線網頁版本供大家【免費】使用。在 AIGC 時代,人人都是「能詩會畫」的藝術家。
結論
相比于 SORA 類視頻生成「產品」的發展,開源社區中視頻生成模型的更新和迭代顯得略微緩慢,FancyVideo 的發布也給了普通用戶更多選擇。相信在社區小伙伴共同的努力下,視頻生成這一目前看上去費時費力的任務,能夠成為更多普通小伙伴日常生活、工作中的工具。