定制化視頻生成新模范!零樣本主體驅動,精確運動控制!復旦&阿里等發布DreamVideo-2
文章鏈接:https://arxiv.org/pdf/2410.13830
項目鏈接:https://dreamvideo2.github.io/
亮點直擊
- DreamVideo-2,首個無需微調,同時支持主體定制和運動控制的零樣本視頻定制框架,能夠通過設計的參考注意力學習主體外觀,并使用二值mask引導的運動模塊實現運動軌跡控制。
- 識別出DreamVideo-2中運動控制占主導的問題,并通過使用混合mask 增強參考注意力(即mask參考注意力)和設計重加權擴散損失來解決該問題,從而有效平衡了主體學習和運動控制。
- 構建了一個大型、全面且多樣性豐富的視頻數據集,以支持零樣本視頻定制任務。
- 大量實驗結果表明,DreamVideo-2優于現有的先進視頻定制方法。
總結速覽
解決的問題
現有的視頻定制生成方法需要在測試時進行復雜的微調,且難以平衡主體學習與運動控制,限制了其在實際應用中的效果。
提出的方案
提出了DreamVideo-2,一種無需測試時微調的零樣本視頻定制框架,通過單張圖像和一組邊界框序列指導視頻生成,確保生成視頻的特定主體和運動軌跡。
應用的技術
- 參考注意力機制:利用模型固有的主體學習能力來學習特定主體。
- mask 引導的運動模塊:通過從邊界框中提取的二值mask 來精準控制運動。
- 掩碼參考注意力:將混合隱空間mask 建模方案集成到參考注意力中,以增強目標位置的主體表征。
- 重加權擴散損失:區分邊界框內外區域的貢獻,確保主體和運動控制的平衡。
達到的效果
在一個新構建的數據集上的大量實驗表明,DreamVideo-2在主體定制和運動控制方面均優于現有的先進方法。
方法
給定一個定義主體外觀的單個主體圖像和一個描述運動軌跡的邊界框序列,DreamVideo-2旨在生成包含指定主體和運動軌跡的視頻,無需在推理時進行微調或修改,如下圖2所示。為了學習主體外觀,利用模型的固有能力,并引入了參考注意力。對于運動控制,提出使用mask作為運動控制信號,并設計了 mask 引導運動模塊。此外,為了平衡主體學習和運動控制,通過混合 mask (即mask參考注意力)增強參考注意力,并設計了重加權擴散損失。最后,詳細介紹了訓練、推理和數據集構建過程。
通過參考注意力進行主體學習
通過mask引導的運動模塊實現運動控制
為了從mask 序列中捕獲運動信息,設計了一個mask 引導的運動模塊,該模塊使用一個時空編碼器和一個空間 ControlNet,如前面圖 2 所示。雖然先前的研究證明了 3D ControlNet 從序列輸入中提取控制信息的有效性,但其高昂的訓練成本在實際應用中存在潛在缺陷。鑒于mask 序列中簡單的時序關系,使用一個輕量級的時空編碼器足以提取所需的時序信息。因此,僅在該編碼器上附加一個空間 ControlNet 以進一步提高控制精度。時空編碼器由重復的二維卷積和非線性層組成,后接兩個時序注意力層和一個輸出卷積層,如前面圖 2 右側所示。此外,空間 ControlNet 提取多尺度特征,并將其添加到 VDM 解碼器塊的卷積層輸入中。
平衡主體學習與運動控制
雖然上述兩個組件已實現其預期功能,根據經驗觀察到,運動控制往往占主導地位,這可能削弱主體ID保持的質量。如下圖 3(b) 所示,模型僅需少量步驟即可學會運動控制,部分說明了在指定位置生成主體相比于學習外觀細節更簡單。在圖 3(c) 中,即使在延長訓練步驟的情況下,參考注意力和運動模塊的聯合訓練也仍然使運動控制占主導地位,從而導致主體ID被破壞。相比之下,如圖 3(d) 所示,本文的方法通過以下兩個關鍵設計有效平衡了主體學習和運動控制。
重加權擴散損失 為了平衡主體學習和運動控制,進一步提出了一種重加權擴散損失,以區分邊界框內外區域對標準擴散損失的貢獻。具體而言,放大邊界框內區域的貢獻,以增強主體學習,同時保留邊界框外區域的原始擴散損失。設計的重加權擴散損失可以定義為
訓練、推理和數據集構建
訓練 從訓練視頻中隨機選擇一幀并進行分割,以獲得帶有空白背景的主體圖像,這相比于使用首幀能緩解過擬合。同時,從訓練視頻的所有幀中提取主體的邊界框,并將其轉換為mask 作為運動控制信號。在訓練過程中,凍結原始的 3D UNet 參數,并根據公式 (6) 聯合訓練新添加的mask 參考注意力、時空編碼器和 ControlNet。
推理 DreamVideo-2 在推理時無需微調,且不需要修改注意力圖。用戶只需提供主體圖像和邊界框序列,即可靈活生成包含指定主體和運動軌跡的定制視頻。邊界框可以從多種信號中獲得,包括首幀和末幀的邊界框、首幀邊界框及運動軌跡,或參考視頻。這些信號隨后被轉換為二值mask作為輸入。
數據集構建 為了便于主體和運動控制的零樣本視頻定制任務,從 WebVid-10M數據集和內部數據中策展了一個包含視頻mask 和邊界框的單主體視頻數據集。注釋是使用 Grounding DINO、SAM和 DEVA模型生成的。本文的數據集與之前的數據集的比較見下表 1。目前已處理 230,160 個視頻用于訓練。
實驗
實驗設置
數據集 在策展的視頻數據集上訓練 DreamVideo-2,并通過包含 50 個主體和 36 個邊界框的測試集進行評估。主體圖像來源于之前的文獻和互聯網,而邊界框來自 DAVIS 數據集中的視頻和 FreeTraj 中使用的框。此外,設計了 60 個文本提示用于驗證。
基線方法 將本文的方法與 DreamVideo和 MotionBooth進行主體定制和運動控制的對比。此外,還與 DreamVideo 和 VideoBooth進行獨立的主體定制對比,并與 Peekaboo、Direct-a-Video和 MotionCtrl進行運動軌跡控制的對比。
評估指標 通過 9 個指標評估方法,重點關注三個方面:總體一致性、主體保真度和運動控制精度。
- 對于總體一致性,使用 CLIP 圖文相似性 (CLIP-T)、時序一致性 (T. Cons.) 和動態程度 (DD) 進行評估,DD 使用光流來測量運動動態。
- 對于主體保真度,引入了四個指標:CLIP 圖像相似性 (CLIP-I)、DINO 圖像相似性 (DINO-I)、區域 CLIP-I (R-CLIP) 和區域 DINO-I (R-DINO)。R-CLIP 和 R-DINO 計算主體圖像與邊界框定義的幀區域之間的相似性。
- 對于運動控制精度,使用平均交并比 (mIoU) 和質心距離 (CD) 指標 。CD 計算生成的主體質心與目標邊界框之間的歸一化距離。使用 Grounding-DINO 來預測生成視頻的邊界框。
主要結果
主體定制和運動控制的聯合 對比了本文的方法與基線方法生成帶有指定主體和運動軌跡視頻的質量,結果如下圖 4 所示。觀察到,DreamVideo 和 MotionBooth 難以在主體保留和運動控制之間取得平衡,尤其是在訓練單一主體圖像時。主體與運動的控制強度不平衡影響了它們的表現,導致在增強某一方面時損害了另一方面的效果。相較之下,DreamVideo-2 能夠在各種上下文中和諧地生成帶有期望主體外觀和運動軌跡的定制視頻。此外,本文的方法有效地將主體限制在邊界框內,更好地符合用戶的偏好,增強了其在實際應用中的適用性。
定量比較結果 如下表 2 所示。DreamVideo-2 在文本對齊、主體保真度和運動控制精度方面始終優于所有基線方法,同時在時序一致性上也達到了可比的表現。值得注意的是,本文的方法在 mIoU 和 CD 指標上顯著超越了基線方法,驗證了在運動控制方面的穩健性。相比之下,DreamVideo 在 CLIP-I 和 DINO-I 指標上表現第二優,但在 mIoU 和 CD 上較弱,表明其在主體ID保留方面具有優勢,但在運動控制方面存在局限性。MotionBooth 由于對整個模型進行了微調,CLIP-T 得分最低,但在 mIoU 和 CD 指標上比 DreamVideo 更好,表明使用顯式運動控制信號(例如邊界框)可能比從參考視頻學習更為有效。
主體定制 還評估了獨立的主體定制能力。下圖 5 展示了定性比較結果。觀察到,VideoBooth 對于其訓練數據中未包含的主體表現出有限的泛化能力,而 DreamVideo 在單張圖像訓練時未能捕捉到外觀細節。相反,當在與 VideoBooth 相同的數據集上訓練時,DreamVideo-2 結合參考注意力和重加權擴散損失,可以生成符合文本提示的目標主體視頻。
表 3 的定量比較結果顯示,盡管 DreamVideo-2 在 CLIP-I 和時序一致性上保持相當的表現,但它在 CLIP-T、DINO-I 和動態程度上取得了最高分,驗證了本文的方法在文本對齊、主體保真度和運動動態方面的優越性。
運動控制 除了主體定制之外,還評估了運動控制能力,如圖 6 所示。結果表明,所有基線方法在準確控制主體按邊界框定義的運動方面都存在困難。同時,Direct-a-Video 可能會因修改注意力圖值而導致生成的物體外觀損壞。相比之下,僅使用運動編碼器的 DreamVideo-2 能夠實現精確的運動控制,并有效地確保主體保持在邊界框內,展示了穩健的控制能力。
如下表 4 所示,盡管與 MotionCtrl 相比在時序一致性(T. Cons.)上略低,本文的方法在 CLIP-T 上取得最高得分,并且在 mIoU 和 CD 指標上大幅超越基線方法。
用戶研究 為進一步評估 DreamVideo-2,進行了用戶研究,邀請 15 名標注員對三種方法生成的 300 組視頻進行評分。每組包含 3 個生成的視頻、一個主體圖像、文本提示和對應的邊界框。根據文本對齊度、主體保真度、運動對齊度和總體質量四個方面進行評估,并通過多數投票得出結果。下圖 7 顯示,用戶在四個方面均更偏好本文的方法。
消融實驗
各組件的效果 本文進行了消融實驗以探究各組件的效果,如下圖 8(a) 所示。觀察到,去除mask 機制或重加權擴散損失后,主體ID的質量因運動控制的主導性而下降。雖然在mask 參考注意力中使用二值mask 有助于保留主體ID,但由于忽略了注意力中的背景信息,往往導致背景模糊、視頻質量低下。值得注意的是,在沒有運動編碼器的情況下,mask 參考注意力仍然能夠實現粗略的軌跡控制。
下表 5 的定量結果表明,去除mask 機制、運動編碼器或重加權擴散損失后,所有指標的性能均會下降。這證實了各組件對整體性能的貢獻;
結論
本文提出了 DreamVideo-2,這是一種創新的零樣本視頻定制框架,能夠生成具有特定主體和運動軌跡的視頻。引入了參考注意力用于主體學習,并設計了mask 引導的運動模塊以實現運動控制。針對 DreamVideo-2 中運動控制主導性的問題,在參考注意力中引入了混合mask 并設計了重加權擴散損失,從而有效地平衡了主體學習和運動控制。大量實驗結果表明,DreamVideo-2 在主體定制和運動軌跡控制方面均具有優勢。
局限性 盡管本文的方法能夠定制單個主體與單一軌跡,但在生成包含多個主體和多重軌跡的視頻時仍存在不足。一種解決方案是構建更為多樣化的數據集并訓練通用模型。
本文轉自AI生成未來 ,作者:AI生成未來
