CVPR 2025 | AI視頻定制進入多角色狂想時代!英偉達等發布VideoMage巧用"時空組合拳"
文章鏈接:https://arxiv.org/pdf/2503.21781
項目鏈接:https://jasper0314-huang.github.io/videomage-customization
亮點直擊
- 提出了 VideoMage,一個統一框架,首次實現了針對多個主體身份及其交互運動的視頻概念定制。
- 引入了一種新穎的外觀無關運動學習方法,通過改進負分類器自由引導,解耦潛在的運動模式與外觀之間的關系。
- 開發了一種時空協作組合方案,以組合獲得的多主體和運動 LoRA,從而生成所需運動模式下連貫的多主體交互。
總結速覽
解決的問題
定制化的文本到視頻生成旨在制作高質量的視頻,包含用戶指定的主體身份或運動模式。然而,現有的方法主要集中在個性化單一概念上,即主體身份或運動模式,這限制了它們在多個主體及其所需運動模式下的有效性。
提出的方案
為了解決這一挑戰,提出了一個統一框架 VideoMage,用于對多個主體及其交互運動進行視頻定制。
應用的技術
- VideoMage 采用主體和運動 LoRA,從用戶提供的圖像和視頻中捕捉個性化內容。
- 引入了一種新穎的外觀無關運動學習方法,通過改進負分類器自由引導,解耦潛在的運動模式與外觀之間的關系。
- 開發了一種時空組合方案,以組合獲得的多主體和運動 LoRA,從而生成所需運動模式下連貫的多主體交互。
達到的效果
大量實驗表明,VideoMage 的表現優于現有方法,能夠生成連貫的、用戶控制的視頻,并保持一致的主體身份和交互。
方法
為了解決上述問題,提出了 VideoMage,這是一個統一框架,用于定制多個主體和交互運動以進行文本到視頻生成。在快速回顧視頻擴散模型后,詳細說明了如何利用 LoRA 模塊分別從輸入圖像和參考視頻中學習視覺和運動信息。本文提出了一種獨特的時空協作組合方案,以整合學習到的主體/運動 LoRA 進行視頻生成。
初步:視頻擴散模型
主體和運動定制
為了避免干擾時間動態,主體 LoRA 僅應用于 UNet 的空間層。目標定義為:
因此,整體目標定義為:
為了解決這個問題,本文提出了一種新穎的與外觀無關的目標,如下圖 3 所示,能夠有效地從參考視頻中隔離運動模式。受到 [12, 22] 中概念消除方法的啟發,本文推進了基于視覺主體外觀的負分類器自由引導,專注于在運動學習過程中消除外觀信息。這將確保運動 LoRA 專注于運動動態。
為了實現這一點,本文首先通過在從參考視頻中采樣的單幀上應用文本反演 [11] 來學習參考視頻中主體的特殊標記(例如,上圖 3 中的“人”和“馬”)。這在最小化運動影響的同時捕捉主體外觀,有效地將外觀與運動解耦。利用上述特殊標記,本文使用與外觀無關的目標訓練一個運動 LoRA,該目標采用負引導來抑制外觀信息,使運動 LoRA 能夠獨立于主體外觀學習運動模式。
更具體地說,訓練目標定義為:
空間-時間協作合成
通過獲得多個主體 LoRA 和互動運動 LoRA,本文的目標是生成這些主體使用所需運動模式進行互動的視頻。然而,結合具有不同屬性的 LoRA(即視覺外觀與空間-時間運動)并不是一項簡單的任務。
在本文的工作中,本文提出了一種空間-時間協作合成的測試時間優化方案,使上述 LoRA 之間能夠協作生成具有所需外觀和運動屬性的視頻。本文現在討論所提出的方案。
具體而言,本文通過將主體分支的時間自注意力圖與運動分支的時間自注意力圖對齊來強制運動的正確性。類似地,本文通過將運動分支的空間交叉注意力圖與主體分支的空間交叉注意力圖對齊,確保準確的空間排列。協作引導的損失計算如下:
實驗
實驗設置
數據集。 為了評估多主體和運動任務的視頻定制方法,本文從 WebVid [2] 收集了 6 個運動視頻,展示了人類與動物之間的各種互動。對于每個運動,本文提供了來自 [26, 33] 的 3 對主體,包括動物、機器人、玩具和毛絨玩具等多種不同物種,每個設置有 4 個不同的背景提示。
評估指標。 遵循之前的工作 [43, 44, 51],本文使用以下指標評估性能:1)CLIP-T,測量生成幀與文本提示之間的余弦相似度,使用 CLIP [29];2)CLIP-I,通過比較生成幀和目標圖像的 CLIP 圖像嵌入來評估主體身份;3)DINO-I,類似于 CLIP-I,但使用 DINO [4] 的嵌入;4)時間一致性 [10],通過計算連續幀之間的相似度來測量逐幀一致性,使用 CLIP。此外,本文進行人類評估以進行定性評估。
比較。 本文將本文的 VideoMage 與最先進的視頻定制方法進行比較,包括通過應用適配器和 LoRA 分別對單一主體進行運動定制的 DreamVideo [44] 和 MotionDirector [51]。為了公平比較,本文首先對多個主體模塊的輸出進行平均,并將其與運動模塊結合以進行多主體和運動定制。
主要結果
定性結果。 在下圖 5 中,本文展示了定制視頻生成的示例,結合了用戶提供的各種主體圖像和特定的運動參考視頻。正如本文所觀察到的,DreamVideo 和 MotionDirector 都遭遇了顯著的外觀泄漏和屬性混合問題,難以正確安排多個主體以遵循參考運動模式。例如,在右下角,運動視頻中黑狗的外觀無意中轉移到了 MotionDirector 的輸出中,而在左下角的 DreamVideo 輸出中,的顏色屬性與錯誤混合,導致不理想的視覺細節。此外,這兩種方法未能建立主體之間的預期互動,未能捕捉到它們之間的微妙動態。相比之下,本文的 VideoMage 有效地解決了這些挑戰,保留了主體身份,防止了外觀泄漏,并成功實現了生成視頻中主體之間的預期互動。
定量結果。 本文對收集的多主體和運動數據集進行了定量評估。通過 72 種主體、運動和背景的組合,本文為每種組合生成了 10 個視頻,并使用四個指標進行評估。如下表 1 所示,本文的 VideoMage 生成的視頻更好地保留了主體的身份,相較于最先進的方法 MotionDirector,在 CLIP-I 和 DINO-I 上分別提高了 5.7% 和 10%。此外,VideoMage 在 CLIP-T 性能上達到了最高,并且在時間一致性方面與最先進的方法相當,展示了其生成與文本提示緊密對齊的連貫視頻的能力。
用戶研究。 為了進一步評估本文方法的有效性,本文進行了一項人類偏好研究,將本文的方法與 DreamVideo [44] 和 MotionDirector [51] 進行比較。在這項研究中,參與者獲得參考主體圖像和運動視頻,以及分別由本文的 VideoMage 和比較方法生成的兩個定制視頻。參與者被要求根據四個標準選擇他們偏好的視頻:文本對齊(視頻與提示的匹配程度)、主體保真度(主體與參考圖像的匹配程度,且沒有錯誤的屬性混合)、運動保真度(運動與參考視頻的反映程度)、視頻質量(平滑度和無閃爍)。共生成了 360 個視頻,參與評估的參與者有 25 位。如下圖 6 所示,在所有標準中,參與者更傾向于選擇本文的 VideoMage。
消融研究
結論
本文提出了一個統一框架 VideoMage,以實現用戶提供的主體身份和所需運動模式之間的文本到視頻擴散模型的視頻定制。在 VideoMage 中,本文采用多主體和無外觀運動學習來推導定制的 LoRA,同時提出了一種時空協作組合方案,以相互對齊主體和運動組件,從而合成具有足夠視覺和時間保真度的視頻。本文對 VideoMage 進行了廣泛的定量和定性評估,驗證了其相較于以前視頻定制方法的優越可控性。
本文轉自AI生成未來 ,作者:AI生成未來
