多重可控插幀視頻生成編輯,Adobe這個大一統模型做到了,效果驚艷
本文一作 Maham Tanveer 是 Simon Fraser University 的在讀博士生,主要研究方向為藝術視覺生成和創作,此前在 ICCV 發表過藝術字體的生成工作。師從 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并擔任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry) Zhao 在 Adobe Research 擔任 Research Scientist, 研究方向為多模態可控生成和編輯,有豐富的交叉方向研究經歷(圖形學 + 圖像 + 人機交互),致力于開發可以讓用戶更高效進行設計創作的算法和工具。
繼 Firefly 視頻大模型公布后,Adobe 的研究者在如何更好的控制視頻的生成和編輯進行了更深入的研究。近日,Adobe 提出了一個統一模型,除了傳統的根據圖片生成動畫的功能(image animation)外,同時支持各種模態的控制,包括關鍵幀 (keyframes)、運動軌跡 (sparse trajectory)、掩碼(mask)、引導像素(guiding pixels)、文本等。
論文中的 demo 讓人眼前一亮,下面一起來看看模型的效果:
1. 運動軌跡 (sparse trajectory)
通過提供簡單的軌跡筆畫,小熊栩栩如生地動起來了。
2. 掩碼(Mask)
MotionBridge 不僅可以控制物體的運動,如圖所示,將簡單的運動筆畫和 mask 結合起來,模型也可以輕松控制鏡頭視角。
如上所示的 mask 描繪了變動(dynamic)區域,同樣 mask 也可以指定不動的(static,紅色)區域。描繪出整座桃林圍著城堡旋轉的景象。
讓我們看看同樣的圖像和運動軌跡,不同 mask 作用下的結果吧。
3. 引導像素 (guiding pixels)
通過將想要的像素區域粘貼在指定幀的指定位置,就可以進行更精準的像素控制。如:船在指定時間 “航行” 到指定位置。
4. 關鍵幀 (keyframes)
提供關鍵幀,模型可以在關鍵幀之間生成中間幀,實現場景的平滑切換。在視頻內容創作、動畫制作、視頻合成等方面都有至關重要的作用,例如長視頻合成 / 生成。除了可以生成有別于以往插幀方法更豐富困難的動作,還可以自然和多種模態控制結合。
通過運動軌跡控制,三個小球可以自由在彭羅斯階梯分別滾動。
加上 mask,操控飛船左右擺動也不在話下,連灑下來的光也追隨移動
動靜結合,萬圣節裝扮的動圖也可以多種多樣:
當采用同一幀作為首位幀,還可以產生循環播放的奇妙效果:
當然,卡通視頻也不在話下:
也可以進行視角轉化:
不單單可以進行新視頻的生成和創作,MotionBridge 還可以改善圖生視頻或者文生視頻的效果,減少歧義并增加視頻復雜度和可控性。
除此之外,最常用的文本交互也是支持的。
更多的結果和應用,請參考官方視頻。
技術概覽
如今,已經有很多模型可以進行圖生視頻的創作,但生成的結果往往缺少可控性,用戶要進行很多次的試錯才能得到滿意的結果。本文提出了一個名為 MotionBridge 的算法集成了多種可控信號,方便用戶生成或者編輯現有的視頻。不同于以往工作,MotionBridge 以插幀作為基本框架構建模型。即模型可以通過輸入 1~n 張關鍵幀來生成對應視頻,補全幀與幀之間的流暢過度。這個建模方式自然的保留了原本圖生視頻(image to video)的能力,同時提供了更高的可控性和視頻生成質量。
然而,傳統的插幀方法還具有一定的局限性,傳統方法一般分為運動估計和運動補償兩個步驟,但當輸入幀之間的時間或空間間隔增大時,運動估計和補償的難度呈指數級上升。這是因為要生成逼真的中間幀,就必須填補輸入幀之間缺失的信息,而這往往需要合成全新的內容,這對于傳統方法而言是一個巨大的挑戰。
盡管近年來視頻生成模型取得了顯著進展,為插幀技術帶來了新的可能性,但這些技術仍然存在不足。一方面,許多模型難以生成復雜的大動作,無法滿足創作者對于豐富場景變化的需求;另一方面,即使能夠生成高質量的視頻,卻常常缺乏對中間幀細節的精細控制,導致最終生成的視頻與創作者的創意設想存在偏差。
因此,為了解決以上的難題,MotionBridge 第一次進行了統一多模態可控插幀視頻模型的嘗試。
相比于圖生視頻,可控插幀視頻任務的復雜度更高。以運動軌跡控制為例,視頻插幀不僅需要服從指定軌跡,還需要絲滑過度并在指定幀結束。即使軌跡不完整,模型也需要根據關鍵幀推測,往往生成的動作比圖生視頻更為復雜。而進行多模態控制會進一步提升問題難度。
為了確保模型的生成能力,MotionBridge 的設計基于 DiT 的模型架構并且具有普適性(backbone-agnostic)可以適用于任何形式的 DiT 架構。
技術要點
1. 分類編碼控制信號:為了減少控制信號融合時的歧義,MotionBridge 將控制分為內容控制(如掩碼和引導像素)和運動控制(如軌跡)兩類,通過雙分支嵌入器分別計算所需特征,再引導去噪過程。這樣的設計能更精準地處理不同類型的控制信息。
2. 運動軌跡表征:用簡單且準確的交互表征方式進行視頻運動的控制頗具挑戰。該模型提出一種生成器,它能從光流合成軌跡,并將其轉換為稀疏 RGB 點,作為模型訓練時的運動表示,有效提升了運動控制的準確性。
3. 空間內容控制表征:MotionBridge 不僅有傳統的軌跡控制,還增加了掩碼和引導像素等空間內容控制。用戶可以指定想要移動或保持靜止的區域,進一步降低生成過程中的歧義,提供更靈活的創作條件。
4. 訓練策略:面對多模態控制,常規訓練效果不佳。MotionBridge 采用 curriculum learning 策略,先給模型輸入更密集、簡單的控制,再逐漸過渡到更稀疏、高級的控制,確保模型能平穩學習各種控制方式。
對比實驗
1. 與 SOTA 的算法相比,MotionBridge 在沒有額外控制的干預下,可以生成更真實高質量的圖片細節。并且證實了在不同 DiT 架構下的普適性。
2. 消融研究
a. 對于算法提出的分類編碼融合(dual-branch)和 curriculum learning,文中也進行了實驗。可以看出其設計對于模型理解軌跡控制輸入以及視頻生成質量起到了至關重要的作用。
b. 掩碼(mask)的作用:定性實驗表明在一些情況下,mask 的使用可以讓模型更容易感知到主體,并且讓用戶可以以盡量少的交互達到想要的效果。比如當只有一個運動軌跡時,因為過于稀疏,狐貍的跳起空間有限。當額外將 mask 輸入,狐貍的跳躍便更加連貫自然。而用戶也不需要像之前的工作一樣提供過多的軌跡筆畫反復調試。
更多技術細節,對比實驗請參考原文:https://motionbridge.github.io/static/motionbridge_paper.pdf
視頻:https://motionbridge.github.io/static/motionbridge_1.mp4