軌跡可控視頻生成新范式,復旦微軟破解視頻生成難題,精準控制任意物體運動
軌跡可控的視頻生成來了,支持三種不同級別的軌跡控制條件——分別為掩碼、邊界框和稀疏框。
近年來,視頻生成技術快速發展,顯著提升了視頻的視覺質量與時間連貫性。在此基礎上,(trajectory-controllable video generation)涌現了許多工作,使得通過明確定義的路徑精確控制生成視頻中的物體運動軌跡成為可能。
然而,現有方法在處理復雜的物體運動軌跡和多物體軌跡控制方面仍面臨挑戰,導致生成的視頻物體移動軌跡不夠精確,或者整體視覺質量較低。此外,這些方法通常僅支持單一格式的軌跡控制,限制了其在不同應用場景中的靈活性。不僅如此,目前尚無專門針對軌跡可控視頻生成的公開數據集或評價基準,阻礙了該領域的更進一步的深入研究與系統性評估。
為了解決這些挑戰,研究人員提出了MagicMotion,一種創新的圖像到視頻生成框架,共同第一作者為復旦大學研究生李全昊、邢楨,通訊作者為復旦大學吳祖煊副教授。
在給定一張輸入圖像和對應物體軌跡的情況下,MagicMotion能夠精準地控制物體沿著指定軌跡運動,同時保持視頻的視覺質量。
此外,本文構建了MagicData,一個大規模的軌跡控制視頻數據集,并配備了一套自動化的標注與篩選流程,以提升數據質量和處理效率。
本文還引入了MagicBench,一個專為軌跡控制視頻生成設計的綜合評測基準,旨在評估在控制不同數量物體運動情況下的視頻質量及軌跡控制精度。
大量實驗表明,MagicMotion在多個關鍵指標上均超越現有方法,展現出卓越的性能。
方法介紹
MagicMotion基于 CogVideoX5B-I2V 這一圖像到視頻生成模型,并引入了額外的軌跡控制網絡(Trajectory ControlNet)。該設計能夠高效地將不同類型的軌跡信息編碼到視頻生成模型中,實現軌跡可控的視頻生成。如圖所示,本文使用 3D VAE 編碼器將軌跡圖編碼到隱空間,然后將其與編碼后的視頻拼接,作為軌跡控制網絡的輸入。軌跡控制網絡由所有預訓練的 DiT 模塊的可訓練副本構建而成,用于編碼用戶提供的軌跡信息。每個軌跡控制網絡模塊的輸出隨后會通過一個零初始化的卷積層進行處理,并添加到基礎模型中對應的 DiT 模塊,以提供軌跡引導。
MagicMotion采用了從密集軌跡控制到稀疏軌跡控制的漸進式訓練過程,其中每個階段都用前一階段的權重來初始化其模型。這使得能夠實現從密集到稀疏的三種類型的軌跡控制。本文發現,與使用稀疏條件從頭開始訓練相比,這種漸進式訓練策略有助于模型取得更好的性能。具體來說,本文在各個階段采用以下軌跡條件:階段 1 使用分割掩碼,階段 2 使用邊界框,階段 3 使用稀疏邊界框,其中少于 10 幀有邊界框標注。此外,本文總是將軌跡條件的第一幀設置為分割掩碼,以指定應該移動的前景對象。
此外,MagicMotion還提出了隱分割損失(latent segment loss),它在模型訓練過程中引入分割掩碼信息,增強了模型對物體細粒度形狀的感知能力。研究者使用輕量級分割頭直接在隱空間中預測出分割掩碼,從而在引入極小計算開銷的情況下,無需進行解碼操作,幫助模型在生成視頻的同時在潛在空間中執行物體分割任務,從而更好地理解物體的細粒度形狀。
研究者還提出了一個全新的自動數據處理流程,包括兩個主要階段:數據整理流程(Curation Pipeline)和數據篩選流程(Filtering Pipeline)。數據整理流程負責從大規模的視頻-文本數據集中構造軌跡信息,而數據篩選流程則確保在訓練前移除不適合的視頻。
實驗與結果
MagicMotion的每個階段都在MagicData上訓練一個輪次。訓練過程包括三個階段。階段1從零開始訓練軌跡控制網絡(Trajectory ControlNet)。在階段2中,使用階段1的權重進一步優化軌跡控制網絡(Trajectory ControlNet),同時從零開始訓練分割頭(Segment Head)。最后,在階段3中,軌跡控制網絡(Trajectory ControlNet)和分割頭(Segment Head)都使用階段2的權重繼續訓練。研究者采用AdamW作為優化器,所有訓練實驗均在 4 張 NVIDIA A100-80G GPU 上進行,學習率設為 1e-5。
研究者將MagicMotion與7種流行的軌跡可控圖像到視頻(I2V)方法進行了對比,在MagicBench和DAVIS上對所有方法進行評估。
結果如下表所示,MagicMotion在MagicBench和DAVIS上的所有指標上都優于以往的所有方法,這表明它能夠生成更高質量的視頻并實現更精確的軌跡控制。
此外,本文根據受控對象的數量評估了每種方法在MagicBench上的性能。如下圖所示,MagicMotion方法在所有受控物體數量的類別中都取得了最佳結果,進一步證明了該方法的優越性。
定性對比結果
如下圖所示,Tora能夠精準控制運動軌跡,但難以精確保持物體的形狀。DragAnything 、ImageConductor 和 MotionI2V 在 保持主體一致性方面存在困難,導致后續幀中出現明顯的形變。同時,DragNUWA、LeviTor 和 SG-I2V生成的結果經常出現視頻質量底下和細節不一致的問題。相比之下,MagicMotion能夠使移動的物體平滑地沿指定軌跡運動,同時保持高質量的視頻生成效果。
論文地址:https://arxiv.org/abs/2503.16421