成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成 精華

發布于 2024-8-2 09:52
瀏覽
0收藏

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

論文鏈接:https://arxiv.org/pdf/2407.21705
項目鏈接:https://ali-videoai.github.io/tora_video/

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

亮點直擊

  • 本文引入了Tora,這是第一個軌跡導向的DiT用于視頻生成。如下圖2所示,Tora無縫整合了廣泛的視覺和軌跡指令,從而能夠熟練地創建可操控運動的視頻。
  • 為了與DiT的可擴展性保持一致,本文設計了一種新穎的軌跡提取器和運動引導融合機制,以獲取時空運動塊,隨后將這些塊注入DiT塊中。本文對幾種架構選擇進行了消融實驗,并為未來基于DiT的運動控制研究提供了實證基線。
  • 實驗表明,Tora能夠生成具有不同縱橫比的720p分辨率視頻,最長可達204幀,所有這些都由指定的軌跡引導。此外,它在模擬物理世界中的運動方面表現出色。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

最近在 Diffusion Transformer (DiT) 方面的進展展示了其在生成高質量視頻內容方面的卓越能力。然而,基于transformer的擴散模型在有效生成具有可控運動的視頻方面的潛力仍然是一個探索有限的領域。本文介紹了Tora,這是第一個軌跡導向的DiT框架,它同時整合了文本、視覺和軌跡條件用于視頻生成。具體來說,Tora由軌跡提取器 (TE)、時空DiT和運動引導融合器 (MGF) 組成。TE通過3D視頻壓縮網絡將任意軌跡編碼為分層時空運動塊。MGF將運動塊整合到DiT塊中,以生成遵循軌跡的一致視頻。本文的設計與DiT的可擴展性無縫對接,允許對視頻內容的動態進行精確控制,支持多種時長、縱橫比和分辨率。大量實驗表明,Tora在實現高運動保真度方面表現出色,同時還精細地模擬了物理世界的運動。

方法

Preliminary

潛在視頻擴散模型(Latent Video Diffusion Model, LVDM)。LVDM通過集成3D U-Net增強了Stable Diffusion模型,從而提升了視頻數據處理的效率。這個3D U-Net設計在每個空間卷積中增加了一個額外的時間卷積,并在每個空間注意力塊之后跟隨相應的時間注意力塊。它通過噪聲預測目標函數進行優化:

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

Tora

Tora 采用 OpenSora 作為其 DiT 架構的基礎模型。為了在不同持續時間內實現精確且用戶友好的運動控制,Tora 引入了兩個新的運動處理組件:軌跡提取器(Trajectory Extractor, TE)和運動引導融合器(Motion-guidance Fuser, MGF)。這些模塊用于將提供的軌跡編碼為多層次時空運動補丁,并將這些補丁精細地集成到 DiT 塊的堆疊結構中。Tora 的工作流程概述如下圖 3 所示。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

時空 DiT(ST-DiT) ST-DiT 架構包含兩種不同類型的塊:空間 DiT 塊(S-DiT-B)和時間 DiT 塊(T-DiT-B),它們以交替順序排列。S-DiT-B 包含兩個注意力層,每個注意力層依次執行空間自注意(Spatial Self-Attention, SSA)和交叉注意(Cross-Attention),然后是一個逐點前饋層,用于連接相鄰的 T-DiT-B 塊。值得注意的是,T-DiT-B 僅通過用時間自注意(Temporal Self-Attention, TSA)替換 SSA 來修改此架構,從而保持架構的一致性。在每個塊內,輸入在歸一化后,通過跳躍連接(skip-connections)連接回塊的輸出。通過利用處理可變長度序列的能力,去噪 ST-DiT 可以處理不同持續時間的視頻。


寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

運動引導融合器。 為了將基于 DiT 的視頻生成與軌跡相結合,本文探索了三種將運動塊注入每個 ST-DiT 塊的融合架構變體。這些設計如下圖 4 所示。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區


本文實驗了三種類型的融合架構,發現自適應歸一化表現出最佳的生成性能和計算效率。在本文的其余部分,MGF 使用自適應歸一化層,除非另有說明。

訓練策略和數據處理

為了在使用任意軌跡生成視頻時實現細粒度控制,以及文本、圖像或它們的組合,本文為不同的條件注入引入了幾種訓練策略。


運動條件訓練,受到 DragNUWA 和 MotionCtrl 的啟發,本文采用兩階段的訓練方法來進行軌跡學習。在第一階段,本文從訓練視頻中提取稠密光流作為軌跡,提供更豐富的信息以加速運動學習。在第二階段,為了使模型從完整的光流適應到更用戶友好的軌跡,本文根據運動分割結果和光流得分隨機選擇 1 到N個對象軌跡樣本。從稀疏軌跡中解決分散問題,本文應用高斯濾波進行細化。完成兩階段訓練后,Tora 能夠使用任意軌跡實現靈活的運動控制。


圖像條件訓練,本文遵循 OpenSora 使用的mask策略來支持視覺條件。具體來說,本文在訓練期間隨機解除幀的mask,未mask幀的視頻塊不受任何噪聲影響。這使得本文的 Tora 模型能夠無縫地將文本、圖像和軌跡整合到一個統一的模型中。


寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

實驗

定量和定性結果

本文將本文的方法與流行的運動引導視頻生成方法進行了比較。評估在三種設置下進行:16幀、64幀和128幀,所有幀的分辨率均為512X512,以確保公平比較。提供的軌跡被剪裁以適應不同評估的視頻長度。對于大多數基于U-Net的方法,本文采用序列推理,其中上一批生成的最后一幀作為當前批次的視覺條件,以符合其推理設置。如下表1所示,在基于U-Net的方法常用的16幀設置下,MotionCtrl和DragNUWA與提供的軌跡對齊較好,但仍不及本文提出的Tora。當幀數增加時,基于U-Net的方法在某些幀中表現出顯著的偏差,錯位誤差傳播并導致后續序列中的變形、運動模糊或對象消失。相比之下,Tora由于整合了transformer的縮放能力,對不同幀數表現出高度的魯棒性。Tora生成的運動更加平滑,并且更符合物理世界。當在128幀測試設置下進行評估時,Tora的軌跡準確性超過其他方法3到5倍,展示了其卓越的運動控制能力。在下圖5中,本文提供了不同分辨率和時長下的軌跡誤差分析。與基于U-Net的模型不同,后者隨時間推移表現出顯著的軌跡誤差,Tora的軌跡誤差僅隨時長增加而逐漸增加。這種誤差的逐漸增加與DiT模型在時長延長時觀察到的視頻質量下降相一致。結果清楚地表明,本文的方法在較長時長內保持了有效的軌跡控制。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

下圖6展示了本文提出的方法與主流運動控制技術的對比分析。在第一個場景中,涉及兩個人的共同運動,所有方法都能夠生成相對準確的運動軌跡。然而,本文的方法在視覺質量上表現出色。這一優勢主要歸功于使用了更長的序列幀,從而實現了更平滑的運動軌跡和更逼真的背景渲染。例如,在本文生成的自行車場景中,人類的腿部表現出真實的踩踏動作,而DragNUWA的輸出中腿部幾乎水平漂浮,違反了物理現實。此外,DragNUWA和MotionCtrl在視頻結尾處都出現了顯著的運動模糊。更進一步,盡管沒有攝像機運動條件,MotionCtrl在騎行序列中引入了意外的攝像機移動。在另一個案例中,隨著提供的軌跡不斷上升和下降,DragNUWA顯示了燈籠的嚴重變形。盡管MotionCtrl的軌跡相對準確,但生成的視頻未能匹配預期的兩個燈籠的描繪。總體而言,本文的方法不僅緊密遵循提供的軌跡,還最大限度地減少了物體變形,從而確保了更高保真度的運動表現。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

消融實驗

本文進行了若干消融研究以分析設計選擇的影響。所有模型均在480p分辨率、16:9寬高比和204幀的條件下進行評估。


軌跡壓縮。 為了將軌跡向量整合到與視頻片段相同的潛在空間中,本文研究了三種不同的軌跡壓縮方法,如下表2所總結的。第一種方法在連續的4幀區間內采樣中幀作為關鍵幀,并采用Patch-Unshuffle進行空間壓縮。盡管其簡單,但由于在遇到快速運動或遮擋時可能產生潛在的流估計誤差,這種方法在運動控制方面表現不佳。此外,所選幀間隔引起的片段間相似性放大,增加了學習難度。第二種方法使用平均池化來匯總連續幀。雖然這捕捉到了一般的運動感,但通過均質化軌跡的方向和幅度,它無意中犧牲了精度,從而稀釋了關鍵的運動細節。為了盡可能保留連續幀之間的軌跡信息,本文進一步使用3D VAE提取連續軌跡區間的全局上下文。軌跡數據被視覺化為RGB圖像格式,以利用現有的3D VAE權重。在大量軌跡視頻上進行廣泛訓練的這種設置下,產生了最有利的結果,強調了本文定制的3D VAE方法在軌跡壓縮中的有效性。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

設計塊和MGF的集成位置,本文按照之前描述的方法訓練了三種不同的MFG塊,結果如下表3所示。值得注意的是,自適應歸一化塊在FVD和軌跡誤差方面都比交叉注意力和額外通道條件方法更低,同時還表現出最高的計算效率。這種優勢歸因于其在不同條件下無需嚴格對齊的情況下進行動態特征適應的能力,這是交叉注意力常遇到的限制。此外,通過隨時間調節條件信息,它確保了時間一致性,這對于注入運動提示至關重要。相比之下,通道連接可能會導致信息擁塞,使運動信號的效果減弱。在訓練過程中,本文觀察到將歸一化層初始化為恒等函數對于實現最佳性能非常重要。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

此外,本文評估了MGF模塊在Spatial DiT和Temporal DiT塊中的集成位置。本文的研究結果表明,將MGFembeddingTemporal DiT塊中顯著增強了軌跡運動控制,軌跡誤差從23.39下降到14.25。這種方法提高了MGF與時間動態交互的效率,從而顯著改善了運動合成的保真度。


訓練策略。 本文評估了兩階段訓練方法的有效性,結果總結在下表4中。僅使用密集光流進行訓練效果不佳,因為它無法準確捕捉提供的稀疏軌跡中的復雜細節。另一方面,僅使用稀疏軌跡進行訓練提供的信息有限,使得學習過程更加困難。通過首先使用密集光流進行訓練,然后使用稀疏軌跡進行微調,本文的模型展示了對各種類型軌跡數據的更高適應性。這種方法不僅增強了整體性能,還提高了模型處理多樣化運動模式的能力。

寥寥數筆,動畫自成!阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成-AI.x社區

結論

本文介紹了Tora,這是第一個面向軌跡的擴散Transformer框架,用于視頻生成,集成了文本、圖像和軌跡條件。Tora有效地將任意軌跡編碼為時空運動塊,這與DiT的縮放特性相一致,從而實現了更逼真的物理世界運動模擬。通過采用兩階段訓練過程,Tora在各種持續時間、縱橫比和分辨率下實現了運動可控的視頻生成。值得注意的是,它可以生成符合指定軌跡的高質量視頻,最高可達204幀,分辨率為720p。這一能力突顯了Tora在處理多樣化運動模式時的多功能性和魯棒性,同時保持高視覺保真度。本文希望本文的工作為未來的運動引導擴散Transformer方法研究提供一個強有力的基線。


本文轉自 AI生成未來 ,作者:Zhenghao Zhang


原文鏈接:??https://mp.weixin.qq.com/s/QGz1sWZAgJQ02Ew96WcLtA??

已于2024-8-2 09:53:37修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 99热首页| 久久久久国产精品午夜一区 | 国产精品视频观看 | 国产精品永久久久久久久www | 欧美日韩国产免费 | www国产成人 | 高清色| 国产一级在线观看 | www.日韩av.com | 狠狠操天天操 | 欧美黄色一区 | 中文字幕高清 | 欧美一区二区三区精品免费 | av网站在线播放 | 国产精品一区二区视频 | 国产精品国产成人国产三级 | 6996成人影院网在线播放 | 一级免费看片 | 天天久久 | 欧美中文在线 | 久久天堂网 | 日韩久久久久久 | 精品欧美乱码久久久久久1区2区 | 91精品国产综合久久久动漫日韩 | 精品二三区 | 91久久精品日日躁夜夜躁欧美 | h视频免费在线观看 | 国产乡下妇女做爰 | 99久久精品免费视频 | 日韩高清av | 日日想夜夜操 | 精品欧美黑人一区二区三区 | 在线免费观看毛片 | 久久精品国产久精国产 | 青青艹在线视频 | 亚洲精品乱码 | 国产精品久久久久久久久久久久久 | 中文视频在线 | 久久久久国产一区二区三区 | 日韩高清一区 | 颜色网站在线观看 |