成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散 精華

發布于 2024-11-15 10:38
瀏覽
0收藏

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

文章鏈接:https://arxiv.org/pdf/2411.08656
項目鏈接:https://kebii.github.io/MikuDance/

亮點直擊

  • 提出混合運動建模(Mixed Motion Modeling),用于在統一的逐像素空間中顯式建模角色和相機運動,從而有效地表示高動態運動。
  • 利用混合控制擴散(Mixed-Control Diffusion)隱式對齊角色的形狀、姿勢和比例與運動引導,從而實現人物造型動畫的連貫運動控制。
  • 大量實驗表明,MikuDance的有效性和泛化能力,相較于最新的方法,能夠實現更高質量的動畫和高動態運動控制

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

總結速覽

要解決的問題

MikuDance 針對人物造型動畫中的兩個主要難題:高動態運動參考引導錯位問題

提出的方案

  1. 混合運動建模(Mixed Motion Modeling):通過場景運動跟蹤策略(Scene Motion Tracking)對動態相機進行逐像素建模,實現角色與場景的統一運動建模。
  2. 混合控制擴散(Mixed-Control Diffusion):隱式地對多樣角色的比例和體型進行運動引導對齊,從而靈活控制角色的局部運動。

應用的技術

  1. 場景運動跟蹤策略(Scene Motion Tracking):顯式建模動態相機,進行像素級空間的角色-場景運動建模。
  2. 運動自適應歸一化模塊(Motion-Adaptive Normalization Module):將全局場景運動注入角色動畫中,支持全面的人物造型動畫生成。

達到的效果

通過大量實驗,MikuDance 展現了其在各種人物造型和運動引導場景中的有效性和泛化能力,生成的動畫具有顯著的運動動態效果和高質量的動畫表現。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

方法

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

Stable Diffusion的預備知識

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

與現有的人物圖像動畫方法 [3, 14, 36] 類似,本文使用基于圖像的姿勢序列作為角色的運動引導。與以往直接提取角色全身姿勢的方法不同,分別提取身體、面部和手部的姿勢,使得面部和手部成為可選項,從而實現更靈活的運動控制。然而,角色動畫通常涉及整個場景的高動態運動,以增強敘事的視覺效果。傳統的姿勢序列僅提供角色的運動引導,缺乏對背景動態的表示。為了解決這一問題,引入了場景運動跟蹤策略(Scene Motion Tracking)。

場景運動跟蹤(Scene Motion Tracking, SMT)

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

值得注意的是,SMT 策略在兩個關鍵方面與視頻生成方法中常用的光流有所不同:首先,SMT 提取的場景運動與驅動視頻的內容無關,而光流則依賴于內容。其次,SMT 跟蹤的是點云中的 3D 點,而光流僅跟蹤圖像域中的像素運動,未考慮實際的 3D 場景。因此,SMT 策略提供了獨立的相機動態信息,這對于人物造型動畫中的連續背景運動至關重要。

在提出的 SMT 過程中,假設角色和場景在第一個相機中是靜止且標準化的。然而,在人物造型術動畫的實際應用中,參考場景通常與驅動視頻的相機比例不一致,并且每一幀中的角色姿勢各不相同。無法顯式地消除這種不確定性,因此需要模型在角色姿勢和藝術圖像的引導下進行隱式感知。因此,在下一節提出了混合控制擴散(Mixed-Control Diffusion)。

混合控制擴散

混合控制擴散的概念是將角色和場景的所有運動引導混合并融合到一個統一的參考空間中,從而實現對動畫的對齊運動控制。


如前面圖 2 所示,從 Animate Anyone 獲得啟發,使用預訓練的 SD-1.5 作為基礎去噪 UNet,并復制一份作為參考 UNet,以實現可控的圖像到視頻生成。不同于 Animate Anyone 及其他相關工作,消除了用于運動引導的單獨編碼器,同時使用 VAE 編碼器對參考人物造型、參考姿勢和所有角色姿勢引導進行編碼,并將它們嵌入到同一潛在空間中。接下來,將所有嵌入的引導在通道維度上串聯起來,以作為混合控制參考 UNet 的輸入。

為了適應這種混合輸入,我們擴展了參考 UNet 中輸入卷積層的通道,并用零卷積權重初始化新增參數。此外,參考圖像通過 CLIP 圖像編碼器嵌入,并在去噪 UNet 和參考 UNet 的交叉注意力操作中作為關鍵特征。此過程在現有工作中常用,因此在圖 2 中被省略。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

借助提出的混合運動建模(Mixed Motion Modeling)和混合控制擴散(Mixed-Control Diffusion),并在參考 UNet 的每個下采樣塊后集成 MAN 模塊,我們概述了 MikuDance 的完整流程。此外,為了增強 MikuDance 適應各種人物造型風格和大規模相機運動動態的能力,我們在下一節提出了一種混合源訓練方法。

混合源訓練方法

考慮到圖像動畫是一個數據密集型任務,提出一個有效的數據和訓練流程與模型本身同樣重要。在 MikuDance 中,如下圖 4 所示,采用了一個包含兩個階段的混合源訓練方法。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

在第一階段,訓練在成對的視頻幀上進行,此時不引入參考 UNet 的 MAN 模塊或去噪 UNet 的時間模塊。與現有方法 [14, 37] 不同,是通過在空間維度上拼接初始幀來隨機混合風格化的成對幀,并利用深度和邊緣控制的動漫 SDXL 模型(稱為 SDXL-Neta)來傳遞藝術風格,同時保留圖像內容。此外,為了模擬推理過程中參考人物造型與驅動姿勢無關的情況,隨機選擇與目標序列無關的參考幀。


在第二階段,我們將 MAN 模塊和時間模塊加入到混合控制擴散模型中,而其他參數在此階段保持凍結。此階段的訓練數據由混合的 MMD 視頻片段和不包含角色的相機運動視頻組成。重要的是,在兩個階段的訓練中隨機丟棄姿勢和運動引導,以增強 MikuDance 的魯棒性。

實驗

數據集 為了訓練 MikuDance,收集了一個包含 3,600 個由藝術家創建的 MMD 視頻數據集,所有視頻均由 3D 模型渲染生成。我們將這些視頻分成大約 120,000 個片段,共包含超過 1,020 萬幀。此外,在第二階段的訓練中,還加入了約 3,500 個無角色的相機運動視頻。為了進行定量評估,使用了未包含在訓練集中的 100 個 MMD 視頻,并將其首幀作為參考圖像。人物姿勢和相機姿勢提取分別采用 Xpose 和 DROID-SLAM。對于定性評估,所有人物造型均使用 SDXL-Neta 隨機生成,且訓練期間未見過驅動視頻。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

定性結果

與基線方法的比較 將 MikuDance 與最近的人像視頻生成方法進行比較,包括 Animate Anyone (AniAny)、DISCO、MagicPose 和 UniAnimate,這些方法均在其官方報告中聲稱具備對動漫風格角色進行動畫生成的能力。此外,通過在 MMD 視頻數據集上微調模型實現了 AniAny*。


下圖 5 的結果顯示,AniAny、MagicPose 和 UniAnimate 無法解決角色形狀和比例的錯位,導致輸出中的角色變形。盡管 DISCO 使用獨立的 ControlNet 來處理背景和前景特征,但在為人物造型生成動畫時,其結果出現了場景崩潰現象。盡管 AniAny* 在動漫風格數據集上進行了專門微調,但由于未考慮背景場景的運動,其結果在高動態運動中仍然存在模糊,改進有限。值得注意的是,MikuDance 有效處理了復雜的參考和運動引導,呈現出高質量且生動的動畫效果。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

高動態運動 

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

參考引導對齊誤差 MikuDance 的另一個重要貢獻在于其對參考角色與運動指導的隱式對齊處理。下圖 7 展示了兩個存在顯著空間和尺度錯位的示例。在這種情況下,現有方法(如 AniAny)難以有效地為參考角色生成動畫,而 MikuDance 成功處理了這些復雜性,生成了連貫的動畫。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

多樣化的形狀和比例 MikuDance 有效地處理了角色形狀和比例的多樣性。如下圖 8 左側所示,不同體型、各種姿勢和不同服裝的角色均能被相同的運動指導精確驅動。在圖 8 右側,MikuDance 展現了其對不同尺度角色的隱式對齊能力,保留每個角色的獨特特征并生成合理的動畫效果。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

對多種藝術風格的泛化能力 如下圖 9 所示,MikuDance 通過我們的混合源訓練方法,能夠處理多種藝術風格,包括但不限于賽璐璐、古典風格和線條素描。這種高度的泛化能力為實際應用開辟了廣闊前景。


消融實驗 本文進行消融實驗以驗證 MikuDance 的關鍵設計,包括混合控制架構 (MIX)、MAN 模塊和 SMT 策略,結果如下圖 10 所示。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

為了評估混合控制設計,實現了一個受到 AniAny 啟發的pipeline (無 MIX),該pipeline 使用獨立的 Reference UNet 處理參考圖像,并使用兩個 ControlNets 分別適配角色和場景的運動指導。結果表明,這種傳統的pipeline 未能處理人物造型和驅動指導之間的尺度差異,導致角色的面部和姿勢出現錯位。


為了評估 MAN 模塊的有效性,實現了一個不使用 MAN 的pipeline (無 MAN),該pipeline 將場景運動與角色運動簡單拼接,并將它們一起輸入到 Reference UNet 中。雖然這種方法比沒有場景運動指導(無 SMT)的pipeline 效果更好,但仍然不如 MikuDance 的效果。這是因為 MAN 模塊通過空間感知歸一化注入全局運動,有效地補充了局部運動。


為了評估 SMT 策略,本文進行了三項實驗:一個不包含場景運動的pipeline (無 SMT),以及兩個分別使用 Plücker 嵌入(w/ Plücker)和光流(w/ Flow)替代場景運動的pipeline 。然而,這些替代方法的結果比我們的 SMT 策略差,動態背景出現了明顯的偽影和不一致性。SMT 提取的逐像素場景運動被證明是更有效的背景運動引導表示,因為它與角色運動指導具有領域一致性。


與上述消融實驗相比,MikuDance 能有效應對動畫人物造型中的錯位和高動態挑戰。

定量結果

下表1展示了 MikuDance 與基線方法之間的定量比較。需要注意的是,本文報告的度量值低于先前研究中的度量值,因為我們測試視頻中的整個場景高度動態,與早期數據集中使用的靜態背景不同。盡管如此,結果仍然表明,MikuDance 在所有圖像和視頻指標上都達到了最先進的性能。此外,消融實驗結果確認了 MikuDance 關鍵設計元素的有效性。總之,通過結合提出的混合運動動態技術,MikuDance 可以動畫化各種角色,并生成高質量的圖像和視頻結果。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

用戶研究。邀請了50名志愿者,并給他們提供了20個視頻,用于評估MikuDance 相對于基線方法的表現。每個視頻包括一個運動指導和四個匿名動畫結果。要求用戶對四個結果在整體質量、幀質量和時間質量上進行排名。在排除異常問卷后,各方法的平均排名總結如圖11所示。MikuDance 顯著優于基線方法,超過97%的用戶更喜歡由 MikuDance 生成的動畫。

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

人物造型動畫生成最新SOTA!階躍星辰等提出MikuDance:混合運動建模和混合控制擴散-AI.x社區

結論

MikuDance,這是一種新型動畫pipeline ,旨在為戶外人物造型生成高動態動畫。MikuDance 融入了兩項關鍵技術:混合運動建模和混合控制擴散。混合運動建模能夠在統一的參考空間中表示大規模的角色和場景運動,而混合控制擴散則解決了角色與運動指導之間的錯位問題。為了支持多種藝術風格,還采用了混合源訓練方法,以增強其泛化能力。大量實驗表明,MikuDance 在與基線方法的比較中,達到了最先進的性能。


局限性。一些生成的動畫存在背景扭曲和偽影。這一問題源于圖像動畫中的3D無關挑戰,使得在動態相機下的場景重建成為一個病態問題,亟需進一步的研究。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/1N-OVe-uXDgVXsxuZaphrg??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 一区二区三区av夏目彩春 | 天堂影院av| 欧美videosex性极品hd | 欧美中文一区 | 日韩一区二区福利 | 国产区一区二区三区 | 午夜视频在线 | 国产黄色麻豆视频 | 久久精彩视频 | 亚洲视频一区在线观看 | 中文字幕欧美一区 | 亚洲精品成人 | 毛片区 | 一区二区国产在线 | 成人黄色在线视频 | 国产精品欧美一区二区 | 天天拍天天射 | 成人一区二 | 成人免费视频 | 极品电影院 | 成人免费视频网站在线看 | 色毛片| 在线观看电影av | 91成人午夜性a一级毛片 | 日本三级线观看 视频 | 欧美网址在线观看 | 亚洲一区二区三区免费在线观看 | 麻豆久久久9性大片 | 久久毛片网站 | 二区亚洲 | 国产视频二区 | 国产成人精品一区 | 国产性网 | 精久久久 | 亚洲精品永久免费 | 午夜精品导航 | 99精品久久久 | 99爱视频 | 精品国产一区二区三区日日嗨 | 久久久久国产 | 香蕉av免费 |