成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了

發布于 2025-5-28 09:05
瀏覽
0收藏

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

論文鏈接:https://arxiv.org/pdf/2505.10238 

代碼鏈接:https://github.com/DINGYANB/MTVCrafter

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

亮點直擊

  • MTVCrafter,首個直接建模原始4D動作(而非2D渲染姿態圖像)用于開放世界人像動畫生成的流程,實現了復雜三維世界中的動畫生成。
  • 4DMoT,一種新穎的 4D 動作tokenizer,能夠將原始人體動作數據編碼為緊湊而富有表現力4D 動作token,相較于 2D 圖像表示提供了更穩健的時空引導。
  • 設計了MV-DiT,一種具備運動感知能力的視頻 DiT 模型,配備了獨特的 4D 動作注意力機制和 4D 位置編碼,從而實現了由 4D 動作 token 有效引導的動畫生成。
  • MTVCrafter 在 TikTok 基準上實現了SOTA性能,在 FID-VID 指標上超越第二名達65%

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

圖1,MTVCrafter 還具有良好的泛化能力,能夠適應未見過的動作和角色,包括單人或多人、全身或半身角色,覆蓋多種風格和場景。

總結速覽

解決的問題

現有人像動畫方法的局限性:當前方法主要依賴于二維渲染的姿態圖像進行動作引導,這種方式存在兩個主要問題:

  • 泛化能力差:二維圖像難以適應多樣化角色和開放世界場景。
  • 三維信息缺失:忽略了真實動作中的三維結構,限制了動畫的真實感與表現力。

提出的方案

  • MTVCrafter 框架:首個直接建模原始三維動作序列(即 4D 動作)的通用人像動畫生成框架,能夠在復雜的三維世界中生成高質量動畫。
  • 核心思想:不再使用 2D 姿態圖像作為中間表示,而是引入更加緊湊且表達力強的4D 動作 token,從而提供更穩健的時空提示。

應用的技術

  • 4DMoT(4D Motion Tokenizer)
  • 將三維動作序列量化為 4D 動作 token。
  • 提供更強的時空引導信息,避免像素級對齊問題,實現更靈活的控制。
  • MV-DiT(Motion-aware Video DiT)
  • 基于 DiT 架構的視頻生成模型。
  • 引入4D 動作注意力機制 和 4D 位置編碼,有效融合動作 token,用于指導視頻生成。

達到的效果

  • 生成質量領先:在 TikTok基準測試集上,MTVCrafter 在FID-VID 指標上達到 6.98,**超越第二名 65%**,實現當前SOTA性能。
  • 強泛化能力
  • 支持單人/多人全身/半身角色。
  • 適用于多種風格和復雜場景,能夠處理未見過的動作和角色。
  • 推動領域發展:首次實現基于原始 4D 動作的人像視頻生成,為姿態引導視頻生成開辟了新方向。

方法

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

概述 

介紹了用于 4D 動作分詞的 4DMoT。所得到的 4D 動作 token 相較于 2D 渲染的姿態圖像展現出更強的時空提示能力。然后介紹MV-DiT,它在強大的 DiT 架構中利用 4D 動作 token 作為視覺上下文。該模型具有獨特的 4D 動作注意力機制,結合 4D 位置編碼和具備運動感知能力的無分類器引導(CFG),能夠實現由緊湊而富有表現力的 4D 動作 token 引導的開放世界動畫生成。

4D 動作分詞器

為了利用豐富的 4D 引導信息驅動人像圖像動畫,本文從驅動視頻中提取 SMPL序列作為條件輸入。盡管已有工作 [6, 8, 18] 也使用了 SMPL,但它們通常將 3D 網格簡單渲染為 2D 圖像作為條件,這種方式在開放世界動畫中常常導致運動表示不足,如下圖 2 所示。相比之下,本文直接將原始 SMPL 序列分詞為 4D 動作 token。首先,構建 SMPL 動作-視頻序列的訓練數據集。然后,設計了一個 4D 動作 VQVAE(見圖 3)來學習無噪聲的動作表示。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

4DMoT 的模型架構  由于 VQVAE 架構被廣泛應用于下游任務中的離散分詞[24, 79, 80],采用并構建了其結構。如下圖 3 所示,4DMoT 包含一個用于動作序列重建的編碼器-解碼器結構,以及一個輕量級的量化器用于學習離散的動作 token。編碼器-解碼器在 4D 動作中保持時空一致性,而量化器則使得學習緊湊而富有表現力的 4D 動作表示成為可能。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

四維動作視頻擴散 Transformer

在獲得 4D 動作 token 后,目標是有效地利用它們進行人物圖像動畫生成。本節將介紹如何將 4D 動作 token 作為條件集成到視頻 DiT 模型中。設計包含四個關鍵組件:參考圖像保留、4D 位置編碼、4D 動作注意力以及具備運動感知的無分類器引導。


參考圖像保留  在人物圖像動畫中,保持視覺和時間一致性仍然是一項關鍵挑戰。與之前的方法 [2, 6, 7, 15, 19] 不同,這些方法使用與去噪模型結構相同的參考網絡來單獨學習參考圖像,本文的 MV-DiT 采用了一種簡單而有效的重復-拼接策略。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

這些拼接后的隱空間表示隨后被劃分為小塊并投影,以匹配注意力 token 的維度。得益于 DiT 中的 3D 全自注意力機制,模型在生成過程中可以直接與參考圖像特征進行交互,從而無需額外的參考網絡即可高效地保留身份信息。

4D 位置編碼  為了增強 4D 動作 token 的時空信息,引入了簡潔的 4D RoPE,它結合了 1D 時間和 3D 空間的 RoPE。與標準的3D表達形式[30, 33]不同,4D RoPE 能夠捕捉到更優的4D動作位置信息:

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

注意力機制的公式如下:

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

4 實驗

數據集與指標  遵循先前的工作 [2, 21, 62],使用 TikTok 數據集中的序列 335 到 340 進行測試。評估基于六個指標:圖像級指標包括峰值信噪比(PSNR)、結構相似性指數(SSIM)、感知圖像補丁相似性(LPIPS)、Fréchet Inception 距離(FID);視頻級指標包括視頻級 FID(FID-VID)和 Fréchet 視頻距離(FVD)。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

SOTA 對比

本文進行了與現有方法的定性和定量對比。定性對比如上圖 1 和下圖 5 所示,MTVCrafter 在姿態準確性和身份一致性方面展現了最佳的動畫表現。此外,MTVCrafter 具有強大的泛化能力,能夠處理單人或多人、全身或半身的外觀,以及多樣的風格、動作和場景。更重要的是,即使目標姿態與參考圖像不對齊(例如下圖 5 中的牛仔),MTVCrafter 依然表現出穩健性,說明其能夠有效地將動作從驅動視頻中解耦。這一問題無法通過 Champ [18] 或 UniAnimate [63] 等簡單嘗試將姿態重定向以匹配參考圖像比例的方法從根本上解決。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

在定量對比中,如下表 1 所示,MTVCrafter 在 TikTok 數據集上在所有指標上均取得了最優性能,尤其是在 FID 和 FID-VID 上表現突出。這突顯了直接建模動作序列而非渲染姿態圖像的優勢。對于 SSIM 和 PSNR,各方法結果相近,差異不大,因為這些是面向圖像超分辨等任務的低級指標。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

消融實驗

為了驗證本文關鍵設計的有效性,本文對 4D 動作分詞器(MT)、4D 動作注意力(MA)和 CFG 進行了消融實驗。如下表 2 所示,本文通過修改或移除特定組件來評估不同變體,并測量它們在 TikTok 數據集上的影響。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

動作分詞器(MT)  研究了移除向量量化器的影響。沒有量化時,VQVAE 退化為一個標準的自動編碼器,直接處理連續且不一致的動作特征,導致性能下降(例如,上表 2 中 FID-VID 從6.98上升到9.79 )。這證實了使用離散且統一的動作 token 對于穩定動作學習至關重要。此外,量化還有助于提升開放世界動畫的泛化能力。

動作注意力(MA)  探索了多種位置編碼(PE)設計用于動作注意力模塊:

  • 動態 PE 使用第一幀的關節點坐標計算 RoPE,但由于不穩定性和訓練困難表現較差;
  • 可學習 PE 難以收斂,未能提供可靠的位置提示;
  • 一維時間 RoPE 僅在時間軸上應用 RoPE;
  • 三維空間 RoPE 僅在空間軸上應用 RoPE。這兩種方式都未能建模完整的 4D 依賴關系,導致如身份漂移或抖動等視覺偽影;
  • 無 PE 完全移除位置編碼,整體表現最差(FVD:235.57 對比140.60 ,SSIM:0.717 對比0.784 ),突出顯示了顯式位置信息的重要性。


為了更好地說明效果,在下圖 6 中提供了可視化消融。圖中生動展示了分詞器和 4D RoPE 的有效性,帶來了更好的動作質量和角色保真度。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

運動感知的無分類引導(CFG)  下圖 7 展示了運動感知 CFG 比例w的定性和定量評估。在 TikTok 基準上,CFG 比例為3.0時表現最佳,尤其是在 FVD 指標上。對于 FID-VID 指標,該比例的影響較小。在右側的可視化對比中,增加 CFG 比例增強了姿態對齊,但也引入了更多偽影,并可能降低視頻質量。

數字人動畫革命!全球首創4D運動建模技術,超越第二名65%的爆款黑科技MTVCrafter來了-AI.x社區

結論

MTVCrafter,一個新穎的框架,直接對原始動作序列進行 token 化,而不是依賴于二維渲染的姿態圖像進行人物視頻生成。通過在 DiT 中集成 4D 動作 VQVAE 和動作注意力,MTVCrafter 有效地保持了時空一致性和身份保真度,同時實現了角色與動作的解耦。實驗顯示其在多樣角色與動作上的 SOTA 表現和強泛化能力,為該領域設立了新的范式。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/2TDaFIf6piG6AXDsf0RfGg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产在线网址 | av一区二区三区四区 | 在线色网| 中文二区| 蜜桃视频一区二区三区 | www.4hu影院 | 一区二区三区四区在线视频 | 91精品国产色综合久久 | 国产一区二区三区精品久久久 | 日韩在线大片 | 岛国视频| 精品毛片在线观看 | 国产精品综合一区二区 | 99riav国产一区二区三区 | 91一区二区三区在线观看 | 日本不卡一区 | 久久成人综合 | 天天久| 国产欧美一区二区三区日本久久久 | 羞羞在线视频 | 日韩欧美天堂 | 三级高清 | 色噜噜亚洲男人的天堂 | 国产小视频自拍 | 亚洲网站在线观看 | 欧美日韩国产一区二区三区 | 蜜桃毛片| 久久免费小视频 | 国产日韩一区二区三免费 | 四虎影视免费在线 | 丁香综合 | 精品成人佐山爱一区二区 | 国产高清精品一区二区三区 | 久久久久国产 | 国产精品久久久爽爽爽麻豆色哟哟 | 日韩亚洲欧美综合 | 久久久精品网站 | 成人av色 | 超级乱淫av片免费播放 | 午夜激情免费 | 欧美日韩综合 |