成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta新視頻生成框架拿捏倒立雜技,雙人舞也能完美同步!運動一致性暴增近20%,可無縫集成DiT模型

人工智能 新聞
VideoJAM在處理運動場景時,不僅視覺上效果更好,也更加貼合物理規律。

針對視頻生成中的運動一致性難題,Meta GenAI團隊提出了一個全新框架VideoJAM

VideoJAM基于主流的DiT路線,但和Sora等純DiT模型相比,動態效果直接拉滿:

哪怕變化又大又迅速、動作又復雜的舞蹈,也看起來像真的一樣,而且還是兩個人同步:

像倒立這樣的操作,同樣可以輕松駕馭:

而且不需要額外數據或縮放,就能無縫集成到不同規模的DiT模型當中,帶來運動效果的提升。

有網友表示,第一眼看上去就和真的一樣,也許到今年年底,我們看不到區別了。

運動效果超越Sora、Gen3

VideoJAM在處理運動場景時,不僅視覺上效果更好,也更加貼合物理規律。

比如吹滅蠟燭時火苗的晃動,以及漸進式的熄滅過程,連燃燒產生的白煙也沒有落下:

寫書法時毛筆的運動處理得也很精細,并且做到了筆跡和紙上的字跡同步(雖然不知道寫的是什么)

還有用手捏史萊姆時的形狀變化,以及內部產生的流體效果,連手松開時的粘連效果也體現了出來:

甚至是三個球來回拋的雜技表演,也能很好地體現出拋物線軌跡:

另外,作者也針對文本/外觀/運動一致性、視頻質量等指標,在4B和30B的DiT模型上分別運用VideoJAM進行了評估,并與主流視頻生成模型進行了對比。

結果在4B和30B規模下,相比于原始的DiT模型,運動質量從78.3和88.1,分別提升到了93.7和92.4,提升比例分別為19.67%和4.88%。

并且應用VideoJAM后,運動質量也超過了Gen3、Sora等其他對比模型。

那么,VideoJAM是如何做到的呢?

訓練中引入運動信息

在訓練和推理階段,VideoJAM針對經典的DiT架構都進行了一定補充。

具體來說,在訓練階段,VideoJAM采用了聯合外觀-運動表示(Joint Appearance-Motion Representation)

通過在模型中引入額外的運動預測任務,讓模型在生成視頻的同時也學習如何預測對應的運動。

為實現聯合外觀-運動表示,VideoJAM對現有視頻生成模型進行了兩處關鍵性改動,添加了輸入和輸出兩個線性投影層。

  • 輸入投影層將外觀特征(視頻幀的表示)和運動特征拼接后映射到模型的隱藏空間,形成一個聯合的潛在表示,這個潛在表示融合了靜態外觀信息和動態運動信息。
  • 輸出投影層則從模型的聯合潛在表示中,分別解碼出視頻的外觀預測和運動預測,其中外觀預測用于生成最終的視頻幀,運動預測則用來評估模型對時間一致性的理解。

在這一過程當中,運動是用光流(Optical Flow),也就是視頻幀之間像素的位移的形式進行表示的。

處理時,VideoJAM將光流轉換成RGB格式,像素運動方向被映射為色調,強度則被映射為亮度或透明度,使其可以像普通視頻一樣被模型處理。

這種處理方式無需額外訓練復雜的運動編碼器,且兼容性強,可以方便地嵌入到現有的視頻生成模型中。

到了推理階段,VideoJAM采用了內部引導機制(Inner-Guidance Mechanism),進一步增強生成視頻的運動一致性。

這種機制不依賴外部條件,而是使用模型自身在每個生成步驟中預測的運動信息來動態調整生成過程,可以實時捕捉生成視頻的動態變化。

和其他擴散模型一樣,生成視頻的初始輸入是隨機噪聲,模型首先對噪聲進行處理,生成初步的視頻幀和對應的運動預測。

生成過程中,模型會使用當前幀的運動預測作為指導信號,調整下一個時間步的生成方向。

這種反饋機制之下,模型不斷審視自己生成的動作是否連貫,并在發現不一致時自動進行調整。

具體到生成進程,可以分成兩個階段,內部引導主要應用在其中第一個:

  • 粗略階段:在生成初期(大約前50%的步驟),重點關注大范圍的運動連貫性,如整體方向和節奏。
  • 細化階段:在生成后期,轉向優化細節,如肢體動作的微調和物體交互的物理合理性。

消融實驗表明,作者采用的光流表示和內部引導機制正是VideoJAM實現高運動一致性的關鍵。

論文地址:
https://arxiv.org/abs/2502.02492項目主頁:
https://hila-chefer.github.io/videojam-paper.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-03-03 08:32:00

模型AI訓練

2025-05-06 09:41:06

2024-01-22 08:59:00

AI

2014-05-09 10:29:19

TD-LTELTE FDD4G

2017-07-25 14:38:56

數據庫一致性非鎖定讀一致性鎖定讀

2022-12-14 08:23:30

2024-04-23 08:22:58

Meta緩存系統

2020-06-01 22:09:48

緩存緩存同步緩存誤用

2024-08-20 16:13:52

2021-02-05 08:00:48

哈希算法?機器

2021-02-02 12:40:50

哈希算法數據

2025-03-11 10:15:00

模型視頻生成

2025-01-09 13:30:00

2024-03-20 00:00:00

StabilityAI開源人工智能

2021-07-28 08:39:25

分布式架構系統

2019-10-24 10:42:00

CPU內存存儲器

2025-03-27 09:24:16

2020-11-24 09:03:41

一致性MySQLMVCC

2020-05-12 10:43:22

Redis緩存數據庫

2021-06-30 21:13:49

CPUCache數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品国产乱码久久久久久中文 | 日韩免费电影 | 又黄又爽的网站 | 久产久精国产品 | 国产高清精品在线 | 国产精品美女久久久免费 | 在线资源视频 | 中文字幕在线三区 | 国产精品美女久久久免费 | 欧美情趣视频 | 亚洲精品18 | 欧美综合久久久 | 999久久久久久久久6666 | 久久99精品久久久久久国产越南 | 国产在线成人 | 一区二区三区中文字幕 | 亚洲精品在线免费观看视频 | 99热激情| 国产欧美精品一区二区三区 | 国产精品欧美一区二区三区 | 伊伊综合网| 国产在线观 | 国产一区二区三区四区 | 天天射影院| 2019天天干夜夜操 | 巨大黑人极品videos精品 | 久久久久中文字幕 | 九七午夜剧场福利写真 | 天天玩天天操天天干 | 亚洲精品久久久一区二区三区 | 国产乱码精品一品二品 | 亚洲福利视频网 | 欧美激情一区二区三级高清视频 | 777zyz色资源站在线观看 | 色吧综合网| 亚洲另类视频 | 精品久久久久久 | 欧美久久一级 | 99视频在线| 日韩不卡在线 | 一级黄色片在线免费观看 |