視頻生成新突破：PixelDance，輕松呈現(xiàn)復雜動作與炫酷特效

作者：機器之心 2023-11-24 12:10:43

近期，Meta 也發(fā)布了視頻生成模型 Emu Video。從 Emu Video 的官方示例中可以看出，其視頻的動態(tài)性比 Gen-2 有明顯提高，但仍然局限于較為簡單的動作。

最近，除了大語言模型繼續(xù)持續(xù)刷屏，視頻生成技術也取得了重大進展，多家公司相繼發(fā)布了新模型。

首先，作為最早探索視頻生成領域的領頭羊之一，Runway 升級了其 Gen-2 模型，帶來了電影級別的高清晰度，令人矚目，并稱視頻生成的一致性得到了重大改進。

但是，這種一致性的提升似乎是以犧牲視頻動態(tài)性為代價的。從 Gen-2 的官方宣傳視頻中可以看出，盡管集合了多個短片段，但每個片段的動態(tài)性相對較弱，難以捕捉到人物、動物或物體的清晰動作和運動。

開發(fā)出了經(jīng)典的文生圖模型 Stable Diffusion 的公司 Stability.ai，也于近日發(fā)布了開源視頻生成模型 Stable Video Diffusion (SVD)，引發(fā)了開源社區(qū)的大量關注和討論。SVD 效果能和 Gen-2 相當，通過測試樣例能看出 SVD 生成的視頻也相對缺少動態(tài)性。

SVD 論文里面提到了目前 SVD 生成的視頻存在動態(tài)性不足的情況。

上述示例表明，生成有高度一致性且有豐富動態(tài)性的視頻，讓視頻內容真正地動起來，是目前視頻生成領域中的最大挑戰(zhàn)。

在這方面，最新的研究成果 PixelDance 邁出了關鍵性的一步，其生成結果的動態(tài)性顯著優(yōu)于目前現(xiàn)有的其它模型，引起了業(yè)界的關注。

Twitter知名AI博主@_akhaliq轉發(fā)的PixelDance新聞已有近8萬瀏覽量。

在官網(wǎng)（https://makepixelsdance.github.io）中，PixelDance 給出了兩種不同的視頻生成模式。

第一種是基礎模式（Basic Mode），用戶只需要提供一張指導圖片+文本描述，PixelDance 就可以生成有高度一致性且有豐富動態(tài)性的視頻，其中指導圖片可以是真實圖片，也可以利用現(xiàn)有的文生圖模型生成。

從展示的結果來看，真實風格、動畫風格、二次元風格、魔幻風格，PixelDance 通通都可以解決，人物動作、臉部表情、相機視角控制、特效動作，Pixeldance 也都可以很好的完成。只能說一句 tql！

第二種是高級魔法模式（Magic Mode），給了用戶更多發(fā)揮想象力和創(chuàng)造力的空間。在這種模式下，用戶需要提供兩張指導圖片+文本描述，可以更好地生成更有難度的視頻內容。網(wǎng)站中展示了用魔法模式做出的各種炫酷特效鏡頭。

除此之外，官網(wǎng)還展示了完全使用 PixelDance 制作的 3 分鐘故事短片：

非常震撼的一點是，使用 PixelDance 能按照用戶預想的一個故事，制作每一個場景和對應的動作。不管是真實場景（如埃及、長城等），還是虛幻場景（如外星球），PixelDance 都能生成細節(jié)豐富、動作豐富的視頻，甚至各種特效鏡頭也不在話下。

并且，主人公北極熊先生的黑色禮帽和紅色領結形象，在不同的場景中都得到了很好的保持。長視頻生成再也不是簡單的拼湊弱相關的短視頻片段了！

而達到這樣拔群的視頻生成效果，并沒有依賴復雜的數(shù)據(jù)集和大規(guī)模的模型訓練，PixelDance 在公開的 WebVid-10M 數(shù)據(jù)集上僅用 1.5B 大小的模型就達到了上述效果。

論文地址：https://arxiv.org/abs/2311.10982

demo 地址：https://makepixelsdance.github.io

在相應的論文《Make Pixels Dance: High-Dynamic Video Generation》中，作者指出了視頻生成難以做出好效果的原因：相比于圖片生成，視頻生成具有特征空間顯著更大、動作多樣性顯著更強的特點。這就導致了現(xiàn)有的視頻生成方法難以學到有效的時域動作信息，生成的視頻雖然圖片質量較高，但動態(tài)性非常有限。

針對上述問題，PixelDance 提出了基于文本指導 + 首尾幀圖片指導的視頻生成方法，使得模型更充分地關注和學習視頻的動態(tài)信息。

其中，首幀圖片指導為整個視頻內容提供了框架和素材。此外，通過將上一個視頻片段的尾幀拿來作為下一個視頻片段的首幀指導，可以生成更長的視頻。文本描述提供了對視頻動作的描述。尾幀圖片指導為視頻生成過程提供了結束狀態(tài)的信息。作者提出了適配的方法，使得模型能接收比較粗糙的圖片作為指導，這使得用戶可以使用基本的圖片編輯工具獲得尾幀圖片指導。

官網(wǎng)的信息顯示，目前還在積極地迭代模型效果中，未來 2-3 個月內就會放出人人可以試用的模型。目前，作者也提供了途徑支持大家發(fā)送想要測試的樣例，目前官網(wǎng)中已經(jīng)放出了一些用戶的測試樣例：

如此看來，有了 PixelDance，只要有天馬行空的想象力，人人都可以成為「百萬特效大師」！

責任編輯：張燕妮來源：機器之心

AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻生成新突破：PixelDance，輕松呈現(xiàn)復雜動作與炫酷特效