Meta版Sora深夜橫空出世，小扎放出16秒高清大片！92頁論文曝光技術(shù)細(xì)節(jié)，Llama 3架構(gòu)立功

作者：新智元 2024-10-05 10:57:21

Meta版Sora，就在剛剛驚艷來襲。Movie Gen可生成1080p、16秒、每秒16幀的高清長(zhǎng)視頻，還能生成音效、編輯視頻、上傳圖像生成個(gè)性化視頻。甚至Meta還放出了92頁論文，模型架構(gòu)、訓(xùn)練細(xì)節(jié)一并公開，干貨滿滿！

毫無預(yù)兆地，Meta版Sora——Movie Gen，就在剛剛搶先上線了！

Meta將其稱為「迄今最先進(jìn)的媒體基礎(chǔ)模型」。

全新上線的大殺器Movie Gen Video，是一個(gè)30B參數(shù)的Transformer模型，可以從單個(gè)文本提示，生成高質(zhì)量的高清圖像和視頻，視頻為1080P、16秒、每秒16幀。

一同推出的還有Movie Gen Audio。這是一個(gè)13B參數(shù)的Transformer模型。通過視頻輸入和文本提示，它就可以可控性生成和視頻同步的高保真音頻，時(shí)長(zhǎng)最長(zhǎng)45秒。

最驚人的是，這次Meta一并連論文都發(fā)布了。

論文中，詳細(xì)介紹了Movie Gen的架構(gòu)、訓(xùn)練方法和實(shí)驗(yàn)結(jié)果。

論文地址：https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=thread&utm_campaign=moviegen

從論文可以看出，Movie Gen Video沿用了Transformer的設(shè)計(jì)，尤其借鑒了Llama 3。而研究人員引入的「流匹配」（Flow Matching），讓視頻在精度和細(xì)節(jié)表現(xiàn)上，都優(yōu)于擴(kuò)散模型。

稍顯遺憾的是，這次Meta發(fā)的也是「期貨」，產(chǎn)品預(yù)計(jì)明年才正式向公眾開放。

不出意外的，圍觀群眾給出亮眼點(diǎn)評(píng)：「Meta居然搶著OpenAI之前發(fā)布了Sora，呵呵」。

就在昨天，Sora負(fù)責(zé)人Tim Brooks選擇離職，Meta這個(gè)時(shí)間點(diǎn)放出Movie Gen，也真是夠扎心的。

而HuggingFace工程師也直接貼出Meta開源主頁，在線催更模型開源。

也有人期待，Meta版Sora的這次發(fā)布，或許或激出其他家的下一個(gè)王炸級(jí)產(chǎn)品。

一鍵視頻生成，趕超Sora

憑借開源Movie Gen，Meta正式進(jìn)軍AI視頻領(lǐng)域。

可以說，Movie Gen在編輯、個(gè)性化功能方面，站在了一個(gè)新階段。而且，最令人印象深刻的，便是把一張個(gè)人照，轉(zhuǎn)換成個(gè)性化視頻。

小扎在社交平臺(tái)上以身試法，將自己照片作為輸入，Movie Gen為其配上了健身的視頻。

文本生成視頻

現(xiàn)在，只要使用簡(jiǎn)單的文本輸入，就能生成自定義的視頻了。

從官網(wǎng)放出的Demo可以看出，Meta所言不虛，Movie Gen的確可以說「為沉浸式AI內(nèi)容」樹立了新標(biāo)準(zhǔn)。

更為矚目的是，Movie Gen可以創(chuàng)建不同寬高比的高清長(zhǎng)視頻。在業(yè)內(nèi)，這屬于首次！

這個(gè)「雷聲大作，伴隨著管弦樂曲」的視頻，對(duì)于山石地貌和電閃雷鳴的刻畫驚人的逼真，配樂更是恢弘激昂。

Thunder cracks loudly, with an orchestral music track.

一個(gè)小女孩拿著風(fēng)箏跑過海灘，仿佛電影中的場(chǎng)景。

戴著粉色太陽鏡躺在甜甜圈游泳圈上的樹懶，視頻中光影和水波都很自然。

在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴，無論是熱氣、水面、猴子毛發(fā)還是水中怪石，都看不出破綻。

在海邊耍著火圈的男人，視頻完全符合prompt的要求，鏡頭、光影和氛圍的刻畫，已經(jīng)達(dá)到了大片級(jí)畫質(zhì)。

各種超現(xiàn)實(shí)的場(chǎng)景，Movie Gen都能完美生成，比如這只毛茸茸的沖浪考拉。

文本編輯視頻

而只要使用文本輸入，就可以編輯現(xiàn)有視頻。

Movie Gen可以支持非常精確的視頻編輯，無論是樣式、過渡，還是精細(xì)編輯。

通過文字輸入，就能讓小女孩向空中放飛的燈籠，變成一個(gè)氣泡。

在沙地上跑步的男子，手中可以加上藍(lán)色絨球，周圍環(huán)境可以換成仙人掌沙漠，甚至可以讓男子換上一身恐龍?zhí)籽b。

在觀眾席上觀影的一對(duì)男女，可以讓他們戴上3D眼鏡、背景換成游樂園，甚至加上下雨的特效。

南極冰原上的企鵝可以穿上維多利亞式的衣服，背景可以加上遮陽傘和沙灘床，甚至整幅畫面都能變成鉛筆素描畫。

個(gè)性化視頻

并且，Movie Gen還有一個(gè)Sora沒有的亮點(diǎn)——個(gè)性化視頻！

只要上傳我們想要的圖像，它就可以由此生成個(gè)性化視頻，保留人物的身份和動(dòng)作。

輸入這個(gè)女孩的照片，給出prompt，就能讓她在南瓜地上戴著圍巾喝咖啡。

讓這名男子化身科學(xué)家，穿上實(shí)驗(yàn)服開始做實(shí)驗(yàn)。

一張照片，就能生成自己和愛犬在露臺(tái)上的自拍視頻。

甚至讓自己在西部世界小鎮(zhèn)中化身騎馬的女牛仔，身后就是落基山脈。一秒走進(jìn)大片不是夢(mèng)！

音效和配樂

Movie Gen還可以將視頻、文本作為輸入，并為視頻生成音頻。

它可讓你創(chuàng)建和擴(kuò)展視頻音效、背景音樂或整個(gè)配樂。

比如，下面企鵝戲水的畫面中，配上了AI生成的優(yōu)美的管弦樂曲。

文本輸入：A beautiful orchestral piece that evokes a sense of wonder

AI生成的煙花音效，也是如此地逼真。

文本輸入：Whistling sounds, followed by a sharp explosion and loud crackling.

傾瀉而下的瀑布和和雨水，站在高處遙望遠(yuǎn)方頓感壯觀。

文本輸入：Rain pours against the cliff and the person, with music playing in the background.

一條蛇在草地里緩慢前進(jìn)，給人一種危機(jī)四伏的趕腳。

文本輸入：Rustling leaves and snapping twigs, with an orchestral music track.

AI生成的背景音，很有山地摩托摩托競(jìng)賽那味兒了。

文本輸入：ATV engine roars and accelerates, with guitar music.

還有溜滑板，配著動(dòng)作，給出不同節(jié)奏的音效。

文本輸入：Wheels spinning, and a slamming sound as the skateboard lands on concrete.

92頁技術(shù)報(bào)告，同用Llama 3架構(gòu)

Movie Gen發(fā)布同時(shí)，Meta還祭出了92頁的技術(shù)報(bào)告。值得一提的是，這次團(tuán)隊(duì)也被命名為「Movie Gen team」。

Pytorch之父Soumith Chintala表示，其中很多細(xì)節(jié)將會(huì)推動(dòng)AI視頻領(lǐng)域的發(fā)展。

接下來，一起看看Movie Gen得以實(shí)現(xiàn)的技術(shù)要點(diǎn)吧。

研究人員表示，Movie Gen主要是基于兩種基礎(chǔ)模型打造的，一個(gè)是Movie Gen Video，另一個(gè)是Movie Gen Audio。

Movie Gen Video

Movie Gen Video參數(shù)有300億，基礎(chǔ)架構(gòu)細(xì)節(jié)如下圖所示。

它能夠聯(lián)合文本到圖像和文本到視頻的生成。

Movie Gen Video可以遵循文本提示，生成長(zhǎng)達(dá)16秒、16幀每秒高清視頻。

它也是通過預(yù)訓(xùn)練微調(diào)完成，在骨干網(wǎng)絡(luò)架構(gòu)上，它繼續(xù)沿用了Transformer的設(shè)計(jì)，尤其是借鑒的Llama3的設(shè)計(jì)。

而且，該模型有強(qiáng)大的適應(yīng)性，可生成不同縱橫比、分辨率和時(shí)長(zhǎng)的高質(zhì)量圖像和視頻。

預(yù)訓(xùn)練階段，在大約1億個(gè)視頻和10億張圖像上進(jìn)行了聯(lián)合預(yù)訓(xùn)練。

它是通過「看」視頻，來學(xué)習(xí)視覺世界。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)，Movie Gen Video模型能夠理解物理世界——

可以推理物體運(yùn)動(dòng)、主-客體交互、幾何關(guān)系、相機(jī)運(yùn)動(dòng)、物理規(guī)律，以及各種概念的合理運(yùn)動(dòng)。

在微調(diào)階段，研究人員精選了一部分視頻，對(duì)模型在美學(xué)、運(yùn)動(dòng)質(zhì)量方面完成了微調(diào)。

為了提高訓(xùn)練、推理效率，研究人員在時(shí)空壓縮的潛在空間（Latent Space）中進(jìn)行生成。

為此，他們訓(xùn)練了一個(gè)單一的時(shí)間自編碼器（TAE），用于將RGB圖像和視頻映射到潛在空間。

然后，再使用預(yù)訓(xùn)練文本編碼器，來編碼用戶提供的文本提示，并獲得文本提示嵌入，這些嵌入用作模型的條件。

流匹配，擊敗擴(kuò)散損失

值得一提的是，研究人員還引入「流匹配」（Flow Matching）來訓(xùn)練生成模型，這使得視頻生成效果在精度、細(xì)節(jié)表現(xiàn)上，都優(yōu)于擴(kuò)散模型。

「流匹配」是一種新興的生成模型訓(xùn)練方法，其核心思想是——直接學(xué)習(xí)樣本從初始噪聲狀態(tài)向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的過程。

而且，模型只需通過估計(jì)如何在每個(gè)時(shí)間步中演化樣本，即可生成高質(zhì)量的結(jié)果。

與擴(kuò)散模型相比，「流匹配」訓(xùn)練效率更高、計(jì)算成本更低、并且在時(shí)間維度保持連續(xù)性和一致性。

有網(wǎng)友對(duì)此總結(jié)道，在質(zhì)量和文本對(duì)齊上，人類評(píng)估都強(qiáng)烈傾向于流匹配，而不是擴(kuò)散。

此外，Movie Gen Video在技術(shù)上也引入了很多創(chuàng)新：

他們引入了創(chuàng)新的位置編碼方法——「因子化可學(xué)習(xí)編碼」，能夠獨(dú)立對(duì)高度、寬度、時(shí)間三個(gè)維度進(jìn)行編碼，然后將其相加。

基于這種靈活設(shè)計(jì)，讓模型不僅能夠適應(yīng)不同寬高比，還能處理任意長(zhǎng)度的視頻。

另外，為了解決模型推理效率問題，研究人員采用了一種「線性-二次時(shí)間步長(zhǎng)」的策略。

如下圖所示，僅需50步，就能實(shí)現(xiàn)接近1000步采樣效果，大幅提升了推理速度。

與此同時(shí)，Movie Gen Video還采用了一種巧妙的「時(shí)間平鋪」方法，進(jìn)一步提升生成效率。

具體來說，這種方法將輸入的視頻，在時(shí)間維度上切分成多個(gè)小片段，然后對(duì)每個(gè)片對(duì)獨(dú)立進(jìn)行編碼和解碼，最后再將所有處理好的片段，重新拼接成完成視頻。

這種分而治之策略，不僅顯著降低內(nèi)存需求，還提高了整體推理效率。

為了確保最終生成的視頻質(zhì)量，團(tuán)隊(duì)在解碼階段采用了精心設(shè)計(jì)的重疊和混合技術(shù)。

最后微調(diào)得到的Movie Gen Video模型，與當(dāng)前最先進(jìn)的模型相比，大幅超越LuamaLabs的Dream Machine，還有Gen-3。

它僅小幅超越了Sora、Kling 1.5。

如下是，生成圖像質(zhì)量的對(duì)比。總的來說，Movie Gen Video在畫面一致性、質(zhì)量等方面，均取得了最優(yōu)表現(xiàn)。

提示中袋鼠走路細(xì)節(jié)，在Sora中到最后并沒有展現(xiàn)。

Movie Gen Audio

音頻模型參數(shù)共有130億，能夠生成48kHz的高質(zhì)量電影音效和音樂。

而且，這些AI音頻與輸入視頻，實(shí)現(xiàn)同步。

值得一提的是，Movie Gen Audio可以原生處理不同長(zhǎng)度音頻生成。

這一過程是通過TAE完成解碼與編碼。

而且，通過音頻延伸技術(shù)，能夠?yàn)殚L(zhǎng)達(dá)幾分鐘視頻，制作出連貫長(zhǎng)音頻。

研究人員在大約100萬小時(shí)音頻上，對(duì)模型進(jìn)行了預(yù)訓(xùn)練。

得到的預(yù)訓(xùn)練模型，不僅學(xué)會(huì)了物理關(guān)聯(lián)，還學(xué)會(huì)了視覺世界和音頻世界之間的心理關(guān)聯(lián)。

另外，模型還可以生成，與視覺場(chǎng)景匹配的非畫面「內(nèi)環(huán)境」聲音，即便是聲源沒有出現(xiàn)在畫面中。

最后，模型還可以生成支持情緒，并與視覺場(chǎng)景動(dòng)作相匹配的非畫面內(nèi)音樂。

而且，它還能與專業(yè)地混合音效和背景音樂。

通過評(píng)估，與當(dāng)前先進(jìn)的音頻模型ElevenLabs等相比，Movie Gen Audio結(jié)果如下所示。

責(zé)任編輯：張燕妮來源：新智元

Meta 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看