成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta版Sora深夜橫空出世,小扎放出16秒高清大片!92頁論文曝光技術(shù)細(xì)節(jié),Llama 3架構(gòu)立功

人工智能 新聞
Meta版Sora,就在剛剛驚艷來襲。Movie Gen可生成1080p、16秒、每秒16幀的高清長(zhǎng)視頻,還能生成音效、編輯視頻、上傳圖像生成個(gè)性化視頻。甚至Meta還放出了92頁論文,模型架構(gòu)、訓(xùn)練細(xì)節(jié)一并公開,干貨滿滿!

毫無預(yù)兆地,Meta版Sora——Movie Gen,就在剛剛搶先上線了!

Meta將其稱為「迄今最先進(jìn)的媒體基礎(chǔ)模型」。

圖片

全新上線的大殺器Movie Gen Video,是一個(gè)30B參數(shù)的Transformer模型,可以從單個(gè)文本提示,生成高質(zhì)量的高清圖像和視頻,視頻為1080P、16秒、每秒16幀。

一同推出的還有Movie Gen Audio。這是一個(gè)13B參數(shù)的Transformer模型。通過視頻輸入和文本提示,它就可以可控性生成和視頻同步的高保真音頻,時(shí)長(zhǎng)最長(zhǎng)45秒。

最驚人的是,這次Meta一并連論文都發(fā)布了。

圖片

論文中,詳細(xì)介紹了Movie Gen的架構(gòu)、訓(xùn)練方法和實(shí)驗(yàn)結(jié)果。

圖片

論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=thread&utm_campaign=moviegen

從論文可以看出,Movie Gen Video沿用了Transformer的設(shè)計(jì),尤其借鑒了Llama 3。而研究人員引入的「流匹配」(Flow Matching),讓視頻在精度和細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。

稍顯遺憾的是,這次Meta發(fā)的也是「期貨」,產(chǎn)品預(yù)計(jì)明年才正式向公眾開放。

不出意外的,圍觀群眾給出亮眼點(diǎn)評(píng):「Meta居然搶著OpenAI之前發(fā)布了Sora,呵呵」。

圖片

就在昨天,Sora負(fù)責(zé)人Tim Brooks選擇離職,Meta這個(gè)時(shí)間點(diǎn)放出Movie Gen,也真是夠扎心的。

而HuggingFace工程師也直接貼出Meta開源主頁,在線催更模型開源。

圖片

也有人期待,Meta版Sora的這次發(fā)布,或許或激出其他家的下一個(gè)王炸級(jí)產(chǎn)品。

圖片

一鍵視頻生成,趕超Sora

憑借開源Movie Gen,Meta正式進(jìn)軍AI視頻領(lǐng)域。

可以說,Movie Gen在編輯、個(gè)性化功能方面,站在了一個(gè)新階段。而且,最令人印象深刻的,便是把一張個(gè)人照,轉(zhuǎn)換成個(gè)性化視頻。

圖片

小扎在社交平臺(tái)上以身試法,將自己照片作為輸入,Movie Gen為其配上了健身的視頻。

圖片

文本生成視頻

現(xiàn)在,只要使用簡(jiǎn)單的文本輸入,就能生成自定義的視頻了。

從官網(wǎng)放出的Demo可以看出,Meta所言不虛,Movie Gen的確可以說「為沉浸式AI內(nèi)容」樹立了新標(biāo)準(zhǔn)。

更為矚目的是,Movie Gen可以創(chuàng)建不同寬高比的高清長(zhǎng)視頻。在業(yè)內(nèi),這屬于首次!

這個(gè)「雷聲大作,伴隨著管弦樂曲」的視頻,對(duì)于山石地貌和電閃雷鳴的刻畫驚人的逼真,配樂更是恢弘激昂。

Thunder cracks loudly, with an orchestral music track.

一個(gè)小女孩拿著風(fēng)箏跑過海灘,仿佛電影中的場(chǎng)景。

圖片

戴著粉色太陽鏡躺在甜甜圈游泳圈上的樹懶,視頻中光影和水波都很自然。

圖片

在冒著熱氣的溫泉中玩著小木船的白毛紅臉猴,無論是熱氣、水面、猴子毛發(fā)還是水中怪石,都看不出破綻。

圖片

在海邊耍著火圈的男人,視頻完全符合prompt的要求,鏡頭、光影和氛圍的刻畫,已經(jīng)達(dá)到了大片級(jí)畫質(zhì)。

圖片

各種超現(xiàn)實(shí)的場(chǎng)景,Movie Gen都能完美生成,比如這只毛茸茸的沖浪考拉。

圖片

文本編輯視頻

而只要使用文本輸入,就可以編輯現(xiàn)有視頻。

Movie Gen可以支持非常精確的視頻編輯,無論是樣式、過渡,還是精細(xì)編輯。

通過文字輸入,就能讓小女孩向空中放飛的燈籠,變成一個(gè)氣泡。

圖片

在沙地上跑步的男子,手中可以加上藍(lán)色絨球,周圍環(huán)境可以換成仙人掌沙漠,甚至可以讓男子換上一身恐龍?zhí)籽b。

圖片

在觀眾席上觀影的一對(duì)男女,可以讓他們戴上3D眼鏡、背景換成游樂園,甚至加上下雨的特效。

圖片

南極冰原上的企鵝可以穿上維多利亞式的衣服,背景可以加上遮陽傘和沙灘床,甚至整幅畫面都能變成鉛筆素描畫。

圖片

個(gè)性化視頻

并且,Movie Gen還有一個(gè)Sora沒有的亮點(diǎn)——個(gè)性化視頻!

只要上傳我們想要的圖像,它就可以由此生成個(gè)性化視頻,保留人物的身份和動(dòng)作。

輸入這個(gè)女孩的照片,給出prompt,就能讓她在南瓜地上戴著圍巾喝咖啡。

圖片

讓這名男子化身科學(xué)家,穿上實(shí)驗(yàn)服開始做實(shí)驗(yàn)。

圖片

一張照片,就能生成自己和愛犬在露臺(tái)上的自拍視頻。

圖片

甚至讓自己在西部世界小鎮(zhèn)中化身騎馬的女牛仔,身后就是落基山脈。一秒走進(jìn)大片不是夢(mèng)!

圖片

音效和配樂

Movie Gen還可以將視頻、文本作為輸入,并為視頻生成音頻。

它可讓你創(chuàng)建和擴(kuò)展視頻音效、背景音樂或整個(gè)配樂。

比如,下面企鵝戲水的畫面中,配上了AI生成的優(yōu)美的管弦樂曲。

文本輸入:A beautiful orchestral piece that evokes a sense of wonder

AI生成的煙花音效,也是如此地逼真。

文本輸入:Whistling sounds, followed by a sharp explosion and loud crackling.

傾瀉而下的瀑布和和雨水,站在高處遙望遠(yuǎn)方頓感壯觀。

文本輸入:Rain pours against the cliff and the person, with music playing in the background.

一條蛇在草地里緩慢前進(jìn),給人一種危機(jī)四伏的趕腳。

文本輸入:Rustling leaves and snapping twigs, with an orchestral music track.

AI生成的背景音,很有山地摩托摩托競(jìng)賽那味兒了。

文本輸入:ATV engine roars and accelerates, with guitar music.

還有溜滑板,配著動(dòng)作,給出不同節(jié)奏的音效。

文本輸入:Wheels spinning, and a slamming sound as the skateboard lands on concrete.

92頁技術(shù)報(bào)告,同用Llama 3架構(gòu)

Movie Gen發(fā)布同時(shí),Meta還祭出了92頁的技術(shù)報(bào)告。值得一提的是,這次團(tuán)隊(duì)也被命名為「Movie Gen team」。

圖片

Pytorch之父Soumith Chintala表示,其中很多細(xì)節(jié)將會(huì)推動(dòng)AI視頻領(lǐng)域的發(fā)展。

接下來,一起看看Movie Gen得以實(shí)現(xiàn)的技術(shù)要點(diǎn)吧。

圖片

研究人員表示,Movie Gen主要是基于兩種基礎(chǔ)模型打造的,一個(gè)是Movie Gen Video,另一個(gè)是Movie Gen Audio。

Movie Gen Video

Movie Gen Video參數(shù)有300億,基礎(chǔ)架構(gòu)細(xì)節(jié)如下圖所示。

圖片

它能夠聯(lián)合文本到圖像和文本到視頻的生成。

圖片

Movie Gen Video可以遵循文本提示,生成長(zhǎng)達(dá)16秒、16幀每秒高清視頻。

它也是通過預(yù)訓(xùn)練微調(diào)完成,在骨干網(wǎng)絡(luò)架構(gòu)上,它繼續(xù)沿用了Transformer的設(shè)計(jì),尤其是借鑒的Llama3的設(shè)計(jì)。

圖片

而且,該模型有強(qiáng)大的適應(yīng)性,可生成不同縱橫比、分辨率和時(shí)長(zhǎng)的高質(zhì)量圖像和視頻。

預(yù)訓(xùn)練階段,在大約1億個(gè)視頻和10億張圖像上進(jìn)行了聯(lián)合預(yù)訓(xùn)練。

它是通過「看」視頻,來學(xué)習(xí)視覺世界。

實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),Movie Gen Video模型能夠理解物理世界——

可以推理物體運(yùn)動(dòng)、主-客體交互、幾何關(guān)系、相機(jī)運(yùn)動(dòng)、物理規(guī)律,以及各種概念的合理運(yùn)動(dòng)。

在微調(diào)階段,研究人員精選了一部分視頻,對(duì)模型在美學(xué)、運(yùn)動(dòng)質(zhì)量方面完成了微調(diào)。

圖片

為了提高訓(xùn)練、推理效率,研究人員在時(shí)空壓縮的潛在空間(Latent Space)中進(jìn)行生成。

為此,他們訓(xùn)練了一個(gè)單一的時(shí)間自編碼器(TAE),用于將RGB圖像和視頻映射到潛在空間。

然后,再使用預(yù)訓(xùn)練文本編碼器,來編碼用戶提供的文本提示,并獲得文本提示嵌入,這些嵌入用作模型的條件。

流匹配,擊敗擴(kuò)散損失

值得一提的是,研究人員還引入「流匹配」(Flow Matching)來訓(xùn)練生成模型,這使得視頻生成效果在精度、細(xì)節(jié)表現(xiàn)上,都優(yōu)于擴(kuò)散模型。

「流匹配」是一種新興的生成模型訓(xùn)練方法,其核心思想是——直接學(xué)習(xí)樣本從初始噪聲狀態(tài)向目標(biāo)數(shù)據(jù)分布轉(zhuǎn)化的過程。

而且,模型只需通過估計(jì)如何在每個(gè)時(shí)間步中演化樣本,即可生成高質(zhì)量的結(jié)果。

與擴(kuò)散模型相比,「流匹配」訓(xùn)練效率更高、計(jì)算成本更低、并且在時(shí)間維度保持連續(xù)性和一致性。

圖片

有網(wǎng)友對(duì)此總結(jié)道,在質(zhì)量和文本對(duì)齊上,人類評(píng)估都強(qiáng)烈傾向于流匹配,而不是擴(kuò)散。

圖片

此外,Movie Gen Video在技術(shù)上也引入了很多創(chuàng)新:

他們引入了創(chuàng)新的位置編碼方法——「因子化可學(xué)習(xí)編碼」,能夠獨(dú)立對(duì)高度、寬度、時(shí)間三個(gè)維度進(jìn)行編碼,然后將其相加。

基于這種靈活設(shè)計(jì),讓模型不僅能夠適應(yīng)不同寬高比,還能處理任意長(zhǎng)度的視頻。

另外,為了解決模型推理效率問題,研究人員采用了一種「線性-二次時(shí)間步長(zhǎng)」的策略。

如下圖所示,僅需50步,就能實(shí)現(xiàn)接近1000步采樣效果,大幅提升了推理速度。

圖片

與此同時(shí),Movie Gen Video還采用了一種巧妙的「時(shí)間平鋪」方法,進(jìn)一步提升生成效率。

具體來說,這種方法將輸入的視頻,在時(shí)間維度上切分成多個(gè)小片段,然后對(duì)每個(gè)片對(duì)獨(dú)立進(jìn)行編碼和解碼,最后再將所有處理好的片段,重新拼接成完成視頻。

圖片

這種分而治之策略,不僅顯著降低內(nèi)存需求,還提高了整體推理效率。

為了確保最終生成的視頻質(zhì)量,團(tuán)隊(duì)在解碼階段采用了精心設(shè)計(jì)的重疊和混合技術(shù)。

最后微調(diào)得到的Movie Gen Video模型,與當(dāng)前最先進(jìn)的模型相比,大幅超越LuamaLabs的Dream Machine,還有Gen-3。

它僅小幅超越了Sora、Kling 1.5。

圖片

如下是,生成圖像質(zhì)量的對(duì)比。總的來說,Movie Gen Video在畫面一致性、質(zhì)量等方面,均取得了最優(yōu)表現(xiàn)。

圖片

提示中袋鼠走路細(xì)節(jié),在Sora中到最后并沒有展現(xiàn)。

圖片

Movie Gen Audio

音頻模型參數(shù)共有130億,能夠生成48kHz的高質(zhì)量電影音效和音樂。

而且,這些AI音頻與輸入視頻,實(shí)現(xiàn)同步。

圖片

值得一提的是,Movie Gen Audio可以原生處理不同長(zhǎng)度音頻生成。

這一過程是通過TAE完成解碼與編碼。

圖片

而且,通過音頻延伸技術(shù),能夠?yàn)殚L(zhǎng)達(dá)幾分鐘視頻,制作出連貫長(zhǎng)音頻。

研究人員在大約100萬小時(shí)音頻上,對(duì)模型進(jìn)行了預(yù)訓(xùn)練。

得到的預(yù)訓(xùn)練模型,不僅學(xué)會(huì)了物理關(guān)聯(lián),還學(xué)會(huì)了視覺世界和音頻世界之間的心理關(guān)聯(lián)。

圖片

另外,模型還可以生成,與視覺場(chǎng)景匹配的非畫面「內(nèi)環(huán)境」聲音,即便是聲源沒有出現(xiàn)在畫面中。

最后,模型還可以生成支持情緒,并與視覺場(chǎng)景動(dòng)作相匹配的非畫面內(nèi)音樂。

而且,它還能與專業(yè)地混合音效和背景音樂。

通過評(píng)估,與當(dāng)前先進(jìn)的音頻模型ElevenLabs等相比,Movie Gen Audio結(jié)果如下所示。

圖片

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-09-26 14:07:30

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2013-11-01 09:07:15

2022-05-12 15:25:16

惡意軟件網(wǎng)絡(luò)攻擊

2016-10-08 23:30:58

Power8云計(jì)算

2010-12-09 09:09:37

2014-11-13 16:37:50

2016-04-27 11:01:11

SparkStormApache Apex

2009-05-07 18:50:35

四核Nehalem服務(wù)器

2011-05-04 15:09:56

激光打印機(jī)奔圖科技

2023-04-19 07:34:21

AutoGPT程序員GitHub

2014-01-17 14:08:45

移動(dòng)os國(guó)產(chǎn)軟件

2023-02-21 21:48:29

2015-06-19 09:21:52

JointForce解放號(hào)

2020-10-28 11:54:05

AI 數(shù)據(jù)人工智能

2020-10-12 14:47:25

芯片半導(dǎo)體技術(shù)

2015-11-13 10:06:10

2014-01-17 17:27:05

QNAPvNAS虛擬機(jī)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 精品国产乱码一区二区三 | 亚洲 中文 欧美 日韩 在线观看 | 久久综合久久久 | 国产一区三区在线 | 国产亚洲成av人片在线观看桃 | 少妇久久久 | 精品久久香蕉国产线看观看亚洲 | 三级黄色片在线 | 久久精品一区二区视频 | 国产区精品视频 | 在线看亚洲 | 视频一区二区三区四区五区 | 精品国产乱码一区二区三区 | 中文字幕一区二区三区日韩精品 | 国产精品久久久久久久粉嫩 | 国产精品免费一区二区三区 | 综合久久综合久久 | 人人澡视频 | 欧美午夜精品久久久久久浪潮 | 国产精品1区 | 一级毛片中国 | 欧美在线亚洲 | 国产在线一级片 | 久久成人久久 | 久久久人成影片一区二区三区 | 久久精品国产一区 | 国内精品久久久久久久 | 国产在线观看不卡一区二区三区 | 日韩网站在线观看 | 特一级毛片 | 中文字幕亚洲一区 | 中文字幕在线观看精品 | 婷婷丁香激情 | 国产一区久久 | 国产高清毛片 | 青青操91 | 久久久久无码国产精品一区 | 欧美一级片在线播放 | 国产精品国色综合久久 | 伊人久久一区二区 | 久草精品视频 |