成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型

發(fā)布于 2024-10-8 10:22
瀏覽
0收藏

全球社交巨頭Meta發(fā)布最新大模型Movie Gen,正式進(jìn)軍文生視頻領(lǐng)域。


Movie Gen共有300億參數(shù),能以每秒16幀直接生成16秒的1080P超高清視頻,還提供精準(zhǔn)的視頻剪輯、個性化功、不同寬高比適配等多元化功能。


最大技術(shù)亮點是,Movie Gen能直接生成帶精準(zhǔn)配樂的視頻,目前Sora、Runway、Luma等一線產(chǎn)品都無法提供該功能。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

有網(wǎng)友對Movie Gen的全面化功能相當(dāng)震驚,表示,Meta比OpenAI更高的發(fā)布了Sora。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

基本上都是一片Amazing,足以看出Movie Gen的超強(qiáng)性能。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

Sora掀起了文生視頻風(fēng)口,但是它自己卻莫名消失了~

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

目前,Meta還沒有公布開源該模型,但已經(jīng)有人迫不及待了。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

這是目前最強(qiáng)的文生視頻模型,我們很快能用它制作電影了。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

Movie Gen功能簡單介紹

文生視頻是Movie Gen的核心模塊,是基于Transformer架構(gòu)開發(fā)而成,專門優(yōu)化了文本到圖像和文本到視頻的生成。Movie Gen能夠生成長達(dá)16秒、每秒16幀的1080P超高清視頻,支持73K token上下文


通過理解文本提示,結(jié)合預(yù)訓(xùn)練時學(xué)習(xí)到的視覺知識,生成與文本描述相匹配的視頻內(nèi)容。這一模塊的技術(shù)創(chuàng)新在于其能夠推理對象運動、主體-對象交互和相機(jī)運動,從而生成各種概念的合理動作。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

在訓(xùn)練過程中,Meta采用了大規(guī)模的互聯(lián)網(wǎng)圖像、視頻和音頻數(shù)據(jù),通過復(fù)雜的數(shù)據(jù)策劃和過濾流程,確保了模型訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。


此外,為了提高生成視頻的質(zhì)量和一致性,Meta還引入了監(jiān)督式微調(diào),使用人工策劃的高質(zhì)量視頻數(shù)據(jù)對模型進(jìn)行進(jìn)一步的訓(xùn)練。


個性化視頻生成是在基礎(chǔ)視頻模型上進(jìn)行了擴(kuò)展,支持生成包含特定人物身份的視頻內(nèi)容。例如,輸入一個人的圖像和文本提示,模型能夠生成包含該人物并具有豐富細(xì)節(jié)的視頻。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

Meta使用了一種全新的訓(xùn)練策略,通過在模型訓(xùn)練中加入人臉圖像和文本提示的配對數(shù)據(jù),使模型學(xué)會如何將特定的人物身份信息融入到視頻生成過程中。


精確視頻編輯是Movie Gen的另外一大技術(shù)創(chuàng)新,允許用戶通過文本提示對視頻進(jìn)行精確編輯。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

Meta通過創(chuàng)新的訓(xùn)練方法,使模型能夠理解文本提示中的編輯指令,并將其應(yīng)用于視頻內(nèi)容的修改中。包括添加、移除或替換視頻中的元素,以及進(jìn)行背景或風(fēng)格等全局性的修改


能生成帶背景音樂的視頻,流匹配和DiT是關(guān)鍵技術(shù)。流匹配是一種創(chuàng)新的生成式建模方法,通過構(gòu)建一個最優(yōu)傳輸路徑來指導(dǎo)生成過程,從而確保生成的內(nèi)容既連貫又富有創(chuàng)意。與傳統(tǒng)的擴(kuò)散模型相比,流匹配不僅提高了訓(xùn)練效率,還增強(qiáng)了推理階段的表現(xiàn)力。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

DiT一種經(jīng)過調(diào)整的變壓器架構(gòu),能夠更好地處理音頻數(shù)據(jù)。通過對歸一化層輸出進(jìn)行縮放和偏移,并對自注意力及前饋網(wǎng)絡(luò)層輸出進(jìn)行縮放,實現(xiàn)了對音頻信號更精細(xì)的控制。同時,通過一個多層感知機(jī)來預(yù)測調(diào)制參數(shù),進(jìn)一步優(yōu)化了模型性能。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

為了適配不同的設(shè)備,針對視頻中的位置信息編碼問題,Movie Gen使用了一種因子化的可學(xué)習(xí)位置嵌入方式。這種方法可以靈活地適應(yīng)不同尺寸、寬高比以及視頻長度的輸入,避免了傳統(tǒng)固定長度位置編碼帶來的限制。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

Movie Gen通過將空間坐標(biāo)以及時間坐標(biāo)轉(zhuǎn)化為獨立的嵌入向量,再將它們相加得到最終的位置表示,從而有效減少了因位置編碼不當(dāng)導(dǎo)致的畫面扭曲或變形現(xiàn)象,尤其是在時間維度上表現(xiàn)尤為明顯。

超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型-AI.x社區(qū)

為了降低性能消耗,Movie Gen引入了多維度并行化策略,包括數(shù)據(jù)并行、張量并行、序列并行以及上下文并行。這種三維并行化設(shè)計允許模型在參數(shù)數(shù)量、輸入token數(shù)和數(shù)據(jù)集大小三個軸向上進(jìn)行擴(kuò)展,同時也能橫向擴(kuò)展至更多的GPU設(shè)備上。


特別是在處理高分辨率視頻時,由于自注意力機(jī)制本身的計算復(fù)雜度較高,因此高效的并行化策略對于減少所需的計算資源至關(guān)重要。


論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper


本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/Eb8N-bKB99P4vMqCIwtytg??

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产精品夜间视频香蕉 | 亚洲精品68久久久一区 | 免费黄网站在线观看 | 天天看片天天干 | 国产精品一区久久久久 | 欧美日韩国产在线观看 | 欧美精品一二区 | 欧美日韩免费在线 | 超碰在线人人干 | 久久久久国产一级毛片 | 国产精品视频观看 | av影音资源 | 超碰av人人 | 亚洲高清在线免费观看 | 成人一区二区三区在线观看 | 欧美黄色一级毛片 | 狠狠色狠狠色综合系列 | 成人午夜视频在线观看 | 精品一区二区久久久久久久网站 | 丁香婷婷综合激情五月色 | 亚洲视频一区在线观看 | 99re视频在线| 国产精品欧美一区喷水 | 在线免费黄色小视频 | 看一级毛片 | 精品国产一区二区三区日日嗨 | 日韩免费激情视频 | 欧美久久久久 | 精品久久影院 | www亚洲免费国内精品 | 夜夜夜操| 国产精品日韩欧美一区二区三区 | 成人在线免费 | 一区二区三区回区在观看免费视频 | 成人欧美一区二区三区视频xxx | 91久久北条麻妃一区二区三区 | 日韩免费三级 | 国产精品久久久久久一区二区三区 | 欧美视频1区 | 成人三级在线观看 | 成人在线视频免费观看 |