超越Sora!全球首個帶背景音樂,文生1080超高清視頻模型
全球社交巨頭Meta發(fā)布最新大模型Movie Gen,正式進(jìn)軍文生視頻領(lǐng)域。
Movie Gen共有300億參數(shù),能以每秒16幀直接生成16秒的1080P超高清視頻,還提供精準(zhǔn)的視頻剪輯、個性化功、不同寬高比適配等多元化功能。
最大技術(shù)亮點是,Movie Gen能直接生成帶精準(zhǔn)配樂的視頻,目前Sora、Runway、Luma等一線產(chǎn)品都無法提供該功能。
有網(wǎng)友對Movie Gen的全面化功能相當(dāng)震驚,表示,Meta比OpenAI更高的發(fā)布了Sora。
基本上都是一片Amazing,足以看出Movie Gen的超強(qiáng)性能。
Sora掀起了文生視頻風(fēng)口,但是它自己卻莫名消失了~
目前,Meta還沒有公布開源該模型,但已經(jīng)有人迫不及待了。
這是目前最強(qiáng)的文生視頻模型,我們很快能用它制作電影了。
Movie Gen功能簡單介紹
文生視頻是Movie Gen的核心模塊,是基于Transformer架構(gòu)開發(fā)而成,專門優(yōu)化了文本到圖像和文本到視頻的生成。Movie Gen能夠生成長達(dá)16秒、每秒16幀的1080P超高清視頻,支持73K token上下文。
通過理解文本提示,結(jié)合預(yù)訓(xùn)練時學(xué)習(xí)到的視覺知識,生成與文本描述相匹配的視頻內(nèi)容。這一模塊的技術(shù)創(chuàng)新在于其能夠推理對象運動、主體-對象交互和相機(jī)運動,從而生成各種概念的合理動作。
在訓(xùn)練過程中,Meta采用了大規(guī)模的互聯(lián)網(wǎng)圖像、視頻和音頻數(shù)據(jù),通過復(fù)雜的數(shù)據(jù)策劃和過濾流程,確保了模型訓(xùn)練數(shù)據(jù)的多樣性和質(zhì)量。
此外,為了提高生成視頻的質(zhì)量和一致性,Meta還引入了監(jiān)督式微調(diào),使用人工策劃的高質(zhì)量視頻數(shù)據(jù)對模型進(jìn)行進(jìn)一步的訓(xùn)練。
個性化視頻生成是在基礎(chǔ)視頻模型上進(jìn)行了擴(kuò)展,支持生成包含特定人物身份的視頻內(nèi)容。例如,輸入一個人的圖像和文本提示,模型能夠生成包含該人物并具有豐富細(xì)節(jié)的視頻。
Meta使用了一種全新的訓(xùn)練策略,通過在模型訓(xùn)練中加入人臉圖像和文本提示的配對數(shù)據(jù),使模型學(xué)會如何將特定的人物身份信息融入到視頻生成過程中。
精確視頻編輯是Movie Gen的另外一大技術(shù)創(chuàng)新,允許用戶通過文本提示對視頻進(jìn)行精確編輯。
Meta通過創(chuàng)新的訓(xùn)練方法,使模型能夠理解文本提示中的編輯指令,并將其應(yīng)用于視頻內(nèi)容的修改中。包括添加、移除或替換視頻中的元素,以及進(jìn)行背景或風(fēng)格等全局性的修改。
能生成帶背景音樂的視頻,流匹配和DiT是關(guān)鍵技術(shù)。流匹配是一種創(chuàng)新的生成式建模方法,通過構(gòu)建一個最優(yōu)傳輸路徑來指導(dǎo)生成過程,從而確保生成的內(nèi)容既連貫又富有創(chuàng)意。與傳統(tǒng)的擴(kuò)散模型相比,流匹配不僅提高了訓(xùn)練效率,還增強(qiáng)了推理階段的表現(xiàn)力。
DiT一種經(jīng)過調(diào)整的變壓器架構(gòu),能夠更好地處理音頻數(shù)據(jù)。通過對歸一化層輸出進(jìn)行縮放和偏移,并對自注意力及前饋網(wǎng)絡(luò)層輸出進(jìn)行縮放,實現(xiàn)了對音頻信號更精細(xì)的控制。同時,通過一個多層感知機(jī)來預(yù)測調(diào)制參數(shù),進(jìn)一步優(yōu)化了模型性能。
為了適配不同的設(shè)備,針對視頻中的位置信息編碼問題,Movie Gen使用了一種因子化的可學(xué)習(xí)位置嵌入方式。這種方法可以靈活地適應(yīng)不同尺寸、寬高比以及視頻長度的輸入,避免了傳統(tǒng)固定長度位置編碼帶來的限制。
Movie Gen通過將空間坐標(biāo)以及時間坐標(biāo)轉(zhuǎn)化為獨立的嵌入向量,再將它們相加得到最終的位置表示,從而有效減少了因位置編碼不當(dāng)導(dǎo)致的畫面扭曲或變形現(xiàn)象,尤其是在時間維度上表現(xiàn)尤為明顯。
為了降低性能消耗,Movie Gen引入了多維度并行化策略,包括數(shù)據(jù)并行、張量并行、序列并行以及上下文并行。這種三維并行化設(shè)計允許模型在參數(shù)數(shù)量、輸入token數(shù)和數(shù)據(jù)集大小三個軸向上進(jìn)行擴(kuò)展,同時也能橫向擴(kuò)展至更多的GPU設(shè)備上。
特別是在處理高分辨率視頻時,由于自注意力機(jī)制本身的計算復(fù)雜度較高,因此高效的并行化策略對于減少所需的計算資源至關(guān)重要。
論文地址:https://ai.meta.com/static-resource/movie-gen-research-paper
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
