從20億數(shù)據(jù)中學(xué)習(xí)物理世界，基于Transformer的通用世界模型成功挑戰(zhàn)視頻生成

作者：量子位 2024-01-29 07:50:00

人工智能新聞

它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù)，可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

建立會(huì)做視頻的世界模型，也能通過(guò)Transformer來(lái)實(shí)現(xiàn)了！

來(lái)自清華和極佳科技的研究人員聯(lián)手，推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場(chǎng)景和自動(dòng)駕駛場(chǎng)景多種視頻生成任務(wù)，例如文生視頻、圖生視頻、視頻編輯、動(dòng)作序列生視頻等。

據(jù)團(tuán)隊(duì)介紹，通過(guò)預(yù)測(cè)Token的方式來(lái)建立通用場(chǎng)景世界模型，WorldDreamer是業(yè)界首個(gè)。

它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù)，可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

可視化實(shí)驗(yàn)已經(jīng)證明，WorldDreamer已經(jīng)深刻理解了通用世界的動(dòng)態(tài)變化規(guī)律。

那么，它都能完成哪些視頻任務(wù)，效果如何呢？

支持多種視頻任務(wù)

圖像生成視頻（Image to Video）

WorldDreamer可以基于單一圖像預(yù)測(cè)未來(lái)的幀。

只需首張圖像輸入，WorldDreamer將剩余的視頻幀視為被掩碼的視覺(jué)Token，并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

如下圖所示，WorldDreamer具有生成高質(zhì)量電影級(jí)別視頻的能力。

其生成的視頻呈現(xiàn)出無(wú)縫的逐幀運(yùn)動(dòng)，類(lèi)似于真實(shí)電影中流暢的攝像機(jī)運(yùn)動(dòng)。

而且，這些視頻嚴(yán)格遵循原始圖像的約束，確保幀構(gòu)圖的顯著一致性。

文本生成視頻（Text to Video）

WorldDreamer還可以基于文本進(jìn)行視頻生成。

僅僅給定語(yǔ)言文本輸入，此時(shí)WorldDreamer認(rèn)為所有的視頻幀都是被掩碼的視覺(jué)Token，并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

下圖展示了WorldDreamer在各種風(fēng)格范式下從文本生成視頻的能力。

生成的視頻與輸入語(yǔ)言無(wú)縫契合，其中用戶(hù)輸入的語(yǔ)言可以塑造視頻內(nèi)容、風(fēng)格和相機(jī)運(yùn)動(dòng)。

視頻修改（Video Inpainting）

WorldDreamer進(jìn)一步可以實(shí)現(xiàn)視頻的inpainting任務(wù)。

具體來(lái)說(shuō)，給定一段視頻，用戶(hù)可以指定mask區(qū)域，然后根據(jù)語(yǔ)言的輸入可以更改被mask區(qū)域的視頻內(nèi)容。

如下圖所示，WorldDreamer可以將水母更換為熊，也可以將蜥蜴更換為猴子，且更換后的視頻高度符合用戶(hù)的語(yǔ)言描述。

視頻風(fēng)格化（Video Stylization）

除此以外，WorldDreamer可以實(shí)現(xiàn)視頻的風(fēng)格化。

如下圖所示，輸入一個(gè)視頻段，其中某些像素被隨機(jī)掩碼，WorldDreamer可以改變視頻的風(fēng)格，例如根據(jù)輸入語(yǔ)言創(chuàng)建秋季主題效果。

基于動(dòng)作合成視頻（Action to Video）

WorldDreamer也可以實(shí)現(xiàn)在自動(dòng)駕駛場(chǎng)景下的駕駛動(dòng)作到視頻的生成。

如下圖所示，給定相同的初始幀以及不同的駕駛策略（如左轉(zhuǎn)、右轉(zhuǎn)），WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

那么，WorldDreamer又是怎樣實(shí)現(xiàn)這些功能的呢？

用Transformer構(gòu)建世界模型

研究人員認(rèn)為，目前最先進(jìn)的視頻生成方法主要分為兩類(lèi)——基于Transformer的方法和基于擴(kuò)散模型的方法。

利用Transformer進(jìn)行Token預(yù)測(cè)可以高效學(xué)習(xí)到視頻信號(hào)的動(dòng)態(tài)信息，并可以復(fù)用大語(yǔ)言模型社區(qū)的經(jīng)驗(yàn)，因此，基于Transformer的方案是學(xué)習(xí)通用世界模型的一種有效途徑。

而基于擴(kuò)散模型的方法難以在單一模型內(nèi)整合多種模態(tài)，且難以拓展到更大參數(shù)，因此很難學(xué)習(xí)到通用世界的變化和運(yùn)動(dòng)規(guī)律。

而當(dāng)前的世界模型研究主要集中在游戲、機(jī)器人和自動(dòng)駕駛領(lǐng)域，缺乏全面捕捉通用世界變化和運(yùn)動(dòng)規(guī)律的能力。

所以，研究團(tuán)隊(duì)提出了WorldDreamer來(lái)加強(qiáng)對(duì)通用世界的變化和運(yùn)動(dòng)規(guī)律的學(xué)習(xí)理解，從而顯著增強(qiáng)視頻生成的能力。

借鑒大型語(yǔ)言模型的成功經(jīng)驗(yàn)，WorldDreamer采用Transformer架構(gòu)，將世界模型建模框架轉(zhuǎn)換為一個(gè)無(wú)監(jiān)督的視覺(jué)Token預(yù)測(cè)問(wèn)題。

具體的模型結(jié)構(gòu)如下圖所示：

WorldDreamer首先使用視覺(jué)Tokenizer將視覺(jué)信號(hào)（圖像和視頻）編碼為離散的Token。

這些Token在經(jīng)過(guò)掩蔽處理后，輸入給研究團(tuán)隊(duì)提出的Sptial Temporal Patchwuse Transformer（STPT）模塊。

同時(shí)，文本和動(dòng)作信號(hào)被分別編碼為對(duì)應(yīng)的特征向量，以作為多模態(tài)特征一并輸入給STPT。

STPT在內(nèi)部對(duì)視覺(jué)、語(yǔ)言、動(dòng)作等特征進(jìn)行充分的交互學(xué)習(xí)，并可以預(yù)測(cè)被掩碼部分的視覺(jué)Token。

最終，這些預(yù)測(cè)出的視覺(jué)Token可以用來(lái)完成各種各樣的視頻生成和視頻編輯任務(wù)。

值得注意的是，在訓(xùn)練WorldDreamer時(shí)，研究團(tuán)隊(duì)還構(gòu)建了Visual-Text-Action（視覺(jué)-文本-動(dòng)作）數(shù)據(jù)的三元組，訓(xùn)練時(shí)的損失函數(shù)僅涉及預(yù)測(cè)被掩蔽的視覺(jué)Token，沒(méi)有額外的監(jiān)督信號(hào)。

而在團(tuán)隊(duì)提出的這個(gè)數(shù)據(jù)三元組中，只有視覺(jué)信息是必須的，也就是說(shuō)，即使在沒(méi)有文本或動(dòng)作數(shù)據(jù)的情況下，依然可以進(jìn)行WorldDreamer的訓(xùn)練。

這種模式不僅降低了數(shù)據(jù)收集的難度，還使得WorldDreamer可以支持在沒(méi)有已知或只有單一條件的情況下完成視頻生成任務(wù)。

研究團(tuán)隊(duì)使用大量數(shù)據(jù)對(duì)WorldDreamer進(jìn)行訓(xùn)練，其中包括20億經(jīng)過(guò)清洗的圖像數(shù)據(jù)、1000萬(wàn)段通用場(chǎng)景的視頻、50萬(wàn)段高質(zhì)量語(yǔ)言標(biāo)注的視頻、以及近千段自動(dòng)駕駛場(chǎng)景視頻。

團(tuán)隊(duì)對(duì)10億級(jí)別的可學(xué)習(xí)參數(shù)進(jìn)行了百萬(wàn)次迭代訓(xùn)練，收斂后的WorldDreamer逐漸理解了物理世界的變化和運(yùn)動(dòng)規(guī)律，并擁有了各種的視頻生成和視頻編輯能力。

論文地址：https://arxiv.org/abs/2401.09985
項(xiàng)目主頁(yè)：https://world-dreamer.github.io/

責(zé)任編輯：張燕妮來(lái)源：量子位

AI 視頻

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看