成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從20億數(shù)據(jù)中學(xué)習(xí)物理世界,基于Transformer的通用世界模型成功挑戰(zhàn)視頻生成

人工智能 新聞
它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù),可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

建立會(huì)做視頻的世界模型,也能通過(guò)Transformer來(lái)實(shí)現(xiàn)了!

來(lái)自清華和極佳科技的研究人員聯(lián)手,推出了全新的視頻生成通用世界模型——WorldDreamer。

它可以完成自然場(chǎng)景和自動(dòng)駕駛場(chǎng)景多種視頻生成任務(wù),例如文生視頻、圖生視頻、視頻編輯、動(dòng)作序列生視頻等。

圖片

據(jù)團(tuán)隊(duì)介紹,通過(guò)預(yù)測(cè)Token的方式來(lái)建立通用場(chǎng)景世界模型,WorldDreamer是業(yè)界首個(gè)。

它把視頻生成轉(zhuǎn)換為一個(gè)序列預(yù)測(cè)任務(wù),可以對(duì)物理世界的變化和運(yùn)動(dòng)規(guī)律進(jìn)行充分地學(xué)習(xí)。

可視化實(shí)驗(yàn)已經(jīng)證明,WorldDreamer已經(jīng)深刻理解了通用世界的動(dòng)態(tài)變化規(guī)律。

那么,它都能完成哪些視頻任務(wù),效果如何呢?

支持多種視頻任務(wù)

圖像生成視頻(Image to Video)

WorldDreamer可以基于單一圖像預(yù)測(cè)未來(lái)的幀。

只需首張圖像輸入,WorldDreamer將剩余的視頻幀視為被掩碼的視覺(jué)Token,并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

如下圖所示,WorldDreamer具有生成高質(zhì)量電影級(jí)別視頻的能力。

其生成的視頻呈現(xiàn)出無(wú)縫的逐幀運(yùn)動(dòng),類(lèi)似于真實(shí)電影中流暢的攝像機(jī)運(yùn)動(dòng)。

而且,這些視頻嚴(yán)格遵循原始圖像的約束,確保幀構(gòu)圖的顯著一致性。

圖片

文本生成視頻(Text to Video)

WorldDreamer還可以基于文本進(jìn)行視頻生成。

僅僅給定語(yǔ)言文本輸入,此時(shí)WorldDreamer認(rèn)為所有的視頻幀都是被掩碼的視覺(jué)Token,并對(duì)這部分Token進(jìn)行預(yù)測(cè)。

下圖展示了WorldDreamer在各種風(fēng)格范式下從文本生成視頻的能力。

生成的視頻與輸入語(yǔ)言無(wú)縫契合,其中用戶(hù)輸入的語(yǔ)言可以塑造視頻內(nèi)容、風(fēng)格和相機(jī)運(yùn)動(dòng)。

圖片

視頻修改(Video Inpainting)

WorldDreamer進(jìn)一步可以實(shí)現(xiàn)視頻的inpainting任務(wù)。

具體來(lái)說(shuō),給定一段視頻,用戶(hù)可以指定mask區(qū)域,然后根據(jù)語(yǔ)言的輸入可以更改被mask區(qū)域的視頻內(nèi)容。

如下圖所示,WorldDreamer可以將水母更換為熊,也可以將蜥蜴更換為猴子,且更換后的視頻高度符合用戶(hù)的語(yǔ)言描述。

圖片

視頻風(fēng)格化(Video Stylization)

除此以外,WorldDreamer可以實(shí)現(xiàn)視頻的風(fēng)格化。

如下圖所示,輸入一個(gè)視頻段,其中某些像素被隨機(jī)掩碼,WorldDreamer可以改變視頻的風(fēng)格,例如根據(jù)輸入語(yǔ)言創(chuàng)建秋季主題效果。

圖片

基于動(dòng)作合成視頻(Action to Video)

WorldDreamer也可以實(shí)現(xiàn)在自動(dòng)駕駛場(chǎng)景下的駕駛動(dòng)作到視頻的生成。

如下圖所示,給定相同的初始幀以及不同的駕駛策略(如左轉(zhuǎn)、右轉(zhuǎn)),WorldDreamer可以生成高度符合首幀約束以及駕駛策略的視頻。

圖片

那么,WorldDreamer又是怎樣實(shí)現(xiàn)這些功能的呢?

用Transformer構(gòu)建世界模型

研究人員認(rèn)為,目前最先進(jìn)的視頻生成方法主要分為兩類(lèi)——基于Transformer的方法和基于擴(kuò)散模型的方法。

利用Transformer進(jìn)行Token預(yù)測(cè)可以高效學(xué)習(xí)到視頻信號(hào)的動(dòng)態(tài)信息,并可以復(fù)用大語(yǔ)言模型社區(qū)的經(jīng)驗(yàn),因此,基于Transformer的方案是學(xué)習(xí)通用世界模型的一種有效途徑。

而基于擴(kuò)散模型的方法難以在單一模型內(nèi)整合多種模態(tài),且難以拓展到更大參數(shù),因此很難學(xué)習(xí)到通用世界的變化和運(yùn)動(dòng)規(guī)律。

而當(dāng)前的世界模型研究主要集中在游戲、機(jī)器人和自動(dòng)駕駛領(lǐng)域,缺乏全面捕捉通用世界變化和運(yùn)動(dòng)規(guī)律的能力。

所以,研究團(tuán)隊(duì)提出了WorldDreamer來(lái)加強(qiáng)對(duì)通用世界的變化和運(yùn)動(dòng)規(guī)律的學(xué)習(xí)理解,從而顯著增強(qiáng)視頻生成的能力。

借鑒大型語(yǔ)言模型的成功經(jīng)驗(yàn),WorldDreamer采用Transformer架構(gòu),將世界模型建模框架轉(zhuǎn)換為一個(gè)無(wú)監(jiān)督的視覺(jué)Token預(yù)測(cè)問(wèn)題。

具體的模型結(jié)構(gòu)如下圖所示:

圖片

WorldDreamer首先使用視覺(jué)Tokenizer將視覺(jué)信號(hào)(圖像和視頻)編碼為離散的Token。

這些Token在經(jīng)過(guò)掩蔽處理后,輸入給研究團(tuán)隊(duì)提出的Sptial Temporal Patchwuse Transformer(STPT)模塊。

同時(shí),文本和動(dòng)作信號(hào)被分別編碼為對(duì)應(yīng)的特征向量,以作為多模態(tài)特征一并輸入給STPT。

STPT在內(nèi)部對(duì)視覺(jué)、語(yǔ)言、動(dòng)作等特征進(jìn)行充分的交互學(xué)習(xí),并可以預(yù)測(cè)被掩碼部分的視覺(jué)Token。

最終,這些預(yù)測(cè)出的視覺(jué)Token可以用來(lái)完成各種各樣的視頻生成和視頻編輯任務(wù)。

圖片

值得注意的是,在訓(xùn)練WorldDreamer時(shí),研究團(tuán)隊(duì)還構(gòu)建了Visual-Text-Action(視覺(jué)-文本-動(dòng)作)數(shù)據(jù)的三元組,訓(xùn)練時(shí)的損失函數(shù)僅涉及預(yù)測(cè)被掩蔽的視覺(jué)Token,沒(méi)有額外的監(jiān)督信號(hào)。

而在團(tuán)隊(duì)提出的這個(gè)數(shù)據(jù)三元組中,只有視覺(jué)信息是必須的,也就是說(shuō),即使在沒(méi)有文本或動(dòng)作數(shù)據(jù)的情況下,依然可以進(jìn)行WorldDreamer的訓(xùn)練。

這種模式不僅降低了數(shù)據(jù)收集的難度,還使得WorldDreamer可以支持在沒(méi)有已知或只有單一條件的情況下完成視頻生成任務(wù)。

研究團(tuán)隊(duì)使用大量數(shù)據(jù)對(duì)WorldDreamer進(jìn)行訓(xùn)練,其中包括20億經(jīng)過(guò)清洗的圖像數(shù)據(jù)、1000萬(wàn)段通用場(chǎng)景的視頻、50萬(wàn)段高質(zhì)量語(yǔ)言標(biāo)注的視頻、以及近千段自動(dòng)駕駛場(chǎng)景視頻。

團(tuán)隊(duì)對(duì)10億級(jí)別的可學(xué)習(xí)參數(shù)進(jìn)行了百萬(wàn)次迭代訓(xùn)練,收斂后的WorldDreamer逐漸理解了物理世界的變化和運(yùn)動(dòng)規(guī)律,并擁有了各種的視頻生成和視頻編輯能力。

論文地址:https://arxiv.org/abs/2401.09985
項(xiàng)目主頁(yè):https://world-dreamer.github.io/

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2024-05-24 12:53:06

AI訓(xùn)練

2023-12-12 13:52:00

數(shù)據(jù)訓(xùn)練

2025-04-08 09:30:00

模型AI機(jī)器人

2024-05-13 12:53:06

AI模型

2024-10-22 09:40:00

模型生成

2025-02-14 09:30:00

視頻生成模型開(kāi)源機(jī)器人

2024-04-18 12:16:37

MetaAIOpenEQA

2024-02-19 08:58:00

模型AI

2023-11-03 13:07:00

AI模型

2024-03-05 11:18:14

模型訓(xùn)練

2023-10-23 10:11:36

自動(dòng)駕駛技術(shù)

2023-12-20 14:54:29

谷歌Gen-2視頻

2022-06-10 12:38:07

物聯(lián)網(wǎng)IOT

2024-11-08 09:11:24

2023-07-21 15:05:04

人工智能智能汽車(chē)數(shù)字技術(shù)

2023-12-13 13:49:00

模型訓(xùn)練

2024-07-01 13:02:53

2025-05-23 09:07:39

2025-04-25 09:00:00

Transforme模型代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久久久综合 | 欧美不卡 | 色一级片 | av一级在线观看 | 久久久91精品国产一区二区三区 | 精品国产一区二区三区在线观看 | 一区二区成人 | 真人一级毛片 | 黑人成人网| 成人在线中文字幕 | 在线视频亚洲 | 日韩久久精品 | 亚洲成人精品 | 国产精品日韩欧美一区二区三区 | 国产91在线播放 | 日日夜精品视频 | 一区天堂| 国产精品久久久久久一区二区三区 | 99热都是精品 | 九九伊人sl水蜜桃色推荐 | 国产一区二区三区久久久久久久久 | 中文字幕 国产精品 | 激情五月激情综合网 | 国产欧美综合在线 | 97av| 国产精品免费观看 | 一区精品国产欧美在线 | 久草.com| 精品国产一二三区 | 久久日本 | 中文字幕高清免费日韩视频在线 | 成人高清在线视频 | 黄色成人在线网站 | 成人国产精品久久久 | 亚洲人成网亚洲欧洲无码 | 日韩中文不卡 | 日韩在线小视频 | 日日摸天天添天天添破 | 亚洲精品无人区 | 久久亚洲国产 | 欧美视频 亚洲视频 |