成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

阿里文生視頻挑戰(zhàn)Gen-2、Pika,1280×720分辨率無(wú)壓力,3500萬(wàn)文本-視頻對(duì)顯奇效

人工智能 新聞
這些 demo 來(lái)自阿里聯(lián)合浙江大學(xué)、華中科技大學(xué)提出的文生視頻模型 I2VGen-XL,該模型能夠生成各種類別的高質(zhì)量視頻,如藝術(shù)畫(huà)、人像、動(dòng)物、科幻圖等。

文生視頻可以精細(xì)到什么程度?最近,阿里巴巴的一項(xiàng)研究給出了答案:1280×720 分辨率沒(méi)有壓力,而且生成效果非常連貫。

圖片

文本提示:A kitten in flowers, Chinese painting.(一只小貓?jiān)诨▍仓?,中?guó)畫(huà)。)

圖片

文本提示:A yellow robot.(一個(gè)黃色的機(jī)器人)

圖片

文本提示:A photo of an ancient shipwreck nestled on the ocean floor. Marine plants have claimed the wooden structure...(海底一艘古老沉船的照片。海洋植物侵蝕了木結(jié)構(gòu)……)

這些 demo 來(lái)自阿里聯(lián)合浙江大學(xué)、華中科技大學(xué)提出的文生視頻模型 I2VGen-XL,該模型能夠生成各種類別的高質(zhì)量視頻,如藝術(shù)畫(huà)、人像、動(dòng)物、科幻圖等。生成的視頻具有高清、高分辨率、平滑、美觀等優(yōu)點(diǎn),適合廣泛的視頻內(nèi)容創(chuàng)作任務(wù)。在與 Gen2、Pika 生成效果對(duì)比上, I2VGen-XL 生成的視頻動(dòng)作更加豐富,主要表現(xiàn)在更真實(shí)、更多樣的動(dòng)作,而 Gen-2 和 Pika 生成的視頻似乎更接近靜態(tài)。

除了生成效果,這項(xiàng)工作更令人印象深刻的一點(diǎn)是研究人員在數(shù)據(jù)上下的工夫。為了提高生成效果的多樣性,研究人員收集了大約 3500 萬(wàn)單鏡頭文本 - 視頻對(duì)和 60 億文本 - 圖像對(duì)來(lái)優(yōu)化模型,這是一個(gè)非常龐大的數(shù)據(jù)集,其后續(xù)潛力令人期待。

圖片

圖片

論文細(xì)節(jié)

圖片

  • 論文地址:https://arxiv.org/pdf/2311.04145.pdf
  • 論文主頁(yè):https://i2vgen-xl.github.io/page04.html

該研究表示得益于擴(kuò)散模型的快速發(fā)展,視頻合成最近取得了顯著的進(jìn)步。然而,它在語(yǔ)義的準(zhǔn)確性、清晰度和時(shí)空連續(xù)性方面仍然面臨挑戰(zhàn)。

出現(xiàn)這種狀況的原因一方面是由于缺乏良好的經(jīng)過(guò)對(duì)齊的文本 - 視頻數(shù)據(jù),另一方面在于視頻本身復(fù)雜的內(nèi)在結(jié)構(gòu),使得模型難以同時(shí)保證語(yǔ)義和質(zhì)量的卓越性。

為了解決上述問(wèn)題,研究者受到 SDXL 方法的啟發(fā),提出了一種級(jí)聯(lián)的 I2VGen-XL 方法,其能夠生成具有連貫空間和運(yùn)動(dòng)動(dòng)態(tài)化以及細(xì)節(jié)連續(xù)的高清視頻。

I2VGen-XL 旨在從靜態(tài)圖像生成高質(zhì)量視頻。因此,它需要實(shí)現(xiàn)兩個(gè)關(guān)鍵目標(biāo):語(yǔ)義一致性,即準(zhǔn)確預(yù)測(cè)圖像中的意圖,然后在保持輸入圖像的內(nèi)容和結(jié)構(gòu)的同時(shí)生成精確的運(yùn)動(dòng);高時(shí)空一致性和清晰度,這是視頻的基本屬性,對(duì)于確保視頻創(chuàng)作應(yīng)用的潛力至關(guān)重要。為此,I2VGenXL 通過(guò)由兩個(gè)階段組成的級(jí)聯(lián)策略分解這兩個(gè)目標(biāo):基礎(chǔ)階段和改進(jìn)階段。

  1. 基礎(chǔ)階段旨在保證低分辨率下生成視頻的語(yǔ)義連貫,同時(shí)還要保留輸入圖像的內(nèi)容和主體信息。為了達(dá)到這一目標(biāo),研究者設(shè)計(jì)了兩個(gè)分層編碼器,即固定 CLIP 編碼器和可學(xué)習(xí)內(nèi)容編碼器,分別提取高級(jí)語(yǔ)義和低級(jí)細(xì)節(jié),然后將其合并到視頻擴(kuò)散模型中。 
  2. 改進(jìn)階段:將視頻分辨率提高到 1280×720,并改進(jìn)生成視頻中存在的細(xì)節(jié)和偽影。具體來(lái)說(shuō),研究者使用簡(jiǎn)單的文本作為輸入來(lái)訓(xùn)練一個(gè)獨(dú)特的視頻擴(kuò)散模型,并優(yōu)化了其初始的 600 個(gè)去噪 step。通過(guò)使用噪聲去噪過(guò)程,該研究實(shí)現(xiàn)了從低分辨率視頻生成具有時(shí)間和空間一致性的高清視頻。

圖片

具體而言:

基礎(chǔ)階段?;?VLDM,本文設(shè)計(jì)的第一階段是低分辨率(即 448×256),主要側(cè)重于在輸入圖像上結(jié)合多級(jí)特征提取,包括高級(jí)語(yǔ)義和低級(jí)細(xì)節(jié)學(xué)習(xí)。

  1. 高級(jí)語(yǔ)義學(xué)習(xí)。該研究表示用 CLIP 的視覺(jué)編碼器來(lái)提取語(yǔ)義特征,這種方法可以學(xué)習(xí)高級(jí)語(yǔ)義,但忽略了圖像中精細(xì)細(xì)節(jié)的感知。為了緩解這個(gè)問(wèn)題,本文結(jié)合了一個(gè)額外的可訓(xùn)練全局編碼器來(lái)學(xué)習(xí)具有相同形狀的互補(bǔ)特征,其架構(gòu)如表 1 所示。
  2. 低級(jí)細(xì)節(jié)。為了減少細(xì)節(jié)的損失,本文采用從 VQGAN 編碼器(即 D.Enc.)提取的特征,并將它們直接添加到第一幀的輸入噪聲中。

圖片

改進(jìn)階段。經(jīng)過(guò)基礎(chǔ)階段可以獲得具有多樣化且語(yǔ)義準(zhǔn)確的運(yùn)動(dòng)的低分辨率視頻。然而,這些視頻可能會(huì)遇到各種問(wèn)題,例如噪聲、時(shí)間和空間抖動(dòng)以及變形。因此,改進(jìn)模型有兩個(gè)主要目標(biāo):i)增強(qiáng)視頻分辨率,將其從 448 × 256 增加到 1280 × 720 或更高;ii) 提高視頻的時(shí)空連續(xù)性和清晰度,解決時(shí)間和空間上的偽影問(wèn)題。

為了提高視頻質(zhì)量,該研究訓(xùn)練了一個(gè)單獨(dú)的 VLDM,專門(mén)處理高質(zhì)量、高分辨率數(shù)據(jù),并對(duì)第一階段生成的視頻采用 SDEdit 引入的噪聲去噪過(guò)程。

該研究還使用 CLIP 對(duì)文本進(jìn)行編碼,并通過(guò)交叉注意力將其嵌入到 3D UNet 中。然后,基于基礎(chǔ)階段的預(yù)訓(xùn)練模型,研究者使用精心挑選的高質(zhì)量視頻訓(xùn)練高分辨率模型,所有視頻的分辨率都大于 1280×720。

此外,該研究還收集了 3500 萬(wàn)個(gè)高質(zhì)量 single-shot 視頻和 60 億張圖像,以達(dá)到增強(qiáng) I2VGen-XL 多樣性和穩(wěn)健性的目的。

最后,廣泛的實(shí)驗(yàn)評(píng)估結(jié)果表明 I2VGen-XL 可以同時(shí)增強(qiáng)生成視頻的語(yǔ)義準(zhǔn)確性、細(xì)節(jié)的連續(xù)性和清晰度。此外,該研究還將 I2VGenXL 與當(dāng)前的頂級(jí)方法進(jìn)行了比較,結(jié)果都表明 I2VGenXL 在各種數(shù)據(jù)上的有效性。

實(shí)驗(yàn)結(jié)果

與 Gen2 和 Pika 的比較結(jié)果

為了證明新方法的有效性,研究者將 I2VGen-XL 的性能與 Gen-2 和 Pika 進(jìn)行了比較,二者被公認(rèn)為是目前文生視頻領(lǐng)域最先進(jìn)的方法。如圖 4 所示,作者使用這兩種方法的網(wǎng)頁(yè)界面生成了三種類型圖像的視頻,包括虛擬、寫(xiě)實(shí)和抽象繪畫(huà)。

從這些結(jié)果中可以得出以下幾個(gè)結(jié)論:i) 動(dòng)作的豐富性:I2VGen-XL 的結(jié)果顯示出更真實(shí)、更多樣的動(dòng)作,例如最上方的例子。相比之下,Gen-2 和 Pika 生成的視頻似乎更接近靜態(tài),這表明 I2VGen-XL 實(shí)現(xiàn)了更豐富的運(yùn)動(dòng);ii) ID 保留程度:從這三個(gè)樣本中可以看出,Gen-2 和 Pika 成功地保留了物體的身份特征,而 I2VGen-XL 則丟失了輸入圖像的一些細(xì)節(jié)。在實(shí)驗(yàn)中,作者還發(fā)現(xiàn) ID 保留程度和運(yùn)動(dòng)強(qiáng)度之間存在一定的權(quán)衡關(guān)系。I2VGen-XL 在這兩個(gè)因素之間取得了平衡。

圖片

I2VGen-XL 生成視頻結(jié)果。

I2VGen-XL 生成視頻結(jié)果。

改進(jìn)模型分析

圖 3 展示了改進(jìn)階段前后生成的視頻。這些結(jié)果表明,空間細(xì)節(jié)得到了大幅提升,包括面部和身體特征的細(xì)化,以及局部細(xì)節(jié)中噪音的明顯減少。

圖片

為了進(jìn)一步闡明改進(jìn)模型的工作機(jī)制,本文在圖 7 的頻域中分析了在此過(guò)程中生成的視頻中發(fā)生的空間和時(shí)間變化。圖 7a 顯示了四個(gè)空間輸入的頻譜,表明:低質(zhì)量視頻表現(xiàn)出與高頻范圍內(nèi)的噪聲相似的頻率分布,而高質(zhì)量視頻表現(xiàn)出與輸入圖像的頻率分布更相似。將其與圖 7b 所示的空間頻率分布相結(jié)合,可以觀察到改進(jìn)模型有效地保留了低頻數(shù)據(jù),同時(shí)在高頻數(shù)據(jù)中表現(xiàn)出更平滑的變化。從時(shí)間維度的角度來(lái)看,圖 7d 呈現(xiàn)了低質(zhì)量視頻(上)和高質(zhì)量視頻(下)的時(shí)間曲線,表明高清視頻的連續(xù)性有了明顯的改善。此外,結(jié)合圖 7b 和圖 7e 可以看出,改進(jìn)模型在空間和時(shí)間域中保留了低頻分量,減少了中頻分量,并增強(qiáng)了高頻分量。這表明時(shí)空域中的偽影主要存在于中頻范圍。

圖片

定性分析

該研究還對(duì)更廣泛的圖像進(jìn)行了實(shí)驗(yàn),包括人臉、3D 卡通、動(dòng)漫、國(guó)畫(huà)、小動(dòng)物等類別。結(jié)果如圖 5 所示,圖中可以觀察到生成的視頻考慮了圖像的內(nèi)容和合成視頻的美感,同時(shí)還表現(xiàn)出有意義且準(zhǔn)確的動(dòng)作。例如,在第六行,模型準(zhǔn)確地捕捉到了小貓可愛(ài)的嘴巴動(dòng)作。這些結(jié)果表明 I2VGen-XL 表現(xiàn)出有前途的泛化能力。

圖片

圖片

生成穩(wěn)定的人體運(yùn)動(dòng)仍然是視頻合成的主要挑戰(zhàn)。因此,該研究還專門(mén)驗(yàn)證了 I2VGen-XL 在人體圖像上的穩(wěn)健性,如圖 8 所示。可以觀察到,該模型對(duì)人體的預(yù)測(cè)和生成的運(yùn)動(dòng)相當(dāng)真實(shí),具有人體的大部分特征。

圖片

文本 - 視頻

文本到視頻合成目前面臨的主要挑戰(zhàn)之一是高質(zhì)量視頻 - 文本對(duì)的收集,這使得與圖像合成相比,實(shí)現(xiàn)視頻和文本之間的語(yǔ)義對(duì)齊更加困難。因此,將 Stable Diffusion 等圖像合成技術(shù)與圖像到視頻合成相結(jié)合,有助于提高生成視頻的質(zhì)量。事實(shí)上,為了尊重隱私,該研究幾乎所有樣本都是由兩者結(jié)合生成的。另外,在圖 6 中是本文單獨(dú)生成的樣本,可以觀察到視頻和文本表現(xiàn)出很高的語(yǔ)義一致性。

圖片

了解更多內(nèi)容,請(qǐng)參考原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2017-06-13 12:57:42

Windows 10Windows分辨率

2024-01-22 07:10:00

AI視頻

2023-10-30 17:19:28

模型訓(xùn)練

2010-06-08 13:38:18

opensuse 分辨

2021-12-21 22:57:04

Windows 11Windows微軟

2023-04-10 21:20:38

2024-03-01 12:18:00

AI訓(xùn)練

2024-04-25 13:14:19

模型數(shù)據(jù)

2023-03-06 09:09:56

視頻Edge瀏覽器

2022-03-23 10:07:00

Adobe人像訓(xùn)練

2012-05-09 14:46:37

明基投影機(jī)

2023-11-21 21:27:32

AI圖片

2024-01-25 11:43:00

2012-06-01 11:29:03

明基投影機(jī)

2009-11-29 17:08:18

vmlinux聲音分辨率

2023-07-27 14:25:30

模型AI

2011-05-06 16:47:24

筆記本海爾簡(jiǎn)愛(ài)7G

2023-11-17 22:50:08

模型AI

2024-05-10 07:58:03

2023-07-14 11:40:50

火狐瀏覽器Firefox
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久国产精品色av免费观看 | 精品91久久 | 久久天天躁狠狠躁夜夜躁2014 | 久久精品美女 | 久久亚洲一区二区三区四区 | 久久国产精品久久久久 | 久久久久久久久久一区 | 国产小视频在线看 | 毛色毛片免费看 | 亚洲精品视频一区 | 亚洲精品久久久一区二区三区 | 日本在线你懂的 | 亚洲欧美日韩精品久久亚洲区 | 日韩在线视频一区 | 在线看一区二区三区 | 日本视频免费 | 97av| 久久亚洲欧美日韩精品专区 | 日本精品视频一区二区 | 免费国产视频 | 国产高清久久久 | 一区二区三区四区国产精品 | 日本精品视频一区二区 | 超碰在线国产 | 男女羞羞视频网站 | 午夜一区二区三区 | 久久国产高清 | a爱视频 | 久久99精品久久久 | 国产成人精品一区二 | 国产精品天堂 | 国产精品精品久久久久久 | 中文字幕一区二区三区不卡 | 九色视频网站 | 国产综合精品一区二区三区 | 国产精品美女久久久久久免费 | 欧美视频区 | 日韩精品视频一区二区三区 | 久久久91精品国产一区二区三区 | 久久天堂网 | 亚洲精品乱码久久久久久久久 |