成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻

發(fā)布于 2024-4-2 12:33
瀏覽
0收藏

谷歌的研究人員推出了一款多模態(tài)擴(kuò)散模型——VLOGGER。


用戶(hù)只需要向VLOGGER輸入圖像、語(yǔ)音,就能生成帶語(yǔ)音、豐富動(dòng)作的人物視頻。VLOGGER基于擴(kuò)散模型開(kāi)發(fā)而成,并提出了一種全新的架構(gòu),將文本生成圖像模型與空間、時(shí)間控制相結(jié)合,提升視頻生成的逼真效果和豐富動(dòng)作。


研究人員在HDTF、TalkingHead-1KH和MENTOR等多個(gè)數(shù)據(jù)集對(duì)VLOGGER進(jìn)行了綜合測(cè)試。結(jié)果顯示,VLOGGER在視頻質(zhì)量、物體還原性和時(shí)序一致性等方面表現(xiàn)出色,同時(shí)還能生成豐富的上半身和手勢(shì)動(dòng)作。


技術(shù)報(bào)告:https://enriccorona.github.io/vlogger/paper.pdf

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻-AI.x社區(qū)

隨著數(shù)字化經(jīng)濟(jì)的飛速發(fā)展,各行業(yè)對(duì)虛擬數(shù)字人的需求越來(lái)越多。但要制作出逼真的人物動(dòng)畫(huà)視頻需要大量的人工調(diào)整和修補(bǔ)才能獲得真實(shí)感,不然會(huì)出現(xiàn)動(dòng)作缺失、肢體動(dòng)作僵硬、五官不協(xié)調(diào)等問(wèn)題。


VLOGGER模型的創(chuàng)新之處在于,提出了全新的多階段擴(kuò)散模型架構(gòu):首先,通過(guò)使用隨機(jī)擴(kuò)散模型,根據(jù)輸入語(yǔ)音生成對(duì)應(yīng)的人體運(yùn)動(dòng)軌跡,包括表情、姿勢(shì)、視線(xiàn)和眨眼細(xì)節(jié)。


然后,使用創(chuàng)新的時(shí)空擴(kuò)散架構(gòu),將生成的人體運(yùn)動(dòng)軌跡及參考圖像作為條件實(shí)現(xiàn)完整的人物視頻合成。


此外,VLOGGER無(wú)需針對(duì)每個(gè)新人物重新訓(xùn)練模型,不依賴(lài)人臉檢測(cè)框選區(qū)域,而是直接生成完整目標(biāo)圖像。更重要的是,VLOGGER考慮到了現(xiàn)實(shí)中復(fù)雜的交流場(chǎng)景,例如,可見(jiàn)軀干、不同身份等,這對(duì)正確合成有效交流的人物動(dòng)作至關(guān)重要。


語(yǔ)音生成

第一階段,VLOGGER使用了Transformer的神經(jīng)網(wǎng)絡(luò)用于接收音頻波形輸入,并生成一系列3D面部表情和身體姿勢(shì)參數(shù),用于控制虛擬人物在視頻中的動(dòng)作。


為了獲得逼真的運(yùn)動(dòng)效果,該模型利用了一種統(tǒng)計(jì)的3D人體模型,能夠精確捕捉面部表情、頭部運(yùn)動(dòng)、眼球轉(zhuǎn)動(dòng)、眨眼以及手勢(shì)等細(xì)節(jié)。通過(guò)預(yù)測(cè)基于參考圖像的姿勢(shì)殘差,該模型可以針對(duì)特定身份生成個(gè)性化的運(yùn)動(dòng)序列。

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻-AI.x社區(qū)

為了與基于CNN的架構(gòu)相兼容,該模型將預(yù)測(cè)的3D參數(shù)渲染為密集的2D表示,包括身體的語(yǔ)義區(qū)域掩碼和部分參考圖像的扭曲視圖。這些2D控制信號(hào)將在下一階段用于指導(dǎo)視頻生成過(guò)程。

人物生成

第二階段,VLOGGER在空間和時(shí)間上進(jìn)行條件控制,以生成高質(zhì)量、任意長(zhǎng)度的視頻。該模塊接收了來(lái)自第一階段的2D控制信號(hào)作為輸入,并以參考圖像中的人物身份為條件,生成逼真的運(yùn)動(dòng)視頻幀序列。

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻-AI.x社區(qū)

VLOGGER基于成熟的文本到圖像擴(kuò)散模型,并通過(guò)一種新穎的架構(gòu)對(duì)其進(jìn)行擴(kuò)展,增加了時(shí)域卷積層,使其能夠處理時(shí)序數(shù)據(jù)。此外,VLOGGER還引入了一種"時(shí)序外推"的技術(shù),允許模型迭代生成任意長(zhǎng)度的視頻片段,同時(shí)保持時(shí)序一致性

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻-AI.x社區(qū)

為了提高生成效果,VLOGGER采用了級(jí)聯(lián)擴(kuò)散方法,對(duì)基礎(chǔ)分辨率的視頻進(jìn)行超分辨重建,生成高達(dá)512x512分辨率的高質(zhì)量影像。

VLOGGER數(shù)據(jù)集

為提高VLOGGER的泛化能力和安全性,研究人員構(gòu)建了一個(gè)大規(guī)模訓(xùn)練數(shù)據(jù)集MENTOR。該數(shù)據(jù)集包含80萬(wàn)名不同身份的人物視頻,視頻長(zhǎng)度總計(jì)超過(guò)2200小時(shí),覆蓋了不同年齡、膚色、體型和文化背景的人群。

谷歌推出多模態(tài)視頻模型,自動(dòng)生成豐富動(dòng)作視頻-AI.x社區(qū)

值得一提的是,數(shù)據(jù)集中的視頻均捕捉了單個(gè)人物在相機(jī)前交流的場(chǎng)景,并提供了相應(yīng)的3D姿勢(shì)和表情標(biāo)注,這對(duì)于訓(xùn)練VLOGGER的多模態(tài)能力發(fā)揮了重要作用。


本文轉(zhuǎn)自  AIGC開(kāi)放社區(qū)  ,作者:AIGC開(kāi)放社區(qū)


原文鏈接:??https://mp.weixin.qq.com/s/ja3F65avcxlEl8O4K1VGcg??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产一区二区免费 | 91精品国产乱码久久久久久久久 | 毛片久久久| 高清久久 | 玖玖视频免费 | xxx国产精品视频 | 伊人精品国产 | 精品乱码一区二区三四区视频 | 成人黄色av网站 | 91中文字幕| 日韩一区二区三区在线观看 | 国产亚洲一区二区三区 | 国产精品揄拍一区二区 | 欧美成人h版在线观看 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 91久久久久久 | 国产三区四区 | 久久视频免费观看 | 成年人免费网站 | 欧美在线视频一区二区 | 久久精品国产一区二区三区 | 日中文字幕在线 | 亚洲视频国产视频 | 中文字幕在线电影观看 | 国产精品3区 | 国际精品鲁一鲁一区二区小说 | 在线中文字幕日韩 | 国产精品无 | 日韩精品二区 | 日韩淫片免费看 | 99tv| 无码日韩精品一区二区免费 | 欧美日韩一区二区三区在线观看 | 亚洲va欧美va天堂v国产综合 | 毛片一级片 | 亚洲一区在线播放 | 国产精品99精品久久免费 | 国产成人在线看 | 精品一区二区三区不卡 | 成人一区二区三区在线 | 成人免费一级视频 |