成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于擴(kuò)散模型的音頻驅(qū)動(dòng)說(shuō)話人生成,云從&上交數(shù)字人研究入選ICASSP 2023

人工智能 新聞
云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊(duì)的《 基于擴(kuò)散模型的音頻驅(qū)動(dòng)說(shuō)話人生成》成功入選會(huì)議論文,并于大會(huì)進(jìn)行現(xiàn)場(chǎng)宣講,獲得多方高度關(guān)注。

近日,國(guó)際語(yǔ)音及信號(hào)處理領(lǐng)域頂級(jí)會(huì)議 ICASSP2023 在希臘成功舉辦。大會(huì)邀請(qǐng)了全球范圍內(nèi)各大研究機(jī)構(gòu)、專家學(xué)者以及等谷歌、蘋果華為、Meta AI、等知名企業(yè)近 4000 人共襄盛會(huì),探討技術(shù)、產(chǎn)業(yè)發(fā)展趨勢(shì),交流最新成果。

云從科技與上海交通大學(xué)聯(lián)合研究團(tuán)隊(duì)的《 基于擴(kuò)散模型的音頻驅(qū)動(dòng)說(shuō)話人生成》成功入選會(huì)議論文,并于大會(huì)進(jìn)行現(xiàn)場(chǎng)宣講,獲得多方高度關(guān)注。

圖片


論文地址:https://ieeexplore.ieee.org/document/10094937/

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是語(yǔ)音、聲學(xué)領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一, ICASSP 學(xué)術(shù)會(huì)議上展示的研究成果,被認(rèn)為代表著聲學(xué)、語(yǔ)音領(lǐng)域的前沿水平與未來(lái)發(fā)展方向。

本次入選論文,圍繞 “基于音頻驅(qū)動(dòng)的說(shuō)話人視頻生成” 這一視覺(jué) - 音頻的跨模態(tài)任務(wù),將語(yǔ)音與視覺(jué)技術(shù)結(jié)合,提出的方法能夠根據(jù)輸入的語(yǔ)音片段技術(shù),生成自然的頭部動(dòng)作,準(zhǔn)確的唇部動(dòng)作和高質(zhì)量的面部表情說(shuō)話視頻。該項(xiàng)成果在多個(gè)數(shù)據(jù)集上,都取得了優(yōu)于過(guò)去研究的表現(xiàn)。

此外,在實(shí)戰(zhàn)場(chǎng)景中,隨著現(xiàn)實(shí)生活中對(duì)于數(shù)字人引用的愈來(lái)愈廣泛,實(shí)現(xiàn)用音頻驅(qū)動(dòng)的生成與輸入音頻同步的說(shuō)話人臉視頻的需求也越來(lái)越大。本項(xiàng)成果基于擴(kuò)散模型的跨模態(tài)說(shuō)話人生成技術(shù),可以推廣到廣泛的應(yīng)用場(chǎng)景,例如虛擬新聞廣播,虛擬演講和視頻會(huì)議等等。

簡(jiǎn)介

基于音頻驅(qū)動(dòng)的說(shuō)話人視頻生成任務(wù)(Audio-driven Talking face Video Generation):該任務(wù)是根據(jù)目標(biāo)人物的一張照片和任意一段語(yǔ)音音頻,生成與音頻同步的目標(biāo)人物說(shuō)話的視頻。由于其生成的說(shuō)話人更自然、準(zhǔn)確的唇形運(yùn)動(dòng)和保真度更高的頭部姿態(tài)、面部表情,該任務(wù)廣泛應(yīng)用于如數(shù)字人、虛擬視頻會(huì)議和人機(jī)交互等領(lǐng)域,作為視覺(jué) - 音頻的跨模態(tài)任務(wù),基于音頻驅(qū)動(dòng)的說(shuō)話人視頻生成也受到了越來(lái)越多的關(guān)注。

為了構(gòu)建音頻信號(hào)到面部形變的映射,現(xiàn)有方法引入了中間人臉表征,包括 2D 關(guān)鍵點(diǎn)或者 3D morphable face model (3DMM),盡管這些方法在音頻驅(qū)動(dòng)的面部重演任務(wù)上取得了良好的視覺(jué)質(zhì)量,但由于中間人臉表征造成的信息損失,可能會(huì)導(dǎo)致原始音頻信號(hào)和學(xué)習(xí)到的人臉變形之間的語(yǔ)義不匹配。

此外基于 GAN 的方法訓(xùn)練不穩(wěn)定,很容易陷入模型崩塌,往往它們只能生成具有固定分辨率的圖像。針對(duì)以上問(wèn)題,AD-Nerf 引入了神經(jīng)輻射場(chǎng),將音頻信號(hào)直接輸入動(dòng)態(tài)輻射場(chǎng)的隱式函數(shù),最后渲染得到逼真的合成視頻。但是基于神經(jīng)輻射場(chǎng)的方法計(jì)算量大導(dǎo)致訓(xùn)練耗時(shí)長(zhǎng),算力要求高。并且這些工作大多忽略了個(gè)性化的人臉屬性,無(wú)法準(zhǔn)確的將音頻和唇部運(yùn)動(dòng)進(jìn)行同步。因此本文的研究者們提出了本方法,通過(guò)借助去噪擴(kuò)散模型來(lái)高效地優(yōu)化人臉各部分個(gè)性化屬性特征,進(jìn)而合成高保真度的高清晰視頻。

方法

該方法首先基于一個(gè)關(guān)鍵的直覺(jué):唇部運(yùn)動(dòng)與語(yǔ)音信號(hào)高度相關(guān),而個(gè)性化信息,如頭部姿勢(shì)和眨眼,與音頻的關(guān)聯(lián)較弱且因人而異。受到最近擴(kuò)散模型在高質(zhì)量的圖像以及視頻生成方面已經(jīng)取得了快速進(jìn)展的啟發(fā),因此研究者們基于擴(kuò)散模型重新構(gòu)造音頻驅(qū)動(dòng)面部重演的新框架,本方法來(lái)優(yōu)化說(shuō)話人臉視頻的生成質(zhì)量和真實(shí)度。

圖片


本方法一共包含四大部分:(1)人臉屬性解耦;(2)唇 - 音對(duì)比同步;(3)動(dòng)態(tài)連續(xù)性屬性信息建模;(4)基于去噪擴(kuò)散模型的說(shuō)話人生成

人臉屬性解耦部分中,研究者采用 3DMM 提取源身份圖像的頭部姿態(tài)和表情系數(shù),然后借鑒之前 DFA-nerf 的工作采用全連接的自編碼器從表情參數(shù)解耦得到唇部運(yùn)動(dòng)和眨眼動(dòng)作信息。

唇 - 音對(duì)比同步模塊中,研究者通過(guò)引入自監(jiān)督跨模態(tài)對(duì)比學(xué)習(xí)策略來(lái)部署一個(gè)確定性模型來(lái)同步音頻和唇部運(yùn)動(dòng)的特征。

動(dòng)態(tài)連續(xù)性屬性信息建模模塊中,由于頭部姿勢(shì)和眨眼等個(gè)性化人臉屬性是隨機(jī)的和具有一定概率性的,因此為了對(duì)人臉屬性的概率分布進(jìn)行建模并生成長(zhǎng)時(shí)間序列,研究者提出采用了基于 transformer 的變分自動(dòng)編碼器(VAE)的概率模型,一是 VAE 可以用于平滑離散的屬性信息并映射為高斯分布,二是利用 Transformer 的注意力機(jī)制充分學(xué)習(xí)時(shí)間序列的幀間長(zhǎng)時(shí)依賴性。

基于去噪擴(kuò)散模型的說(shuō)話人生成模塊中,研究者生成的個(gè)性化人臉屬性序列與同步的音頻嵌入相連接作為擴(kuò)散模型的輸入條件。然后利用條件去噪擴(kuò)散概率模型(DDPM)將這些驅(qū)動(dòng)條件以及源人臉作為輸入,通過(guò)擴(kuò)散生成的方式生成最終的高分辨率說(shuō)話人視頻。這些個(gè)性化人臉屬性序列與同步的音頻嵌入用來(lái)豐富擴(kuò)散模型,以保持生成圖像序列的一致性。

實(shí)驗(yàn)結(jié)果

研究者們通過(guò)實(shí)驗(yàn)驗(yàn)證了本方法對(duì)于基于音頻驅(qū)動(dòng)的說(shuō)話人視頻生成任務(wù)的優(yōu)越性能。

定量比較實(shí)驗(yàn)

研究者將本方法與現(xiàn)有音頻驅(qū)動(dòng)的人臉視頻生成方法通過(guò)定量化分析實(shí)驗(yàn)進(jìn)行比較,采用了峰值信噪比 (PSNR), 結(jié)構(gòu)相似度(SSIM),人臉關(guān)鍵點(diǎn)運(yùn)動(dòng)偏移(LMD),視聽同步置信度 (Sync) 等多個(gè)客觀的評(píng)估指標(biāo),具體信息如表 1 所示。

圖片

本文所提出的擴(kuò)散生成框架在所有的性能指標(biāo)上都優(yōu)于其他方法,其中 PSNR 和 SSIM 驗(yàn)證了人臉屬性解耦方案能夠更好地捕捉說(shuō)話人的頭部姿態(tài)、眨眼等個(gè)性化信息。而本方法的 LMD 分?jǐn)?shù)意味著本方法的唇音一致性更強(qiáng)。此外,受益于輸入音頻和唇部運(yùn)動(dòng)的跨模態(tài)對(duì)比學(xué)習(xí),本方法在 Sync 指標(biāo)上大幅超越其他方法。

定性比較實(shí)驗(yàn)

研究者將本方法與現(xiàn)有音頻驅(qū)動(dòng)的人臉視頻生成方法進(jìn)行比較。通過(guò)個(gè)性化屬性的學(xué)習(xí)以及擴(kuò)散模型的優(yōu)化,我們的方法生成具有個(gè)性化的頭部運(yùn)動(dòng),更加逼真眨眼信息,唇 - 音同步性能更好的人臉視頻。

模型中每個(gè)模塊帶來(lái)的效益

為了突顯出模型中每個(gè)模塊的重要性,研究者們做了消融實(shí)驗(yàn),如表 2 所示,當(dāng)添加 DDPM 模塊之后,在推理速度和視覺(jué)質(zhì)量方面相比于其他模塊的提升是最大的,其次,受益于解耦的人臉屬性信息以及 VAE 的屬性平滑以及動(dòng)態(tài)連續(xù)性建模的作用,說(shuō)話人人臉的自然度得到了提高。此外,唇音對(duì)比學(xué)習(xí)的模塊通過(guò)自監(jiān)督的方式顯著提高了唇部運(yùn)動(dòng)和與輸入音頻的同步質(zhì)量。

圖片

模型的效率

研究者們還展示了模型的可訓(xùn)練參數(shù)量,推理速度以及輸出的分辨率大小,并和之前的 SOTA 模型進(jìn)行了對(duì)比,由于使用去噪擴(kuò)散概率模型,該模型利用變分方法而不是對(duì)抗性訓(xùn)練,并且不需要部署多個(gè)鑒別器,因此極大緩解了訓(xùn)練時(shí)模型容易陷入模型坍塌的問(wèn)題,并且采用了較短的時(shí)間步長(zhǎng),推理速度大大提高,效率得到了提升。

圖片

結(jié)論

針對(duì)基于音頻驅(qū)動(dòng)的高保真度說(shuō)話人視頻生成這個(gè)任務(wù),云從 - 上交的聯(lián)合研究團(tuán)隊(duì)提出了,基于擴(kuò)散框架的音頻驅(qū)動(dòng)說(shuō)話人視頻生成方法,只需要一幀或幾幀身份圖像以及輸入語(yǔ)音音頻,即合成一個(gè)高保真度的人臉視頻,實(shí)現(xiàn)了最先進(jìn)的合成視頻視覺(jué)質(zhì)量。此外利用了跨模態(tài)唇音對(duì)比學(xué)習(xí)的方法,從而提升了唇部和音頻的一致性,在公開數(shù)據(jù)集上取得了 SOTA 表現(xiàn)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2012-05-21 16:08:07

Hadoop云計(jì)算

2025-04-16 09:20:00

虛擬模型數(shù)字

2024-03-28 13:14:00

數(shù)據(jù)訓(xùn)練

2025-02-25 09:30:00

2022-06-06 10:58:52

訓(xùn)練DeepMind研究

2024-02-26 08:25:00

模型訓(xùn)練

2025-04-08 09:30:00

模型AI機(jī)器人

2024-09-12 14:00:00

AI訓(xùn)練

2024-12-05 13:00:00

2023-10-09 07:29:35

算法音樂(lè)驅(qū)動(dòng)數(shù)字人

2023-01-10 14:25:24

微軟AI

2018-04-23 16:27:27

線性網(wǎng)絡(luò)語(yǔ)音合成自適應(yīng)

2015-06-23 11:01:52

云計(jì)算資源池軟件定義網(wǎng)絡(luò)

2009-07-21 14:47:30

it失業(yè)

2025-03-17 11:35:36

LLaDALLM大型語(yǔ)言模型

2024-12-30 07:11:00

大型視覺(jué)語(yǔ)言模型VLMs人工智能

2022-09-13 15:40:56

模型分析

2023-02-01 13:39:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美亚州 | 亚洲欧美国产毛片在线 | 最新中文字幕在线 | 亚洲精品一 | 日韩免费视频 | 爱高潮www亚洲精品 中文字幕免费视频 | 国产精品视频区 | 日韩精品一区二区三区在线播放 | 日本久久精品视频 | 欧美精品综合在线 | av喷水| 别c我啊嗯国产av一毛片 | 欧美一级免费 | 国产精彩视频一区 | av网站推荐 | 91久久精品国产 | 成人av播放 | 国产精品中文字幕在线 | 国产黄色大片在线免费观看 | 日韩国产欧美在线观看 | 亚洲成人国产综合 | 国产精品视频网址 | 日日操视频 | 日韩美女一区二区三区在线观看 | 九一视频在线播放 | 亚洲精品字幕 | 成人福利在线观看 | 狠狠视频| 久久精品这里 | 黑人巨大精品 | 日韩久草 | 天天碰夜夜操 | 日韩久久久久 | 影音先锋成人资源 | 欧美日韩精品亚洲 | 一二区视频 | 密色视频 | 成人一区二区在线 | 91精品国产91久久久久久最新 | 国产一级片免费视频 | a免费视频 |