成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

新聞 機(jī)器學(xué)習(xí)
谷歌聯(lián)合印度團(tuán)隊(duì)開發(fā)出新的框架LipSync3D,該項(xiàng)目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法,實(shí)現(xiàn)根據(jù)音頻創(chuàng)造「會(huì)說話的頭像」視頻。

 

谷歌人工智能研究人員和印度卡哈拉格普爾理工學(xué)院(Indian Institute of Technology Kharagpur)一起合作開發(fā)了一個(gè)新的框架,可以從音頻內(nèi)容中綜合有聲頭像。

該項(xiàng)目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法,實(shí)現(xiàn)根據(jù)音頻創(chuàng)造「會(huì)說話的頭像」視頻,在交互式應(yīng)用程序和其他實(shí)時(shí)環(huán)境中實(shí)現(xiàn)同步口型動(dòng)作的配音或機(jī)器翻譯的音頻,并添加到頭像。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

論文地址:https://arxiv.org/pdf/2106.04185.pdf

機(jī)器學(xué)習(xí)模型LipSync3D

在這個(gè)過程中訓(xùn)練的機(jī)器學(xué)習(xí)模型LipSync3D,只需要一個(gè)目標(biāo)人臉識(shí)別的視頻作為輸入數(shù)據(jù)。

數(shù)據(jù)準(zhǔn)備管道將面部幾何的提取與輸入視頻的燈光和其他方面的評(píng)估分離開來,允許更經(jīng)濟(jì)合算和更集中的訓(xùn)練。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

LipSync3D的兩階段工作流程。上圖是從「目標(biāo)」音頻生成的動(dòng)態(tài)紋理三維人臉; 下圖是將生成的網(wǎng)格插入到目標(biāo)視頻中。

事實(shí)上,LipSync3D對(duì)這一領(lǐng)域研究工作最顯著的貢獻(xiàn)可能是其照明歸一化算法(lighting normalization algorithm),該算法將訓(xùn)練和推斷照明解耦。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

從一般幾何解耦照明數(shù)據(jù)有助于LipSync3D在具有挑戰(zhàn)性的條件下產(chǎn)生更真實(shí)的口型變化。最近幾年的其他方法已經(jīng)將自己限制在「固定」的照明條件下,這樣就不會(huì)暴露出它們?cè)谶@方面的有限。

在輸入數(shù)據(jù)幀的預(yù)處理過程中,系統(tǒng)必須識(shí)別和刪除鏡像點(diǎn),因?yàn)檫@些鏡像點(diǎn)是特定于拍攝視頻光照條件的,否則會(huì)干擾重現(xiàn)過程。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

LipSync3D,顧名思義,不僅僅是對(duì)它評(píng)估的面孔進(jìn)行像素分析,而是積極地使用已確定的面部標(biāo)志來生成運(yùn)動(dòng)的CGI風(fēng)格的網(wǎng)格,以及通過傳統(tǒng)CGI管道包裹在它們周圍的「展開」(unfolded)紋理。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

LipSync3D 中的姿勢(shì)歸一化。左邊是輸入幀和檢測特征; 中間是生成的網(wǎng)格評(píng)估的規(guī)范化頂點(diǎn); 右邊是相應(yīng)的紋理圖譜,為紋理預(yù)測提供了基礎(chǔ)真實(shí)性。來源: https://arxiv.org/pdf/2106.04185.pdf

除了這種新穎的照明重現(xiàn)方法,研究人員聲稱,LipSync3D在以前的工作中提供了三個(gè)主要?jiǎng)?chuàng)新: 將幾何、光照、姿態(tài)和紋理分離到規(guī)范化空間中的離散數(shù)據(jù)流中; 一個(gè)易于訓(xùn)練的自回歸紋理預(yù)測模型,可以生成時(shí)間上一致的視頻合成; 以及通過人類評(píng)級(jí)和客觀度量來增加真實(shí)感。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

分裂出的視頻面部圖像的各個(gè)方面允許在視頻合成中實(shí)現(xiàn)更大的控制。

通過分析語音的音素和其他方面,LipSync3D可以直接從音頻中推導(dǎo)出適當(dāng)?shù)拇讲繋缀芜\(yùn)動(dòng),并將其轉(zhuǎn)化為嘴部周圍已知的相應(yīng)肌肉姿勢(shì)。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

這個(gè)過程使用一個(gè)聯(lián)合預(yù)測管道,其中推斷的幾何形狀和紋理在自動(dòng)編碼器設(shè)置中有專門的編碼器,但與打算施加在模型上的語音共享一個(gè)音頻編碼器:

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

LipSync3D 的動(dòng)作合成也助力提升程式化的CGI頭像,實(shí)際上它們只是和真實(shí)世界的圖像一樣的網(wǎng)格和紋理信息:

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

一個(gè)個(gè)性的3D頭像的嘴唇動(dòng)作實(shí)時(shí)動(dòng)力源揚(yáng)聲器視頻。在這種情況下,最優(yōu)結(jié)果將通過個(gè)性化的預(yù)訓(xùn)練獲得。

研究人員還希望使用更加真實(shí)的頭像:

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

在 GeForce GTX 1080上使用 TensorFlow、 Python 和 C + + 的管道中,視頻的示例訓(xùn)練時(shí)間從2-5分鐘的視頻所需3-5小時(shí)不等。訓(xùn)練課程使用了一批大小為128幀超過500-1000epoch,每個(gè)epoch代表一個(gè)完整的視頻評(píng)估。

未來:動(dòng)態(tài)的口型再同步

過去幾年,口型再同步適應(yīng)新的音軌已經(jīng)在計(jì)算機(jī)視覺研究中吸引了大量的關(guān)注,尤其是它還是有爭議的deepfake技術(shù)的副產(chǎn)品。

2017年,華盛頓大學(xué)展示了一項(xiàng)能夠通過音頻學(xué)習(xí)對(duì)口型的研究,還用當(dāng)時(shí)的總統(tǒng)奧巴馬的圖片做了視頻。

會(huì)說話的頭像!新框架LipSync3D,未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年,馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所進(jìn)行了另一項(xiàng)研究計(jì)劃,實(shí)現(xiàn)了身份 > 身份視頻轉(zhuǎn)換(identity>identity video transfer),還帶來了口型同步; 2021年5月,人工智能初創(chuàng)公司 FlawlessAI 發(fā)布了其專有的對(duì)口型同步技術(shù) TrueSync,該技術(shù)被媒體廣泛認(rèn)可為跨語言的主要電影的發(fā)行改進(jìn)配音技術(shù)。

當(dāng)然,deepfake開源資源庫的持續(xù)發(fā)展也為面部圖像合成這一領(lǐng)域提供了另一個(gè)活躍的用戶貢獻(xiàn)的研究分支。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2015-07-16 13:45:18

山寨湯姆貓源碼

2020-03-06 10:34:40

AI 數(shù)據(jù)人工智能

2022-09-15 13:10:27

機(jī)器人Ameca英國

2011-11-02 09:07:03

Outfit7會(huì)說話的朋友Talking Tom

2023-11-29 10:55:21

2024-12-04 16:08:12

2012-06-29 09:29:25

明基投影機(jī)

2012-02-24 11:11:03

云存儲(chǔ)Win平臺(tái)

2009-04-25 09:05:42

Symbian移動(dòng)OS

2020-02-20 20:30:16

編程語言框架

2020-10-19 09:46:47

大數(shù)據(jù)可視化技術(shù)

2025-05-13 07:43:42

EasyDubLinly-TalkSpringBoot

2012-06-16 16:57:52

WebGL

2013-03-13 09:23:34

SDN企業(yè)網(wǎng)絡(luò)格局電信設(shè)備商

2012-11-13 10:52:15

大數(shù)據(jù)3D可視化

2022-02-25 10:38:19

開源3D建模免費(fèi)

2024-03-28 14:20:56

智慧工業(yè)

2023-12-10 15:17:59

開源模型3D

2023-09-11 10:20:25

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 成人国产综合 | 91免费看片神器 | 久久久久久久国产 | 欧美一级二级在线观看 | 中文字幕二区 | 亚洲国产精品网站 | 国产电影一区二区三区爱妃记 | 国产激情视频在线 | 久久久久九九九女人毛片 | 福利视频三区 | a在线视频 | 男女下面一进一出网站 | 亚洲精品乱码久久久久v最新版 | 欧美三级视频在线观看 | 国产伦精品一区二区三区四区视频 | 91免费视频 | 国产精品爱久久久久久久 | 中文字幕日韩欧美 | 国产黑丝av | 国产精品久久久久一区二区三区 | 日日噜噜噜夜夜爽爽狠狠视频, | 免费同性女女aaa免费网站 | 久久999| 亚洲毛片在线观看 | 99免费| 在线国产视频 | 国外成人在线视频 | 黄色av网站在线观看 | 国产精品久久久久久久久久久久久 | 午夜视频在线观看视频 | 亚洲国产精品久久久久秋霞不卡 | 大陆一级毛片免费视频观看 | 性国产xxxx乳高跟 | 久久伊人一区 | 国产精品久久久久久久久久久久久 | 亚洲综合视频 | 亚洲一区三区在线观看 | 亚洲人在线播放 | 插插宗合网 | 成人免费大片黄在线播放 | 成年人免费看的视频 |