會(huì)說話的頭像！新框架LipSync3D，未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

作者：佚名 2021-06-17 14:40:41

谷歌聯(lián)合印度團(tuán)隊(duì)開發(fā)出新的框架LipSync3D，該項(xiàng)目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法，實(shí)現(xiàn)根據(jù)音頻創(chuàng)造「會(huì)說話的頭像」視頻。

谷歌人工智能研究人員和印度卡哈拉格普爾理工學(xué)院（Indian Institute of Technology Kharagpur）一起合作開發(fā)了一個(gè)新的框架，可以從音頻內(nèi)容中綜合有聲頭像。

該項(xiàng)目的目的是開發(fā)出經(jīng)過優(yōu)化且資源合理的方法，實(shí)現(xiàn)根據(jù)音頻創(chuàng)造「會(huì)說話的頭像」視頻，在交互式應(yīng)用程序和其他實(shí)時(shí)環(huán)境中實(shí)現(xiàn)同步口型動(dòng)作的配音或機(jī)器翻譯的音頻，并添加到頭像。

會(huì)說話的頭像！新框架LipSync3D，未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

論文地址：https://arxiv.org/pdf/2106.04185.pdf

機(jī)器學(xué)習(xí)模型LipSync3D

在這個(gè)過程中訓(xùn)練的機(jī)器學(xué)習(xí)模型LipSync3D，只需要一個(gè)目標(biāo)人臉識(shí)別的視頻作為輸入數(shù)據(jù)。

數(shù)據(jù)準(zhǔn)備管道將面部幾何的提取與輸入視頻的燈光和其他方面的評(píng)估分離開來，允許更經(jīng)濟(jì)合算和更集中的訓(xùn)練。

LipSync3D的兩階段工作流程。上圖是從「目標(biāo)」音頻生成的動(dòng)態(tài)紋理三維人臉; 下圖是將生成的網(wǎng)格插入到目標(biāo)視頻中。

事實(shí)上，LipSync3D對(duì)這一領(lǐng)域研究工作最顯著的貢獻(xiàn)可能是其照明歸一化算法（lighting normalization algorithm），該算法將訓(xùn)練和推斷照明解耦。

從一般幾何解耦照明數(shù)據(jù)有助于LipSync3D在具有挑戰(zhàn)性的條件下產(chǎn)生更真實(shí)的口型變化。最近幾年的其他方法已經(jīng)將自己限制在「固定」的照明條件下，這樣就不會(huì)暴露出它們?cè)谶@方面的有限。

在輸入數(shù)據(jù)幀的預(yù)處理過程中，系統(tǒng)必須識(shí)別和刪除鏡像點(diǎn)，因?yàn)檫@些鏡像點(diǎn)是特定于拍攝視頻光照條件的，否則會(huì)干擾重現(xiàn)過程。

LipSync3D，顧名思義，不僅僅是對(duì)它評(píng)估的面孔進(jìn)行像素分析，而是積極地使用已確定的面部標(biāo)志來生成運(yùn)動(dòng)的CGI風(fēng)格的網(wǎng)格，以及通過傳統(tǒng)CGI管道包裹在它們周圍的「展開」（unfolded）紋理。

LipSync3D 中的姿勢(shì)歸一化。左邊是輸入幀和檢測特征; 中間是生成的網(wǎng)格評(píng)估的規(guī)范化頂點(diǎn); 右邊是相應(yīng)的紋理圖譜，為紋理預(yù)測提供了基礎(chǔ)真實(shí)性。來源: https://arxiv.org/pdf/2106.04185.pdf

除了這種新穎的照明重現(xiàn)方法，研究人員聲稱，LipSync3D在以前的工作中提供了三個(gè)主要?jiǎng)?chuàng)新: 將幾何、光照、姿態(tài)和紋理分離到規(guī)范化空間中的離散數(shù)據(jù)流中; 一個(gè)易于訓(xùn)練的自回歸紋理預(yù)測模型，可以生成時(shí)間上一致的視頻合成; 以及通過人類評(píng)級(jí)和客觀度量來增加真實(shí)感。

分裂出的視頻面部圖像的各個(gè)方面允許在視頻合成中實(shí)現(xiàn)更大的控制。

通過分析語音的音素和其他方面，LipSync3D可以直接從音頻中推導(dǎo)出適當(dāng)?shù)拇讲繋缀芜\(yùn)動(dòng)，并將其轉(zhuǎn)化為嘴部周圍已知的相應(yīng)肌肉姿勢(shì)。

這個(gè)過程使用一個(gè)聯(lián)合預(yù)測管道，其中推斷的幾何形狀和紋理在自動(dòng)編碼器設(shè)置中有專門的編碼器，但與打算施加在模型上的語音共享一個(gè)音頻編碼器:

LipSync3D 的動(dòng)作合成也助力提升程式化的CGI頭像，實(shí)際上它們只是和真實(shí)世界的圖像一樣的網(wǎng)格和紋理信息:

一個(gè)個(gè)性的3D頭像的嘴唇動(dòng)作實(shí)時(shí)動(dòng)力源揚(yáng)聲器視頻。在這種情況下，最優(yōu)結(jié)果將通過個(gè)性化的預(yù)訓(xùn)練獲得。

研究人員還希望使用更加真實(shí)的頭像:

在 GeForce GTX 1080上使用 TensorFlow、 Python 和 C + + 的管道中，視頻的示例訓(xùn)練時(shí)間從2-5分鐘的視頻所需3-5小時(shí)不等。訓(xùn)練課程使用了一批大小為128幀超過500-1000epoch，每個(gè)epoch代表一個(gè)完整的視頻評(píng)估。

未來：動(dòng)態(tài)的口型再同步

過去幾年，口型再同步適應(yīng)新的音軌已經(jīng)在計(jì)算機(jī)視覺研究中吸引了大量的關(guān)注，尤其是它還是有爭議的deepfake技術(shù)的副產(chǎn)品。

2017年，華盛頓大學(xué)展示了一項(xiàng)能夠通過音頻學(xué)習(xí)對(duì)口型的研究，還用當(dāng)時(shí)的總統(tǒng)奧巴馬的圖片做了視頻。

https://grail.cs.washington.edu/projects/AudioToObama/siggraph17_obama.pdf

2018年，馬克斯·普朗克計(jì)算機(jī)科學(xué)研究所進(jìn)行了另一項(xiàng)研究計(jì)劃，實(shí)現(xiàn)了身份 > 身份視頻轉(zhuǎn)換（identity>identity video transfer），還帶來了口型同步; 2021年5月，人工智能初創(chuàng)公司 FlawlessAI 發(fā)布了其專有的對(duì)口型同步技術(shù) TrueSync，該技術(shù)被媒體廣泛認(rèn)可為跨語言的主要電影的發(fā)行改進(jìn)配音技術(shù)。

當(dāng)然，deepfake開源資源庫的持續(xù)發(fā)展也為面部圖像合成這一領(lǐng)域提供了另一個(gè)活躍的用戶貢獻(xiàn)的研究分支。

責(zé)任編輯：張燕妮來源：新智元

人工智能谷歌框架

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

會(huì)說話的頭像！新框架LipSync3D，未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步

機(jī)器學(xué)習(xí)模型LipSync3D

未來：動(dòng)態(tài)的口型再同步

會(huì)說話的頭像！新框架LipSync3D，未來或?qū)崿F(xiàn)動(dòng)態(tài)口型再同步