讓真人照片說話算什么?Adobe新研究讓插座都能開口說話
不僅讓真人圖像開口說話,油畫、素描、漫畫等都能動起來!
給出一張面部圖像和一段音頻,能做什么?AI 有辦法,比如讓圖像中的人開口說話!
此前,機器之心報道過三星人工智能研究中心和倫敦帝國理工學院提出的新型端到端系統,僅憑一張人臉照片和一段音頻,就可以生成新的講話或唱歌視頻。
最近我們發現了一項類似的研究,馬薩諸塞大學阿默斯特分校、Adobe 研究院等機構提出了一種叫做 MakeItTalk 的新方法,不僅能讓真人頭像說話,還可以讓卡通、油畫、素描、日漫中的人像說話。
論文鏈接:https://arxiv.org/pdf/2004.12992v1.pdf
不信就來看看效果吧!
我們首先看一看真人圖像的動態化效果。
看起來不錯,那么卡通畫呢?
給我一個插座,我能讓他成精!
還有油畫。
如果我想讓圖像中的人物搖頭晃腦高談闊論,或者保持沉靜端莊呢?
答案是也可以實現。
動圖 get 不到聲畫同步效果?請戳下面這個視頻:
那么,這是如何做到的呢?
之前的方法往往學習音頻和原始像素之間的直接映射進而創建人物的說話動態,而這項研究提出的方法將輸入音頻信號中的內容和說話人身份信息分離開來:音頻內容用來穩健地控制嘴唇及周圍區域的運動;說話人信息則決定面部表情的細節和人物的頭部動態。
該方法的另一個重要組件是預測能夠反映說話人動態的面部特征點。基于該中間表征,該方法能夠為真人頭部圖像合成說話狀態視頻。此方法還可用于藝術作品、素描、2D 卡通人物、日漫、隨手涂鴉等圖像。
研究者對該方法進行了定量和定性評估,結果表明與之前的 SOTA 方法相比,該方法能夠生成具備更高質量的說話狀態頭部動畫。
圖 8:與 SOTA 方法的對比。
研究貢獻
該研究的主要貢獻如下:
- 提出一種基于深度學習的新架構,能夠僅基于語音信號預測面部特征點,捕捉嘴唇、下巴、眉毛、鼻子和頭部的姿勢;
- 基于分離開的語音內容和說話人表征生成包含面部表情和頭部動態的動畫;
- 針對矢量風格卡通圖像和真實人物面部圖像各提出一種圖像合成方法。這些方法可以處理訓練過程中未出現的新人臉圖像和卡通人物圖像;
- 提出一組定量度量指標,并對頭部動畫方法的評估進行了用戶調研。
MakeItTalk 架構
圖 2:MakeItTalk 方法概覽。
如上圖所示,給出一段音頻和一張面部圖像,MakeItTalk 架構可以生成說話人的頭部狀態動畫,且聲畫同步。
在訓練階段,研究者使用現成可用的人臉特征點檢測器對輸入圖像進行預處理,提取面部特征點。然后使用輸入音頻和提取到的特征點直接訓練使語音內容動態化的基線模型。為了達到高保真動態效果,研究者嘗試將輸入音頻信號的語音內容和說話人嵌入分離開來,進而實現面部特征點的預測。
具體而言,該研究使用聲音轉換神經網絡將語音內容和說話人身份信息分離開。
語音內容與說話人無關,僅捕捉嘴唇及周圍區域的運動(參見圖 2「Speech Content Animation」)。說話人的身份信息則決定了動作的細節和說話人的其余頭部動態(參加圖 2「Speaker-Aware Animation」)。
例如,不管誰說單詞「Ha!」嘴唇都會張開,這與說話人無關,僅取決于說話內容。而嘴唇的形狀和張開的幅度,以及鼻子、眼睛和頭部的動態則取決于說話人的身份。
基于語音內容和說話人身份信息,MakeItTalk 模型為給定音頻輸出預測特征點序列。
圖 3:針對不同說話人身份的特征點預測。左:給定人臉圖像的靜態特征點;右上:對說話時頭部動作較輕的人的預測特征點序列;右下:對說話時頭部動作較大的人的預測特征點序列。
為了生成光柵圖像,研究者開發了兩種特征點-圖像合成(landmark-to-image synthesis)算法。
對于非真人圖像,如油畫或矢量圖(圖 9),該研究使用基于德勞內三角剖分(Delaunay triangulation)的簡單換臉方法。
圖 4:通過面部特征點和德勞內三角剖分進行卡通圖像換臉。左:給出的卡通圖像和面部特征點;中:德勞內三角剖分;右:由預測特征點引導進行換臉后的圖像。
對于真人圖像(圖 8),則使用圖像轉換網絡(類似于 pix2pix)將真人面部圖像和底層特征點預測動態化(參見上圖 2「Image2Image Translation」)。
之后結合所有圖像幀和輸入音頻,就可以得到最終的說話狀態頭部動畫了。
下圖 6 展示了卡通圖像和真人圖像的動態化結果:
圖 6:MakeItTalk 生成的卡通動畫和真人面部動畫。該方法不僅可以合成面部表情,還可以合成不同的頭部姿勢。
MakeItTalk 有何實際用途?
合成說話狀態頭部動畫有很多應用場景,比如配音。
下圖 7a 中,原始視頻使用語言為英語,而配音版使用的是西班牙語,那么問題來了,配音版影片中人物的面部表情和語音對不上號。使用 MakeItTalk 后可以生成語音對應的視頻幀,實現聲畫同步,并保持原版視頻中的說話風格。
另一個應用則是目前應用廣泛的視頻會議。
在有限帶寬視頻會議中,視頻幀無法以高保真度和高幀率進行傳輸,這時我們就可以利用聲音信號帶動說話者的頭部動態視頻。與視覺畫面相比,聲音信號可以以較低的帶寬保存。而且,面部表情(尤其是嘴唇動作)對于溝通交流非常重要。下圖 7b 展示了,使用 MakeItTalk 僅基于音頻和初始高質量視頻幀合成的頭部動態視頻。
圖 7:MakeItTalk 的應用。第一行:用不同語言為視頻配音;第二行:有限帶寬視頻會議。