譯者 | 崔皓
審校 | 孫淑娟
開篇
來自于中、英兩國的一項合作研究設計出了一種在視頻中重塑面孔的新方法。該技術可以擴大和縮小面部結構,同時還具有高度一致性,并且沒有人工修剪的痕跡。
一般而言,這種面部結構的轉化通過傳統的 CGI 方法來實現,而傳統的 CGI 方法依托詳細且昂貴的運動封蓋、裝配和紋理程序來完全重建面部。
與傳統方式不同的是,新技術中的 CGI 被集成到神經管道中,將其作為3D 面部信息的參數,并作為機器學習工作流程的基礎。
作者指出:
“我們的目標是以現實世界中的自然人臉為基礎,對其人臉輪廓進行變形、編輯等操作,從而生成高質量的人像重塑視頻 [結果]。這一技術可以用于諸如美化面部和面部夸張的視覺效果應用。
盡管自從 Photoshop 出現以來,消費者就可以使用 2D 面部扭曲的技術(并且導致了面部扭曲和身體畸形的亞文化),但在不使用 CGI 的情況下實現視頻的面部重塑依舊是一個很難的技術。
馬克扎克伯格的面部尺寸因新技術而擴大和縮小
目前,身體重塑是計算機視覺領域的一個熱門話題,主要是因為它在時尚電子商務中的潛力,例如:讓人看起來更高、骨骼更加多樣化,但目前依舊面臨一些挑戰。
同樣,以令人信服的方式改變視頻中的面部形狀一直是研究人員工作的核心,盡管該項技術的落地一直受到人為加工和其他限制的影響。由此,新產品將先前研究的能力從靜態擴展遷移到了動態的視頻輸出。
新系統在配備 AMD Ryzen 9 3950X 和 32GB 內存的臺式 PC 上進行訓練,并使用OpenCV的光流算法生成運動圖,并通過StructureFlow框架進行平滑處理;用于特征估算的Facial Alignment Network ( FAN ) 組件,也用于流行的deepfakes組件包中;和Ceres Solver共同解決面部優化問題。
使用新系統擴大面部的例子
這篇論文的題目是Parametric Reshaping of Portraits in Videos,其作者來自浙江大學的三位研究人員和巴斯大學的一位研究人員。
關于臉
新系統中,視頻被提取成圖像序列,首先為人臉建立基礎模型。然后連接具有代表性的后續幀,從而沿著整個圖像運行方向(即視頻幀的方向)構建一致的個性參數。
人臉變形系統的架構流程
接著,根據計算表達式,產生由線性回歸實現的整形參數。然后通過signed distance function有符號距離函數 ( SDF )在面部重塑前后構建面部輪廓的2D 映射。
最后,對輸出視頻進行內容識別的變形優化。
面部參數化
該過程利用了 3D Morphable Face Model 可變形人臉模型(3DMM),它是基于神經和 GAN 的人臉合成輔助工具,同時適用于深度偽造檢測系統。
來自 3D Morphable face Model (3DMM) 的示例——新項目中使用的參數化原型面。左上角,3DMM 面上的標志性應用。右上角,isomap 的 3D 網格頂點。左下角顯示特征擬合;底部靠中間的圖片,提取的面部紋理的 isomap;和右下角,最終的擬合和形狀
新系統的工作流程會考慮遮擋的情況,例如當對象移開視線的情況。這也是 Deepfake 軟件面臨的最大挑戰之一,因為 FAN 地標幾乎無法解釋這些情況,并且隨著面部避開或被遮擋,其轉換質量往往會下降。
新系統通過定義匹配 3D 人臉 (3DMM) 和 2D 人臉(由 FAN 地標定義)邊界的“輪廓能量”來避免上述問題的發生。
優化
該系統的應用場景是實時變形,例如在視頻聊天的過濾器實時變換臉形。當前而言,框架無法實現這點,因此提供必要的計算資源讓“實時”變形實現,就成為了一個顯著的挑戰。
根據論文的假設,24fps的視頻在流水線中每幀操作相對于每秒素材的延遲為 16.344 秒,同時對于特征估計和 3D 面部變形而言,還伴隨一次性命中(分別為 321 毫秒和 160 毫秒)。
因此,優化在降低延遲方面取得了關鍵進展。由于跨所有幀的聯合優化會大幅增加系統開銷,并且初始化風格的優化(假設自始至終說話者的特征一致)可能會導致異常,因此作者采用了稀疏模式來計算系數以實際間隔采樣的幀數。
然后在該幀子集上執行聯合優化,從而實現更精簡的重建過程。
臉部曲面
該項目中使用的變形技術是對作者 2020 年作品Deep Shapely Portraits (DSP) 的改編。
Deep Shapely Portraits,2020 年提交給 ACM Multimedia 的作品。該論文由浙大-騰訊游戲與智能圖形創新技術聯合實驗室的研究人員牽頭
作者觀察到“我們將這種方法從重塑單目圖像擴展到重塑整個圖像序列。”
測試
該論文指出,沒有具有可比性的歷史資料來評估新方法。因此,作者將他們的曲面視頻輸出幀與靜態 DSP 輸出進行了比較。
針對來自 Deep Shapely Portraits 的靜態圖像測試新系統
作者指出,由于使用了稀疏映射,DSP 方法會有人為修改的痕跡——新框架通過密集映射解決了這個問題。此外,該論文認為,DSP 制作的視頻缺乏流暢性和視覺連貫性。
作者指出:
“結果表明,我們的方法可以穩定、連貫地生成經過重塑的肖像視頻,而基于圖像的方法很容易導致明顯的閃爍偽影(人工修改痕跡)。”
譯者介紹
崔皓,51CTO社區編輯,資深架構師,擁有18年的軟件開發和架構經驗,10年分布式架構經驗。曾任惠普技術專家。樂于分享,撰寫了很多熱門技術文章,閱讀量超過60萬。《分布式架構原理與實踐》作者。
原文標題:??Restructuring Faces in Videos With Machine Learning??,作者:Martin Anderson