奧巴馬完變白種人?GFP-GAN達(dá)到盲人臉修復(fù)新里程碑
盲人臉修復(fù)(blind face restoration)是從低質(zhì)量的人臉中恢復(fù)出高質(zhì)量人臉的過程。這些質(zhì)量較低的肖像圖可能由各種原因?qū)е峦嘶绲头直媛剩胍簦:蚴潜粔嚎s。
和一般的圖像修復(fù)相比,人臉修復(fù)更加注重細(xì)節(jié),如一些皺紋、酒窩等都需要恢復(fù)出來才能讓人感覺這個系統(tǒng)不錯,也就是說,這是一個粒度更細(xì)的圖像修復(fù)任務(wù)。
其次,如標(biāo)題中 blind 所言,照片的退化函數(shù)的類型、數(shù)量我們是無法事先獲悉的。通常的圖像修復(fù)都是針對一種退化場景設(shè)計的,比如,在去噪任務(wù)中,可能就只是針對某種或某幾種噪聲而言,而不考慮圖像模糊等其他因素,因此任務(wù)相對簡單。
但如果退化的種類太多,退化函數(shù)本身可能會非常復(fù)雜,即使神經(jīng)網(wǎng)絡(luò)也未必能近似出來。
之前盲人臉恢復(fù)的研究通常依賴于面部幾何特征或參考之前照片細(xì)節(jié)進(jìn)行恢復(fù)。但這類方法在現(xiàn)實場景中的適用性十分有限,低質(zhì)量的輸入通常無法提供準(zhǔn)確的幾何先驗,也無法獲得高質(zhì)量的參考。
針對這個問題,騰訊PCG的應(yīng)用研究中心ARC實驗室提出了GFP-GAN模型,利用封裝在預(yù)訓(xùn)練面部GAN中的豐富多樣的先驗信息進(jìn)行盲面部修復(fù)。這種生成性面部先驗?zāi)P停℅enerative Facial Prior, GFP)通過空間特征變換層被納入到面部恢復(fù)過程中,這使得該方法能夠?qū)崿F(xiàn)真實性和保真度的良好平衡。

并且得益于強(qiáng)大的通用面部先驗和精細(xì)設(shè)計,GFP-GAN只需一次前向傳遞即可同時修復(fù)面部細(xì)節(jié)和增強(qiáng)顏色,而GAN inversion方法需要在推理時進(jìn)行特定圖像的優(yōu)化。
文章的第一作者是騰訊 ARC 實驗室(深圳應(yīng)用研究中心)的研究員,在香港中文大學(xué)多媒體實驗室獲得博士學(xué)位,并在湯曉鷗教授和Chen Change Loy教授的指導(dǎo)下進(jìn)行研究。
于2016年獲得浙江大學(xué)工程學(xué)士學(xué)位。研究興趣包括計算機(jī)視覺和深度學(xué)習(xí),尤其關(guān)注圖像/視頻恢復(fù)任務(wù),如超分辨率。
主流的圖像修復(fù)技術(shù)還是對抗生成網(wǎng)絡(luò)GAN,但如何用好GAN是個學(xué)問。
GFP-GAN 進(jìn)行真實世界盲人臉復(fù)原。面部先驗知識隱含在像 StyleGAN 這樣經(jīng)過訓(xùn)練的面部 GAN 模型中。這些面部GAN模型可以生成具有各種各樣的面孔,可以生成多種臉型、多種膚色、紋理特征的面部。

這里的難點涉及到將這些生成的先驗納入修復(fù)過程。在過去,研究通常使用 GAN inversion方法來恢復(fù)。在這個過程中,退化的圖像首先被反轉(zhuǎn)回一個預(yù)訓(xùn)練的 GAN隱空間的編碼,之后進(jìn)行緩慢的image-specific的優(yōu)化重建圖像。
雖然輸出在視覺上是真實的,但是它們的保真度很低。
GFP-GAN 通過使用了一個巧妙的設(shè)計來解決這些問題,有助于在single forward pass中平衡真實性和保真度。
GFP-GAN 包括一個退化清除模塊和一個預(yù)訓(xùn)練的面部 GAN 作為面部先驗。這兩個模塊通過直接的隱編碼映射和多個信道分割空間特征變換(CS-SFT)層以粗到精的方式連接。

CS-SFT 層對特征進(jìn)行空間調(diào)節(jié)。左邊的特征是直接通過信息保存,其中包含生成預(yù)先,同時保持高保真度。
研究人員還引入了面部部件損失( facial component loss),使用局部判別器來增強(qiáng)不變的面部細(xì)節(jié),同時通過識別保留損失(identity preserving loss)來提高保真度。
盡管在改善盲人影像復(fù)原方面取得了進(jìn)展,但仍然面臨很多難點,GFP-GAN 方法也不能很好地解決。按照作者的說法,盡管 GFP-GAN 在各種人口群體的大多數(shù)面孔上表現(xiàn)良好,但當(dāng)輸入的圖像是灰度圖像時,問題就出現(xiàn)了。這可能會導(dǎo)致輸出有顏色偏差,因為輸入中并不包含足夠判斷膚色的顏色信息。

此外,如果退化的真實圖像十分嚴(yán)重的,修復(fù)的面部細(xì)節(jié)就完全是由 GFP-GAN 生成的了,也就是說跟原圖關(guān)系不大。由于合成退化和訓(xùn)練數(shù)據(jù)分布不同于現(xiàn)實世界中的數(shù)據(jù)分布,這種方法也容易對非常大的姿勢產(chǎn)生非自然的結(jié)果。作者認(rèn)為,這種局限性可以通過使用真實數(shù)據(jù)的分布來克服,而不是僅僅依賴于合成數(shù)據(jù)。
人臉修復(fù)是一個棘手的領(lǐng)域,尤其是在偏見因素方面。最近發(fā)生的一個有趣的事是PULSE 算法將一張低質(zhì)量的巴拉克•奧巴馬(Barack Obama)照片進(jìn)行了高倍放大,從而輸出了一張高分辨率的白人照片。這種偏差問題在機(jī)器學(xué)習(xí)中非常普遍,因為人臉識別算法在非白人和女性面孔上的數(shù)據(jù)收集較少。

人臉盲修復(fù)已經(jīng)是CV中重要研究領(lǐng)域,所以相關(guān)的工作也有很多,例如最近的 CVPR 2021中,有研究人員引入了漸進(jìn)式語義感知風(fēng)格轉(zhuǎn)換框架 (progressive semantic-aware style transformation framework-GAN, PSFR-GAN)方法。該技術(shù)通過語義感知樣式轉(zhuǎn)換恢復(fù)低質(zhì)量的人臉圖像,首先建立一個多尺度輸入金字塔,然后逐步從粗到精調(diào)整不同尺度的特征。

DeblurGAN 使用端到端的 GAN 進(jìn)行單幅圖像運動去模糊。這種方法可以提高模型的去模糊效率、靈活性和質(zhì)量,是基于條件 GAN 與雙尺度判別器(double-scale discriminator)。作者聲稱這是第一次將特征金字塔網(wǎng)絡(luò)作為 Deblur-GAN 生成器中的核心構(gòu)建模塊納入到去模糊中。

mGANprior 的方法將訓(xùn)練好的 GANs 作為各種圖像處理任務(wù)之前的有效工具。該方法在生成器的中間層生成多個特征映射,然后根據(jù)自適應(yīng)信道重要度對其進(jìn)行合成,恢復(fù)輸入圖像。
