無需人工標(biāo)注,清華、快手基于參考圖像單張生成圖像質(zhì)量評價(jià)方法
引言
現(xiàn)有的生成圖像評價(jià)工作主要基于生成圖像的分布對模型「整體」的生成效果進(jìn)行評價(jià)。然而,一個(gè)性能優(yōu)異的生成模型并不代表其合成的「任何一張」圖像都具有高質(zhì)量的效果。在基于參考圖像(reference image)的生成任務(wù)中,譬如將用戶上傳的風(fēng)景照渲染成某種指定的風(fēng)格的業(yè)務(wù)場景中,能夠?qū)τ凇竼螐垺股蓤D像的質(zhì)量進(jìn)行評價(jià),對于提高用戶的使用體驗(yàn)是至關(guān)重要的。
該研究提出了基于參考圖像的單張生成圖像質(zhì)量評價(jià)方法 Reference-guided Image Synthesis Assessment(RISA)。
RISA 的貢獻(xiàn)和創(chuàng)新點(diǎn)可以總結(jié)為以下幾個(gè)方面:
- RISA 的訓(xùn)練圖像來自于 GAN 訓(xùn)練過程的中間模型生成的圖像,圖像的質(zhì)量標(biāo)簽來自于模型的迭代輪數(shù),無需人工標(biāo)注,理論上可用于訓(xùn)練的數(shù)據(jù)無上限。
- 由于以模型的迭代輪數(shù)作為標(biāo)注不夠精細(xì),采用了 pixel-wise interpolation 和 mutiple binary classifiers 的方法來增強(qiáng)訓(xùn)練的穩(wěn)定性。
- 引入了無監(jiān)督的對比學(xué)習(xí)損失,學(xué)習(xí)參考圖像和生成圖像之間的風(fēng)格相似度。
論文鏈接:https://arxiv.org/pdf/2112.04163.pdf
實(shí)現(xiàn)策略
RISA 的整體框架十分簡潔,參考圖像和生成圖像經(jīng)過參數(shù)共享的風(fēng)格提取器得到相應(yīng)的特征向量,接著計(jì)算兩特征向量的 L1 距離并輸入到 mutiple binary classifiers 中得到預(yù)測向量,最后預(yù)測向量元素取平均得到最終的質(zhì)量分?jǐn)?shù)。
RISA 的訓(xùn)練數(shù)據(jù)來自一系列 GAN 訓(xùn)練過程中的中間模型的生成圖像,以下圖中給出的一性別轉(zhuǎn)換任務(wù)為例,可以看到,在 GAN 的訓(xùn)練早期,模型隨著訓(xùn)練迭代輪數(shù)的增加,生成圖像的質(zhì)量會有顯著的提升;而在訓(xùn)練后期,模型的生成圖像的質(zhì)量會趨于穩(wěn)定。
本文采用一系列中間模型的生成圖像作為 RISA 的訓(xùn)練數(shù)據(jù),這些圖像的樣本標(biāo)簽由其對應(yīng)模型的訓(xùn)練迭代輪數(shù)得到。但顯然這樣的標(biāo)注形式不太適合訓(xùn)練后期的模型,因?yàn)橛?xùn)練后期生成圖像質(zhì)量不會有顯著的變化。為了使訓(xùn)練數(shù)據(jù)更適合 RISA 的訓(xùn)練,文中采用了 pixel-wise interpolation 的技巧,即圖像空間的線性插值,用于估計(jì)訓(xùn)練后期圖像質(zhì)量變化。
如下圖所示,理想情況下,生成圖像隨著 GAN 的訓(xùn)練輪數(shù)的增加單調(diào)變好,但實(shí)際上對于簡單的任務(wù),訓(xùn)練后期生成圖像的質(zhì)量幾乎沒有變化;對于困難的任務(wù),訓(xùn)練后期生成圖像的質(zhì)量隨著訓(xùn)練輪數(shù)的增加呈現(xiàn)震蕩變好的趨勢。因此文中選取了 FID 曲線變化的肘點(diǎn)作為 GAN 的訓(xùn)練前期和后期的分界,對于訓(xùn)練前期直接采樣中間模型生成圖像,并用迭代輪數(shù)作為圖像質(zhì)量標(biāo)簽;對于訓(xùn)練后期,選取開始和最終的兩個(gè)模型生成具有明顯質(zhì)量差異的圖像,再對圖像進(jìn)行線性插值得到一系列中間質(zhì)量的圖像。
插值圖像的一些 demo 如下動圖所示,圖中所示 epsilon 表示兩幅圖融合時(shí)的權(quán)重。
除圖像空間的插值外,為了保證 RISA 的訓(xùn)練穩(wěn)定,RISA 的預(yù)測使用的是個(gè)二值分類器(multiple binary classifers)輸出取平均的形式,而沒有采用簡單的回歸器輸出擬合值。其中第個(gè)二值分類器用于預(yù)測當(dāng)前生成圖像質(zhì)量大于一個(gè)特定閾值的概率。實(shí)驗(yàn)表明,將質(zhì)量評估從回歸問題轉(zhuǎn)化為分類問題,能夠顯著地提升 RISA 的性能。
損失函數(shù)的設(shè)計(jì)上考慮了三個(gè)方面:1)弱監(jiān)督損失,用于擬合輸入?yún)⒖紙D像 & 生成圖像對及其對應(yīng)的質(zhì)量標(biāo)簽;2)無監(jiān)督對比學(xué)習(xí)損失,用于捕捉參考圖像和生成圖像風(fēng)格相似度;3)上界損失,用于學(xué)到來自真實(shí)圖像的兩個(gè)增強(qiáng)圖像的風(fēng)格一致性。
上界損失表達(dá)的是和風(fēng)格信息完全一致,將其輸入 RISA 預(yù)測結(jié)果應(yīng)當(dāng)對應(yīng)于最高的質(zhì)量分?jǐn)?shù) 1。
在對比學(xué)習(xí)損失中,文中首先考慮對于參考圖像做兩次不同的且不破壞圖像風(fēng)格信息的數(shù)據(jù)增強(qiáng)圖像和,即僅包括圖像的放縮,裁剪以及翻轉(zhuǎn)。生成圖像與構(gòu)成正樣本對,對比學(xué)習(xí)損失拉近它們的預(yù)測輸出;同一批輸入樣本中,與其對應(yīng)的參考圖像,與其不對應(yīng)的參考圖像構(gòu)成負(fù)樣本對,對比學(xué)習(xí)損失拉大它們的預(yù)測輸出。
實(shí)驗(yàn)結(jié)果
文中基于四種生成模型,五個(gè)數(shù)據(jù)集上的生成圖像分別訓(xùn)練多個(gè) RISA 模型。首先從可視化的角度,下圖說明 RISA 能夠按照質(zhì)量從低到高給出對應(yīng)的質(zhì)量評價(jià)分?jǐn)?shù)。
接著從量化指標(biāo)的角度,文中進(jìn)行了廣泛的人工評價(jià)測試,以說明 RISA 評價(jià)結(jié)果和人的主觀感受具有較高的一致性。具體來說,對于每個(gè)任務(wù)都選取了上千個(gè)三元組樣本,包含一張參考圖像和兩張生成圖像。兩張生成圖像可能來自于同一架構(gòu)模型的兩個(gè)不同訓(xùn)練階段的中間模型,也可能來自于兩個(gè)充分收斂的不同架構(gòu)的模型。測試者被要求從二者中選出質(zhì)量更好的一張。最終對于每個(gè)任務(wù),保證了每組樣本都有至少三個(gè)測試者參與評價(jià),而所有評價(jià)均一致的樣本被保留,用于評估 RISA 的評價(jià)與人的主觀感受的一致性。
下表對應(yīng)于 RISA 的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均由相同架構(gòu)的模型生成的情況。可以看到 RISA 的評價(jià)結(jié)構(gòu)能夠與人的主觀感受具有更高的一致性,且優(yōu)于現(xiàn)有的主流的有參考和無參考單張圖像質(zhì)量評價(jià)方法。
下表對應(yīng)于 RISA 的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)均由不同架構(gòu)的模型生成的情況。表中結(jié)果進(jìn)一步說明 RISA 具有較好的在不同模型之間遷移的能力。
相應(yīng)地,研究者提供了三元組上的 RISA 和每個(gè)數(shù)據(jù)集下最優(yōu)的基線方法的可視化對比。可以看到 RISA 能夠在考慮生成圖像的真實(shí)程度的同時(shí),兼具評價(jià)生成圖像和參考圖像的風(fēng)格相似度水平的能力。
最后研究者進(jìn)行了兩組消融實(shí)驗(yàn),說明了 RISA 引入 multiple binary classifers,pixel-wise interpolation 和其每個(gè)損失項(xiàng)的意義。