僅做兩項(xiàng)修改,蘋果就讓StyleGANv2獲得了3D生成能力
如何讓一個(gè)已有的 2D GAN 變成 3D 級(jí)別?這是一個(gè)有趣且實(shí)用的問題。
為了解決這個(gè)問題,來自蘋果和伊利諾伊大學(xué)厄巴納 - 香檳分校的研究者試圖盡可能少地修改經(jīng)典 GAN,即 StyleGANv2。該研究發(fā)現(xiàn)只有兩個(gè)修改是絕對(duì)必要的:1)一個(gè)多平面圖像樣式生成器分支,它產(chǎn)生一組以深度為條件的 alpha 圖;2)一個(gè)以位姿為條件的鑒別器。
論文地址:https://arxiv.org/abs/2207.10642
該研究將生成的輸出結(jié)果稱為「生成型多平面圖像(GMPI)」。GMPI 方法不僅渲染質(zhì)量高,還能保證視圖一致。更重要的是,alpha 映射的數(shù)量可以動(dòng)態(tài)調(diào)整,并且可以在訓(xùn)練和推理階段有所變化,從而減輕內(nèi)存問題,在不到半天的時(shí)間內(nèi)以 1024^2 的分辨率快速訓(xùn)練 GMPI。
首先來看一下 GMPI 方法在三個(gè)具有挑戰(zhàn)性的常見高分辨率數(shù)據(jù)集(FFHQ、AFHQv2 和 MetFaces)上的效果:
方法簡(jiǎn)介
該研究通過添加「alpha 分支」來修改經(jīng)典生成器,并結(jié)合簡(jiǎn)單高效的 alpha 合成渲染。
GMPI 生成方法的框架如下圖所示,其中生成器和 alpha 合成渲染器負(fù)責(zé)生成圖像 I_v_tgt,該圖像以用戶指定的位姿 v_tgt 生成目標(biāo)對(duì)象。保證為不同位姿生成的圖像是視圖一致的。
「alpha 分支」使用中間表征來生成多平面圖像表征 M,其中除了單個(gè)圖像之外還包含不同深度的 alpha 映射。
更具體地說,該研究為 StyleGANv2 開發(fā)了一個(gè)新的生成器分支,它產(chǎn)生一組正面平行的 alpha 映射,在本質(zhì)上類似于多平面圖像 (MPI)。該研究首次證明 MPI 可以用作無條件 3D 感知生成模型的場(chǎng)景表征。這個(gè)新的 alpha 分支是從頭開始訓(xùn)練的,同時(shí)針對(duì)常規(guī) StyleGANv2 生成器和鑒別器進(jìn)行微調(diào)。將生成的 alpha 映射與 StyleGANv2 的單個(gè)標(biāo)準(zhǔn)圖像輸出相結(jié)合,進(jìn)行端到端的可微多平面樣式渲染,該研究實(shí)現(xiàn)了不同視圖的 3D 感知生成,并保證了視圖的一致性。盡管 alpha 映射處理遮擋的能力有限,但渲染非常有效。此外,alpha 映射的數(shù)量可以動(dòng)態(tài)調(diào)整,甚至可以在訓(xùn)練和推理期間有所不同,從而減輕內(nèi)存負(fù)擔(dān)。
該研究發(fā)現(xiàn):為了實(shí)現(xiàn) 3D 感知,根據(jù)具體位姿調(diào)整鑒別器(discriminator)是絕對(duì)必要的。另一方面,根據(jù) alpha 映射的深度來調(diào)整模型也是非常必要的。該研究通過添加額外的 alpha 分支對(duì)原始 StyleGANv2 網(wǎng)絡(luò)進(jìn)行了簡(jiǎn)單的修改,如下圖 3 所示。
為了獲得表現(xiàn)出預(yù)期 3D 結(jié)構(gòu)的 alpha 映射,該研究發(fā)現(xiàn)需要對(duì) StyleGANv2 進(jìn)行兩次調(diào)整:(a)MPI 中任何平面的 alpha 映射預(yù)測(cè)必須以平面的深度或可學(xué)習(xí)的 token 為條件;(b) 鑒別器必須以相機(jī)位姿為條件。雖然這兩個(gè)調(diào)整似乎很直觀,但令人驚訝的是,這兩項(xiàng)調(diào)整對(duì)于 3D 感知?dú)w納偏置來說已經(jīng)足夠了。
另一種改進(jìn) alpha 映射的歸納偏置是包含陰影的 3D 渲染。盡管有用,但該研究發(fā)現(xiàn)這種歸納偏置對(duì)于獲得 3D 感知不是必要的。此外,研究者還發(fā)現(xiàn)一些經(jīng)典的 2D GAN 評(píng)估指標(biāo)可能會(huì)造成有誤導(dǎo)性的結(jié)果。
實(shí)驗(yàn)
該研究在三個(gè)數(shù)據(jù)集(FFHQ、AFHQv2 和 MetFaces)上分析了各種分辨率的 GMPI。
下表 1 和表 2 提供了速度比較和定量評(píng)估結(jié)果。在更快的訓(xùn)練下,GMPI 在 256^2 圖像上實(shí)現(xiàn)了比 SOTA 模型更好的性能,并且可以生成高達(dá) 1024^2 的高分辨率結(jié)果,這是大多數(shù)基線模型無法生成的。
為了分析方法中關(guān)鍵設(shè)計(jì)的效果,該研究進(jìn)行了消融實(shí)驗(yàn),結(jié)果如下表 3 和圖 4 圖 5 所示。
感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。