無需昂貴設(shè)備,單目方案生成超逼真3D頭像,清華&IDEA新研究入選CVPR2025
在數(shù)字人、虛擬主播、AR/VR等場(chǎng)景快速發(fā)展背景下,如何高效生成真實(shí)、可動(dòng)、可重光照的3D頭像成為關(guān)鍵。
來自清華和IDEA的研究團(tuán)隊(duì),聯(lián)合開發(fā)了HRAvatar(High-Quality and Relightable Gaussian Head Avatar),一種基于單目視頻的3D高斯頭像重建方法。采用可學(xué)習(xí)形變基和線性蒙皮技術(shù),實(shí)現(xiàn)靈活且精確的幾何變形,并通過精準(zhǔn)的表情編碼器減少追蹤誤差,提升重建質(zhì)量。
相關(guān)研究論文已成功被國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議CVPR 2025錄用。
HRAvatar:從單目視頻到可重光照頭像化身的突破
創(chuàng)建3D頭像化身對(duì)于電影、游戲、沉浸式會(huì)議、AR/VR等領(lǐng)域至關(guān)重要。在這些應(yīng)用中,頭像化身必須滿足幾個(gè)要求:可動(dòng)畫化、實(shí)時(shí)、高質(zhì)量和視覺上逼真。
然而,從易獲取的單目視頻中創(chuàng)建高度逼真且可動(dòng)畫化的頭像仍然具較大的挑戰(zhàn)性。盡管基于3D 高斯(3DGS)的方法在可動(dòng)畫性和實(shí)時(shí)渲染方面取得進(jìn)展,但其重建質(zhì)量仍受三方面限制。
幾何變形靈活性不足:現(xiàn)有方法依賴通用參數(shù)模型(3DMM)驅(qū)動(dòng)高斯點(diǎn)變形,難以準(zhǔn)確捕捉個(gè)性化表情變化;
表情追蹤不準(zhǔn)確:訓(xùn)練前通過2D關(guān)鍵點(diǎn)擬合獲取表情參數(shù)不夠準(zhǔn)確,直接優(yōu)化表情參數(shù)則泛化性差,需在測(cè)試時(shí)進(jìn)行后優(yōu)化;
無法實(shí)現(xiàn)真實(shí)重光照:在單目未知光照下直接擬合頭像外觀顏色,無法解耦頭像本征外觀與環(huán)境光照,而難以在新環(huán)境光下實(shí)現(xiàn)重光照渲染。
為解決上述問題,該方法提出HRAvatar,一種基于3D高斯點(diǎn)實(shí)現(xiàn)從單目視頻到高質(zhì)量、可重光照且可驅(qū)動(dòng)的虛擬頭像化身重建。
該方法通過可學(xué)習(xí)的形變基與蒙皮權(quán)重策略,實(shí)現(xiàn)高斯點(diǎn)從標(biāo)準(zhǔn)姿態(tài)到各種表情和姿態(tài)的靈活變形。同時(shí),引入端到端的表情編碼器,提升表情參數(shù)提取準(zhǔn)確性,減少預(yù)追蹤參數(shù)誤差對(duì)重建的影響,并確保一定的泛化能力。
為實(shí)現(xiàn)真實(shí)重光照,該方法將頭像外觀分解為反照率、粗糙度、菲涅爾反射等材質(zhì)屬性,并引入反照率偽先驗(yàn)以更好解耦材質(zhì)信息,使用簡(jiǎn)化的BRDF物理模型進(jìn)行著色。
整體方法在保證實(shí)時(shí)性的前提下,實(shí)現(xiàn)了細(xì)節(jié)豐富、表現(xiàn)力強(qiáng)且支持重光照效果的虛擬頭像重建。
HRAvatar架構(gòu)剖析
精確表情追蹤
現(xiàn)有面部跟蹤方法獲取的表情參數(shù)不夠準(zhǔn)確,為解決表情參數(shù)誤差影響面部重建質(zhì)量的問題,該方法提出使用表情編碼器,更精確提取表情參數(shù)。
編碼器與3D頭像重建聯(lián)合優(yōu)化,實(shí)現(xiàn)端到端的訓(xùn)練,利用高斯重建損失進(jìn)行監(jiān)督,提高重建準(zhǔn)確性。
幾何變形模型
該方法使用形變模型將高斯點(diǎn)從標(biāo)準(zhǔn)空間變換到姿態(tài)空間,實(shí)現(xiàn)基于表情和姿態(tài)參數(shù)的變形。
為解決通用參數(shù)模型難以還原個(gè)性化變形的問題,提出自適應(yīng)學(xué)習(xí)每個(gè)點(diǎn)的形變基與混合蒙皮權(quán)重,實(shí)現(xiàn)更靈活、精確的幾何變形。
類似FLAME模型,采用可學(xué)習(xí)的線性形變基(Linear Blendshapes)建模幾何位移,對(duì)每個(gè)高斯點(diǎn)引入三個(gè)可學(xué)習(xí)屬性:形狀基,表情基,姿態(tài)基。
完成線性位移形變后,通過線性蒙皮將高斯點(diǎn)變換到姿態(tài)空間。每個(gè)高斯點(diǎn)配備一個(gè)可學(xué)習(xí)的混合權(quán)重屬性,用于適應(yīng)個(gè)體的姿態(tài)變形。
為簡(jiǎn)化和加速訓(xùn)練收斂,該方法依賴FLAME模型的幾何與形變先驗(yàn)進(jìn)行初始化:對(duì)FLAME網(wǎng)格面進(jìn)行插值,初始化高斯點(diǎn)位置。采用相同插值策略初始化形變基和蒙皮權(quán)重。
外觀建模
相比3DGS使用球諧函數(shù)建模點(diǎn)的外觀,該方法采用一種新的外觀建模方法,將外觀分解為三個(gè)屬性:反照率、粗糙度和菲涅爾基礎(chǔ)反射率,并采用BRDF物理渲染模型進(jìn)行著色。
為提升效率,進(jìn)一步引入SplitSum近似技術(shù),對(duì)環(huán)境光照?qǐng)D進(jìn)行預(yù)計(jì)算,從而實(shí)現(xiàn)高質(zhì)量、可重光照的實(shí)時(shí)渲染。
該方法使用光柵化器渲染出反照率圖、粗糙度圖、反射率圖和法線圖。接著,計(jì)算鏡面反射和漫反射圖:
并使用近似的菲涅爾方程來計(jì)算鏡面反射系數(shù) :
最終的著色圖像由漫反射和鏡面反射圖相加得到。
法線估計(jì)。平滑且準(zhǔn)確的法線對(duì)于物理渲染至關(guān)重要,該方法使用每個(gè)高斯點(diǎn)的最短軸作為其法線。為確保方向正確和幾何一致性,該方法通過深度導(dǎo)數(shù)獲得的法線圖來監(jiān)督渲染的法線圖。
材質(zhì)先驗(yàn)。在恒定未知光照下解耦材質(zhì)屬性具有不適定性,非均勻光照下重建容易誤將局部光照混入反照率,導(dǎo)致不真實(shí)重光照結(jié)果。該方法使用現(xiàn)有模型提取偽真實(shí)反照率,監(jiān)督渲染反照率,并限制粗糙度和基礎(chǔ)反射率在預(yù)定義范圍內(nèi),以獲得更真實(shí)材質(zhì)。
真實(shí)細(xì)節(jié)與實(shí)時(shí)性能兼得:HRAvatar 實(shí)驗(yàn)結(jié)果全維度領(lǐng)先
實(shí)驗(yàn)設(shè)置:
該方法在INSTA數(shù)據(jù)集的10個(gè)對(duì)象、HDTF數(shù)據(jù)集的8個(gè)對(duì)象和5個(gè)手機(jī)自采集對(duì)象上評(píng)估了不同方法,使用每個(gè)視頻的最后350幀(INSTA)或500幀(HDTF、自采集)作為測(cè)試集。所有方法采用相同裁剪和分割流程,確保評(píng)估一致性和可靠性。圖像質(zhì)量通過 PSNR、MAE、SSIM 和 LPIPS 指標(biāo)進(jìn)行評(píng)估。
實(shí)驗(yàn)結(jié)果:
該方法在所有指標(biāo)上均優(yōu)于現(xiàn)有方法,尤其是在LPIPS上表現(xiàn)突出,表明重建的頭像細(xì)節(jié)更豐富、質(zhì)量更高。
此外,該方法在驅(qū)動(dòng)和重光照設(shè)定下測(cè)試了渲染速度,達(dá)到約155 FPS的實(shí)時(shí)性能。
應(yīng)用:
重建的頭像化身除了可進(jìn)行驅(qū)動(dòng),也可以在新的環(huán)境光圖下進(jìn)行重光照或簡(jiǎn)單的材質(zhì)編輯。
消融實(shí)驗(yàn):
為了驗(yàn)證方法中各個(gè)組件的有效性,論文中進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)。
以上實(shí)驗(yàn)結(jié)果表明,HRAvatar在整體質(zhì)量上優(yōu)于現(xiàn)有方法,支持高質(zhì)量的實(shí)時(shí)重光照和簡(jiǎn)單的材質(zhì)編輯。
HRAvatar的提出拓展了單目高斯虛擬頭像建模的應(yīng)用場(chǎng)景,目前,相關(guān)代碼已全面開源,歡迎關(guān)注與使用。
論文地址: https://arxiv.org/pdf/2503.08224
項(xiàng)目主頁:https://eastbeanzhang.github.io/HRAvatar/
開源代碼:https://github.com/Pixel-Talk/HRAvatar
視頻Demo:https://www.youtube.com/watch?v=ZRwTHoXKtgc