無需昂貴設(shè)備，單目方案生成超逼真3D頭像，清華＆IDEA新研究入選CVPR2025

2025-05-23 09:12:00

來自清華和IDEA的研究團(tuán)隊(duì)，聯(lián)合開發(fā)了HRAvatar（High-Quality and Relightable Gaussian Head Avatar），一種基于單目視頻的3D高斯頭像重建方法。采用可學(xué)習(xí)形變基和線性蒙皮技術(shù)，實(shí)現(xiàn)靈活且精確的幾何變形，并通過精準(zhǔn)的表情編碼器減少追蹤誤差，提升重建質(zhì)量。

在數(shù)字人、虛擬主播、AR/VR等場(chǎng)景快速發(fā)展背景下，如何高效生成真實(shí)、可動(dòng)、可重光照的3D頭像成為關(guān)鍵。

來自清華和IDEA的研究團(tuán)隊(duì)，聯(lián)合開發(fā)了HRAvatar（High-Quality and Relightable Gaussian Head Avatar），一種基于單目視頻的3D高斯頭像重建方法。采用可學(xué)習(xí)形變基和線性蒙皮技術(shù)，實(shí)現(xiàn)靈活且精確的幾何變形，并通過精準(zhǔn)的表情編碼器減少追蹤誤差，提升重建質(zhì)量。

相關(guān)研究論文已成功被國際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議CVPR 2025錄用。

HRAvatar：從單目視頻到可重光照頭像化身的突破

創(chuàng)建3D頭像化身對(duì)于電影、游戲、沉浸式會(huì)議、AR/VR等領(lǐng)域至關(guān)重要。在這些應(yīng)用中，頭像化身必須滿足幾個(gè)要求：可動(dòng)畫化、實(shí)時(shí)、高質(zhì)量和視覺上逼真。

然而，從易獲取的單目視頻中創(chuàng)建高度逼真且可動(dòng)畫化的頭像仍然具較大的挑戰(zhàn)性。盡管基于3D 高斯（3DGS）的方法在可動(dòng)畫性和實(shí)時(shí)渲染方面取得進(jìn)展，但其重建質(zhì)量仍受三方面限制。

幾何變形靈活性不足：現(xiàn)有方法依賴通用參數(shù)模型（3DMM）驅(qū)動(dòng)高斯點(diǎn)變形，難以準(zhǔn)確捕捉個(gè)性化表情變化；

表情追蹤不準(zhǔn)確：訓(xùn)練前通過2D關(guān)鍵點(diǎn)擬合獲取表情參數(shù)不夠準(zhǔn)確，直接優(yōu)化表情參數(shù)則泛化性差，需在測(cè)試時(shí)進(jìn)行后優(yōu)化；

無法實(shí)現(xiàn)真實(shí)重光照：在單目未知光照下直接擬合頭像外觀顏色，無法解耦頭像本征外觀與環(huán)境光照，而難以在新環(huán)境光下實(shí)現(xiàn)重光照渲染。

為解決上述問題，該方法提出HRAvatar，一種基于3D高斯點(diǎn)實(shí)現(xiàn)從單目視頻到高質(zhì)量、可重光照且可驅(qū)動(dòng)的虛擬頭像化身重建。

該方法通過可學(xué)習(xí)的形變基與蒙皮權(quán)重策略，實(shí)現(xiàn)高斯點(diǎn)從標(biāo)準(zhǔn)姿態(tài)到各種表情和姿態(tài)的靈活變形。同時(shí)，引入端到端的表情編碼器，提升表情參數(shù)提取準(zhǔn)確性，減少預(yù)追蹤參數(shù)誤差對(duì)重建的影響，并確保一定的泛化能力。

為實(shí)現(xiàn)真實(shí)重光照，該方法將頭像外觀分解為反照率、粗糙度、菲涅爾反射等材質(zhì)屬性，并引入反照率偽先驗(yàn)以更好解耦材質(zhì)信息，使用簡(jiǎn)化的BRDF物理模型進(jìn)行著色。

整體方法在保證實(shí)時(shí)性的前提下，實(shí)現(xiàn)了細(xì)節(jié)豐富、表現(xiàn)力強(qiáng)且支持重光照效果的虛擬頭像重建。

HRAvatar架構(gòu)剖析

精確表情追蹤

現(xiàn)有面部跟蹤方法獲取的表情參數(shù)不夠準(zhǔn)確，為解決表情參數(shù)誤差影響面部重建質(zhì)量的問題，該方法提出使用表情編碼器，更精確提取表情參數(shù)。

編碼器與3D頭像重建聯(lián)合優(yōu)化，實(shí)現(xiàn)端到端的訓(xùn)練，利用高斯重建損失進(jìn)行監(jiān)督，提高重建準(zhǔn)確性。

幾何變形模型

該方法使用形變模型將高斯點(diǎn)從標(biāo)準(zhǔn)空間變換到姿態(tài)空間，實(shí)現(xiàn)基于表情和姿態(tài)參數(shù)的變形。

為解決通用參數(shù)模型難以還原個(gè)性化變形的問題，提出自適應(yīng)學(xué)習(xí)每個(gè)點(diǎn)的形變基與混合蒙皮權(quán)重，實(shí)現(xiàn)更靈活、精確的幾何變形。

類似FLAME模型，采用可學(xué)習(xí)的線性形變基（Linear Blendshapes）建模幾何位移，對(duì)每個(gè)高斯點(diǎn)引入三個(gè)可學(xué)習(xí)屬性：形狀基，表情基，姿態(tài)基。

完成線性位移形變后，通過線性蒙皮將高斯點(diǎn)變換到姿態(tài)空間。每個(gè)高斯點(diǎn)配備一個(gè)可學(xué)習(xí)的混合權(quán)重屬性，用于適應(yīng)個(gè)體的姿態(tài)變形。

為簡(jiǎn)化和加速訓(xùn)練收斂，該方法依賴FLAME模型的幾何與形變先驗(yàn)進(jìn)行初始化：對(duì)FLAME網(wǎng)格面進(jìn)行插值，初始化高斯點(diǎn)位置。采用相同插值策略初始化形變基和蒙皮權(quán)重。

外觀建模

相比3DGS使用球諧函數(shù)建模點(diǎn)的外觀，該方法采用一種新的外觀建模方法，將外觀分解為三個(gè)屬性：反照率、粗糙度和菲涅爾基礎(chǔ)反射率，并采用BRDF物理渲染模型進(jìn)行著色。

為提升效率，進(jìn)一步引入SplitSum近似技術(shù)，對(duì)環(huán)境光照?qǐng)D進(jìn)行預(yù)計(jì)算，從而實(shí)現(xiàn)高質(zhì)量、可重光照的實(shí)時(shí)渲染。

該方法使用光柵化器渲染出反照率圖、粗糙度圖、反射率圖和法線圖。接著，計(jì)算鏡面反射和漫反射圖：

并使用近似的菲涅爾方程來計(jì)算鏡面反射系數(shù) ：

最終的著色圖像由漫反射和鏡面反射圖相加得到。

法線估計(jì)。平滑且準(zhǔn)確的法線對(duì)于物理渲染至關(guān)重要，該方法使用每個(gè)高斯點(diǎn)的最短軸作為其法線。為確保方向正確和幾何一致性，該方法通過深度導(dǎo)數(shù)獲得的法線圖來監(jiān)督渲染的法線圖。

材質(zhì)先驗(yàn)。在恒定未知光照下解耦材質(zhì)屬性具有不適定性，非均勻光照下重建容易誤將局部光照混入反照率，導(dǎo)致不真實(shí)重光照結(jié)果。該方法使用現(xiàn)有模型提取偽真實(shí)反照率，監(jiān)督渲染反照率，并限制粗糙度和基礎(chǔ)反射率在預(yù)定義范圍內(nèi)，以獲得更真實(shí)材質(zhì)。

真實(shí)細(xì)節(jié)與實(shí)時(shí)性能兼得：HRAvatar 實(shí)驗(yàn)結(jié)果全維度領(lǐng)先

實(shí)驗(yàn)設(shè)置：

該方法在INSTA數(shù)據(jù)集的10個(gè)對(duì)象、HDTF數(shù)據(jù)集的8個(gè)對(duì)象和5個(gè)手機(jī)自采集對(duì)象上評(píng)估了不同方法，使用每個(gè)視頻的最后350幀（INSTA）或500幀(HDTF、自采集)作為測(cè)試集。所有方法采用相同裁剪和分割流程，確保評(píng)估一致性和可靠性。圖像質(zhì)量通過 PSNR、MAE、SSIM 和 LPIPS 指標(biāo)進(jìn)行評(píng)估。