CVPR 2025:單圖秒變專業(yè)影棚,幾何/材質(zhì)/光影全搞定,數(shù)據(jù)訓(xùn)練代碼全開源
如何從一張普通的單幅圖像準確估計物體的三維法線和材質(zhì)屬性,是計算機視覺與圖形學(xué)領(lǐng)域長期關(guān)注的難題。
這種單圖逆渲染任務(wù)存在嚴重的不確定性,傳統(tǒng)方法通常需要多角度或多光源的拍攝條件,難以在日常場景中普遍應(yīng)用。
近日,由香港中文大學(xué)、上海人工智能實驗室及南洋理工大學(xué)的研究團隊聯(lián)合研發(fā)的論文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。
其成果已被計算機視覺頂級會議CVPR 2025正式接收。
核心立意
Neural LightRig創(chuàng)新性地提出利用圖像擴散模型(如Stable Diffusion)的強大先驗信息,生成虛擬的多光照圖像,從而有效解決單圖估計法線和PBR材質(zhì)過程中存在的不確定性問題。
研究團隊首次提出通過微調(diào)預(yù)訓(xùn)練的圖像擴散模型,生成不同光照條件下的一致性多光照圖像序列,這種方法有效減少了單圖估計過程中的內(nèi)在不確定性。
混合條件策略:通過通道級別的圖像拼接與參考注意力機制的結(jié)合,引入輸入圖像的先驗信息,有效保證了生成圖像的顏色和紋理細節(jié)的一致性。
雙階段微調(diào)策略:首先僅微調(diào)擴散模型的初始卷積層及注意力層,以穩(wěn)定早期訓(xùn)練;隨后以較低學(xué)習(xí)率微調(diào)整個模型,進一步提升模型生成多光照圖像的質(zhì)量。2. 基于U-Net的大型G-buffer重建模型
利用擴散模型生成的多光照圖像作為輔助信息,團隊設(shè)計了一個基于U-Net架構(gòu)的回歸模型,以實現(xiàn)對物體表面法線和PBR材質(zhì)屬性(包括反照率、粗糙度、金屬性)的高效精確估計。
顯式光照條件輸入:通過對光源位置進行球面坐標編碼,使模型能顯式地關(guān)聯(lián)不同光照方向下的圖像變化,更有效地預(yù)測物體表面屬性。
優(yōu)化目標設(shè)計:采用余弦相似度損失和均方誤差(MSE)聯(lián)合優(yōu)化法線估計,材質(zhì)估計則采用簡單而有效的均方誤差損失。
數(shù)據(jù)增強策略:針對擴散模型生成圖像與真實渲染圖像之間的領(lǐng)域差異,提出隨機降質(zhì)、亮度調(diào)整、光照方向擾動和數(shù)據(jù)混合策略,以提高模型的泛化能力與穩(wěn)定性。
實驗表現(xiàn)
在自主構(gòu)建的大規(guī)模數(shù)據(jù)集LightProp上的實驗結(jié)果表明,Neural LightRig在各項指標上全面超越現(xiàn)有先進方法:
- 法線估計:平均角度誤差顯著降低至6.413°,大幅提高估計精度(詳見論文表1和圖5);
- 材質(zhì)估計與新光照下渲染效果:實現(xiàn)了對反照率、粗糙度和金屬性等材質(zhì)屬性的精準估計,并能夠生成逼真的單圖重光照效果(詳見論文表2與圖6圖7)。
此外,該方法在真實世界圖像中的泛化表現(xiàn)突出,展現(xiàn)出良好的實際應(yīng)用潛力,適用于增強現(xiàn)實(AR)、虛擬現(xiàn)實(VR)和數(shù)字內(nèi)容創(chuàng)作等廣泛領(lǐng)域。
法線估計材質(zhì)估計
新光照渲染
開源與資源為促進研究與應(yīng)用,研究團隊已公開了相關(guān)資源,歡迎社區(qū)同行積極使用和探索:
代碼開源地址:https://github.com/ZexinHe/Neural-LightRig
數(shù)據(jù)集開源地址: https://huggingface.co/datasets/zxhezexin/NLR-LightProp-Objaverse-Renderings
預(yù)訓(xùn)練模型地址: https://huggingface.co/zxhezexin/neural-lightrig-mld-and-recon