ECCV 2024 | NVIDIA DiPIR:無縫地將3D目標(biāo)插入任何自動場景
原標(biāo)題:Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering
論文鏈接:https://arxiv.org/pdf/2408.09702
項(xiàng)目主頁:https://research.nvidia.com/labs/toronto-ai/DiPIR/
作者單位:NVIDIA 多倫多大學(xué) Vector Institute
論文思路:
將虛擬物體正確插入到真實(shí)場景的圖像中,需要對場景的光照、幾何形狀和材質(zhì),以及圖像形成過程有深入的理解。盡管最近的大規(guī)模擴(kuò)散模型在生成和修復(fù)圖像方面表現(xiàn)出了強(qiáng)大的能力,但本文發(fā)現(xiàn)當(dāng)前的模型還不足以“理解”單張圖片中的場景,從而無法在保持合成物體的身份和細(xì)節(jié)的同時生成一致的光照效果(陰影、明亮的反射等)。本文提出使用個性化的大型擴(kuò)散模型作為物理基礎(chǔ)逆向渲染過程的指導(dǎo)(guidance)。本文的方法恢復(fù)了場景光照和色調(diào)映射參數(shù),從而允許在單幀圖像或室內(nèi)外場景的視頻中進(jìn)行真實(shí)感的任意虛擬物體合成。本文的物理基礎(chǔ)流程(physically based pipeline)進(jìn)一步支持自動材質(zhì)和色調(diào)映射的優(yōu)化。
論文設(shè)計(jì):
虛擬物體插入能夠?qū)崿F(xiàn)從虛擬制作到互動游戲和合成數(shù)據(jù)生成的一系列應(yīng)用。為了生成真實(shí)感的插入效果,必須忠實(shí)地模擬虛擬物體與環(huán)境之間的相互作用,例如準(zhǔn)確的鏡面高光和陰影。
標(biāo)準(zhǔn)的虛擬物體插入流程通常包括三個關(guān)鍵步驟:i) 從輸入圖像中估計(jì)光照,ii) 創(chuàng)建3D代理幾何模型,iii) 在渲染引擎中進(jìn)行合成圖像渲染。然而,第一個也是最重要的一步仍然是一個開放的研究問題。光照估計(jì)在處理有限輸入(如使用低動態(tài)范圍的消費(fèi)設(shè)備拍攝的單張圖像)時尤為具有挑戰(zhàn)性。實(shí)際上,逆向渲染本質(zhì)上是一個病態(tài)問題(ill-posed problem)。
為了限制其解空間,以往的研究要么試圖定義手工設(shè)計(jì)的先驗(yàn)知識 [9,18,31,78],要么從數(shù)據(jù)中學(xué)習(xí)這些先驗(yàn)知識 [15–17,22,23,32,36,58,64,65,80]。然而,前者在應(yīng)用于真實(shí)場景時往往效果不佳,而后者則由于缺乏真實(shí)數(shù)據(jù)而受到限制。因此,這些算法通常高度針對特定領(lǐng)域進(jìn)行優(yōu)化,例如室內(nèi)場景 [15–17,52,65] 或室外場景 [22, 23, 58, 64, 80]。
為了解決這些挑戰(zhàn),本文提出利用大型擴(kuò)散模型(DMs) [48] 學(xué)習(xí)到的強(qiáng)大圖像生成先驗(yàn)知識來指導(dǎo)逆向渲染。與通常特定于某個領(lǐng)域的手工設(shè)計(jì)或監(jiān)督數(shù)據(jù)驅(qū)動先驗(yàn)不同,DMs 是在大規(guī)模數(shù)據(jù)集上訓(xùn)練的,并展示出對世界及其背后物理概念的顯著“理解”(“understanding”)。雖然 DMs 在生成過程中仍然常常無法產(chǎn)生準(zhǔn)確的光照效果(如陰影和反射) [51],但本文觀察到,當(dāng)它們與基于物理的渲染器結(jié)合并適應(yīng)場景時,可以提供有價(jià)值的指導(dǎo)。
具體來說,本文提出了用于逆向渲染的擴(kuò)散先驗(yàn)(Diffusion Prior for Inverse Rendering)(DiPIR),基于以下三大主要貢獻(xiàn)。首先,本文使用基于物理的渲染器來準(zhǔn)確模擬光線與3D資產(chǎn)之間的相互作用,以生成最終的合成圖像。本文還考慮了未知的色調(diào)映射曲線,以模仿相機(jī)傳感器的響應(yīng)。其次,本文提出了一種基于輸入圖像和插入資產(chǎn)類型的預(yù)訓(xùn)練DM的輕量化個性化方案。第三,本文設(shè)計(jì)了一種SDS損失 [46] 的變體,利用這種個性化并提高訓(xùn)練的穩(wěn)定性。
在 DiPIR 中,DM 類似于人類評估者。它將編輯后的圖像作為輸入,并通過可微渲染將反饋信號傳播到基于物理的場景屬性,從而實(shí)現(xiàn)端到端優(yōu)化。本文的實(shí)驗(yàn)表明,DiPIR 在室內(nèi)和室外數(shù)據(jù)集上用于物體插入的光照估計(jì)方面優(yōu)于現(xiàn)有的最先進(jìn)方法。
圖1:本文提出了DiPIR,這是一種基于物理的方法,用于從單張圖像中恢復(fù)光照,能夠?qū)⑷我馓摂M物體合成到室內(nèi)和室外場景中,同時進(jìn)行材質(zhì)和色調(diào)映射優(yōu)化。
圖2:方法概述。給定輸入圖像,本文首先構(gòu)建一個包含虛擬物體和代理平面的虛擬3D場景。本文的基于物理的渲染器隨后可微地模擬可優(yōu)化環(huán)境貼圖與插入虛擬物體的相互作用及其對背景場景(陰影)的影響(左)。在每次迭代中,渲染圖像會被擴(kuò)散并通過個性化的擴(kuò)散模型(中)。適應(yīng)后的Score Distillation公式的梯度通過可微渲染器傳播回環(huán)境貼圖和色調(diào)映射曲線。在收斂時,本文恢復(fù)光照和色調(diào)映射參數(shù),從而實(shí)現(xiàn)從單張圖像中對虛擬物體的真實(shí)感合成(右)。
圖3:帶有概念保留的個性化。
圖4:在 PolyHaven 裁剪的HDRIs中插入物體的對比。
圖5:在 Waymo 駕駛場景中插入汽車資產(chǎn)。請注意插入汽車的陰影方向和清晰度,以及整體亮度、顏色和高光反射。
實(shí)驗(yàn)結(jié)果:
圖6:本文設(shè)計(jì)選擇的定性消融研究。
圖7:本文的基于物理的逆向渲染流程解鎖了更多應(yīng)用,如材質(zhì)優(yōu)化、局部發(fā)光和色調(diào)映射優(yōu)化。
表1:戶外街景的定量用戶研究。對于每個場景,用戶會看到兩個結(jié)果——一個是由本文的方法生成的,另一個是由基線方法生成的——并選擇哪個更逼真。本文報(bào)告了在3組用戶研究中,每組9名用戶的平均結(jié)果。本文的方法在所有基線方法中表現(xiàn)更好(> 50%),并且在幾乎所有光照條件下都更受歡迎。
表2:PolyHaven場景的定量評估。本文報(bào)告了類似于表1的用戶研究偏好評分。度量值是相對于“參考”圖像計(jì)算的,其中虛擬物體由真實(shí)環(huán)境貼圖照亮。
表3:戶外駕駛場景的消融研究 [57]。本文報(bào)告了用戶更喜歡DiPIR相對于其消融版本的圖像百分比。本文的完整流程生成的結(jié)果比其消融版本更受用戶青睞。
應(yīng)用:
由于本文的方法恢復(fù)了基于物理的光照信息,因此在優(yōu)化后可以插入任意新的虛擬物體,如圖2所示。DiPIR還可以優(yōu)化其他場景屬性,如材質(zhì)和局部光照。本文在這一方向進(jìn)行了初步實(shí)驗(yàn)。
材質(zhì)優(yōu)化。結(jié)合可微渲染,DMs(擴(kuò)散模型)可以為材質(zhì)屬性提供引導(dǎo)信號,如圖7所示。給定一個純漫反射的汽車,并將金屬度和粗糙度屬性設(shè)為可優(yōu)化參數(shù),擴(kuò)散引導(dǎo)可以優(yōu)化并使汽車看起來更加閃亮。通過將文本提示更改為“一輛胭脂紅的汽車”,并將汽車的基色設(shè)為可優(yōu)化參數(shù),本文展示了DM可以將文本條件傳播到PBR(基于物理渲染)屬性并將汽車顏色更改為紅色。當(dāng)將局部發(fā)光設(shè)為可優(yōu)化參數(shù)時,擴(kuò)散模型還可以在夜間場景中打開汽車的大燈。
色調(diào)映射調(diào)整。本文通過一個控制實(shí)驗(yàn)進(jìn)一步評估DMs(擴(kuò)散模型)對色調(diào)映射的理解能力。如圖7所示,本文固定估算的環(huán)境貼圖,并對背景圖像應(yīng)用手動色調(diào)調(diào)整。通過擴(kuò)散引導(dǎo)來優(yōu)化色調(diào)曲線,使插入的物體在最終合成結(jié)果中與周圍背景相匹配。
總結(jié):
本文的方法利用了大型擴(kuò)散模型固有的場景理解能力,作為物理基礎(chǔ)逆向渲染流程的指導(dǎo)。本文設(shè)計(jì)了一種具有場景特定個性化的擴(kuò)散引導(dǎo)信號,并結(jié)合可微的逆向渲染流程來恢復(fù)光照和色調(diào)映射參數(shù)。本文的方法不僅能夠?qū)⑻摂M物體插入場景中,還可以優(yōu)化其他場景參數(shù),例如插入物體的材質(zhì)或解決相機(jī)之間的色調(diào)映射不匹配問題。本文相信,這種將可微渲染過程與數(shù)據(jù)驅(qū)動的先驗(yàn)知識相結(jié)合的方法,可以成功應(yīng)用于許多其他內(nèi)容創(chuàng)作領(lǐng)域,如重新照明和動畫制作。
局限性和未來工作。本文的基于球面高斯函數(shù)的光照表示對于一般物體是足夠的[35],但對于高度鏡面反射的材料可能不夠真實(shí)。對于更復(fù)雜的光照表示,添加環(huán)境貼圖上的生成先驗(yàn)[41]是一個值得探索的方向。渲染公式可以擴(kuò)展,以考慮場景本身對插入物體的反射效果(例如顏色滲透),但這可能會引入更多的不確定性,并需要了解代理幾何體的材料(參見補(bǔ)充材料C.4中的失敗案例)。最后,雖然DM個性化顯著提高了結(jié)果的質(zhì)量,但它增加了流程的開銷和復(fù)雜性。最近的一些個性化方法不需要測試時微調(diào)[54],可以用來減輕這一負(fù)擔(dān)。