再也不怕顯存爆炸了!高效重建「幾何精準(zhǔn)」的大規(guī)模復(fù)雜三維場(chǎng)景,中科院提出CityGaussianV2
三維場(chǎng)景重建旨在基于圍繞目標(biāo)場(chǎng)景拍攝的一組圖像恢復(fù)出場(chǎng)景的三維結(jié)構(gòu),其核心追求是精準(zhǔn)的幾何結(jié)構(gòu)以及逼真的圖像渲染。
隨著近兩年的發(fā)展,3D Gaussian Splatting(3DGS)因其訓(xùn)練和渲染效率上的優(yōu)勢(shì)逐漸成為該領(lǐng)域的主流算法。這一技術(shù)使用一組離散的高斯橢球來表示場(chǎng)景,并使用高度優(yōu)化的光柵器進(jìn)行渲染。
然而,這一離散且無序的表征形式通常難以很好地?cái)M合物體表面的實(shí)際分布,導(dǎo)致重建出的場(chǎng)景幾何結(jié)構(gòu)并不精準(zhǔn)。近來包括SuGaR、2DGS、GOF在內(nèi)的一系列杰出工作針對(duì)這一問題進(jìn)行了探索,并給出了有效的解決方案。
幾何重建質(zhì)量可視化比較
盡管這些技術(shù)在單一目標(biāo)或小場(chǎng)景上取得了巨大的成功,但它們應(yīng)用于復(fù)雜的大規(guī)模場(chǎng)景卻往往面臨比3DGS更加嚴(yán)峻的挑戰(zhàn)。
從不同算法在大規(guī)模場(chǎng)景下的幾何重建效果中可以看出,SuGaR的模型容量有限,難以還原精細(xì)的幾何結(jié)構(gòu);GOF受到嚴(yán)重的模糊鬼影的干擾,許多視角下畫面被鬼影完全遮擋,以至于監(jiān)督失效,重建結(jié)果面對(duì)顯著的欠擬合;2DGS受到模糊鬼影的影響較弱,但也妨礙了其收斂效果,并且退化現(xiàn)象容易誘發(fā)高斯基元的過度增長,進(jìn)而引起顯存爆炸,訓(xùn)練難以為繼。
此外,大規(guī)模場(chǎng)景下長期以來缺少幾何重建質(zhì)量的有效評(píng)估手段,已有的工作或只進(jìn)行了可視化定性比較,或忽視了欠觀測(cè)區(qū)域不穩(wěn)定的重建效果對(duì)指標(biāo)產(chǎn)生的干擾。
大規(guī)模場(chǎng)景的重建往往還意味著顯著的訓(xùn)練開銷,要重建1.97的區(qū)域會(huì)產(chǎn)生接近兩千萬的高斯點(diǎn),意味著需要4.6G的存儲(chǔ)以及31.5G的顯存開銷,以及超過三小時(shí)的訓(xùn)練時(shí)長。如果要進(jìn)一步完成壓縮,通常還需要額外將近一個(gè)小時(shí)的時(shí)間。
針對(duì)這三方面的技術(shù)挑戰(zhàn),中科院自動(dòng)化所的研究人員提出了CityGaussianV2。該算法繼承了CityGaussian的子模型劃分與數(shù)據(jù)分配方案,并使用2DGS作為基元來重建。
項(xiàng)目主頁: https://dekuliutesla.github.io/CityGaussianV2
論文鏈接: https://arxiv.org/pdf/2411.00771
代碼鏈接(500+星): https://github.com/DekuLiuTesla/CityGaussian
在此基礎(chǔ)上,CityGaussianV2引入了基于延展率過濾和梯度解耦的稠密化技術(shù),以及深度回歸監(jiān)督,同時(shí)合并了訓(xùn)練和壓縮過程,得到了端到端的高效訓(xùn)練管線,不僅有效加速算法收斂,同時(shí)保障了穩(wěn)定、快速、低顯存開銷的并行訓(xùn)練。
CityGaussianV2算法介紹
場(chǎng)景重建基礎(chǔ)
3DGS使用一組高斯分布表征的橢球?qū)?chǎng)景進(jìn)行表征,每個(gè)高斯球同時(shí)綁定包括不透明度、顏色以及高階球諧系數(shù)等用于alpha blending渲染的屬性,并通過包含L1損失和SSIM損失的加權(quán)和對(duì)渲染質(zhì)量進(jìn)行監(jiān)督。
在訓(xùn)練過程中,算法還會(huì)根據(jù)每個(gè)高斯基元的梯度信息進(jìn)行自適應(yīng)地分裂和克隆,使得重建效果不佳的區(qū)域能夠自動(dòng)被更合適的基元填充。
2DGS旨在增強(qiáng)幾何重建精度,并將橢球降維為橢圓面片作為基元表征場(chǎng)景,同時(shí)對(duì)渲染出的深度和法向量分布施加監(jiān)督,保證重建表面的平整性。
CityGaussian旨在將3DGS泛化到大場(chǎng)景,首先預(yù)訓(xùn)練一個(gè)表征全局場(chǎng)景的粗粒度的3DGS場(chǎng),隨后將預(yù)訓(xùn)練結(jié)果劃分為一系列子模型,并根據(jù)子模型對(duì)訓(xùn)練視圖渲染的貢獻(xiàn)程度為每個(gè)子模型分配訓(xùn)練數(shù)據(jù)。每個(gè)子模型隨后會(huì)用不同的GPU并行微調(diào),并在訓(xùn)練結(jié)束后進(jìn)行合并和壓縮,得到場(chǎng)景的最終表征。
CityGaussianV2的優(yōu)化算法
高斯基元優(yōu)化算法示意圖
現(xiàn)有表面重建方案在泛化到大場(chǎng)景時(shí)往往展現(xiàn)出收斂遲緩、訓(xùn)練不穩(wěn)定等問題,導(dǎo)致并行訓(xùn)練失敗,難以取得良好的重建效果。
算法以泛化能力最好的2DGS為基元,在引入Depth-Anything-V2的偽深度監(jiān)督提供幾何先驗(yàn)的基礎(chǔ)上,進(jìn)一步提出了新的高斯基元稠密化方案。
可以觀察到,在復(fù)雜大規(guī)模場(chǎng)景上,2DGS在早期訓(xùn)練階段比3DGS受到更嚴(yán)重的模糊偽影的干擾,導(dǎo)致在迭代次數(shù)有限的情況下性能顯著劣于3DGS。
為了緩解這一問題,研究人員引入梯度解耦策略,利用對(duì)圖像結(jié)構(gòu)差異更為敏感的SSIM損失作為稠密化的主要梯度來源:
此處用于控制梯度的尺度;另外在大規(guī)模場(chǎng)景下用2DGS進(jìn)行重建的障礙在于其退化現(xiàn)象。實(shí)驗(yàn)證據(jù)表明,當(dāng)從遠(yuǎn)距離或側(cè)面視角渲染時(shí),部分面片可能會(huì)退化成線或點(diǎn),尤其是那些延展率比較高的面片。
對(duì)于那些具有高不透明度的投影點(diǎn),它們的移動(dòng)往往意味著像素值的劇烈變化,從而使得它們獲得較高的梯度,并在稠密化過程中大量增殖,導(dǎo)致基元數(shù)量指數(shù)級(jí)增長,最終導(dǎo)致顯存爆炸問題。
為了解決這一問題,在稠密化過程中,對(duì)容易引起退化和梯度集中的具有極端延展率的高斯面片進(jìn)行了篩選,并對(duì)其增殖過程進(jìn)行了限制,從而在不犧牲性能的情況下有效穩(wěn)定了訓(xùn)練過程,保障了優(yōu)化過程的順利進(jìn)行。
CityGaussianV2的并行訓(xùn)練管線
CityGaussianV2訓(xùn)練管線,虛線框?yàn)檗饤壍乃惴鞒?/span>
CityGaussianV2在V1的基礎(chǔ)上進(jìn)一步優(yōu)化了并行訓(xùn)練管線,使得訓(xùn)練和壓縮過程得到統(tǒng)一,刪除了冗余的后處理流程。
具體而言,算法在子模型的并行訓(xùn)練過程中周期性地遍歷訓(xùn)練視角集合并計(jì)算每個(gè)高斯基元的重要性分?jǐn)?shù):
其中為第張訓(xùn)練視圖的像素集合,
為第n個(gè)基元的不透明度。以此為基礎(chǔ),重要性低于一定百分比閾值的基元會(huì)被刪除,從而降低顯存和存儲(chǔ)的開銷,使得訓(xùn)練對(duì)于低端設(shè)備更友好,也顯著加速了模型總體的收斂速度。
大規(guī)模重建幾何評(píng)估協(xié)議
大規(guī)模場(chǎng)景幾何精度評(píng)估流程
CityGaussianV2填補(bǔ)了大規(guī)模場(chǎng)景下幾何評(píng)測(cè)協(xié)議長期以來的空白,在Tanks and Temple (TnT) 數(shù)據(jù)集的啟發(fā)下,基于點(diǎn)云的目擊頻次統(tǒng)計(jì)設(shè)計(jì)了針對(duì)大規(guī)模場(chǎng)景欠觀測(cè)區(qū)域的邊界估計(jì)方案。
具體而言,點(diǎn)云真值會(huì)首先被初始化為3DGS,在遍歷所有訓(xùn)練視圖的同時(shí)記錄每個(gè)點(diǎn)的觀測(cè)頻次,觀測(cè)頻次低于閾值的點(diǎn)將被濾除;剩余的點(diǎn)將用于估計(jì)垂直方向的高度分布范圍,以及地平面內(nèi)的多邊形外接輪廓,二者構(gòu)成的Crop Volume進(jìn)一步用于TnT形式的指標(biāo)計(jì)算。
這一方案有效規(guī)避了欠觀測(cè)區(qū)域重建效果不穩(wěn)定帶來的指標(biāo)波動(dòng),使得大規(guī)模復(fù)雜場(chǎng)景的幾何性能評(píng)估更為客觀公正。
實(shí)驗(yàn)與分析
與主流算法的性能對(duì)比
在實(shí)驗(yàn)中,相比于已有算法,CityGaussianV2在幾何精度(精度P,召回率R,綜合指標(biāo)F1-Score)方面達(dá)到了最佳的性能表現(xiàn)。
從可視化結(jié)果中也可以看到,CityGaussianV2的重建結(jié)果具有更準(zhǔn)確的細(xì)節(jié),完整性也更高。而渲染質(zhì)量方面,CityGaussianV2則達(dá)到了和V1相媲美的程度,能夠帶來逼真的瀏覽體驗(yàn)。此外,CityGaussianV2還能較好地泛化到街道景觀,并且在渲染質(zhì)量和幾何精度上都取得良好的性能結(jié)果。
渲染質(zhì)量可視化比較
街拍場(chǎng)景可視化比較
高斯基元數(shù)量相近情況下的重建性能及訓(xùn)練開銷比較
在訓(xùn)練開銷方面,CityGaussianV2克服了2DGS泛化到大規(guī)模復(fù)雜場(chǎng)景下的種種挑戰(zhàn),不僅有效規(guī)避顯存爆炸問題,而且實(shí)現(xiàn)了相對(duì)于V1顯著的顯存優(yōu)化,同時(shí)在訓(xùn)練用時(shí)和幾何質(zhì)量方面大幅領(lǐng)先。針對(duì)2DGS的量化壓縮策略也使得大規(guī)模場(chǎng)景的重建結(jié)果能夠以400M左右的開銷存儲(chǔ)下來。
總結(jié)
研究人員致力于大規(guī)模復(fù)雜場(chǎng)景的高效精準(zhǔn)重建,并建立了大規(guī)模場(chǎng)景下的幾何精度評(píng)估基準(zhǔn),提出的CityGaussianV2以2DGS為基元,消除了其收斂速度和擴(kuò)展能力方面的問題,并實(shí)現(xiàn)了高效的并行訓(xùn)練和壓縮,從而大大降低了模型的訓(xùn)練成本。在多個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的效率、有效性和魯棒性。