浙大最新開源!SplatLoc:基于3D Gaussian實現精確視覺定位
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
0. 論文信息
標題:SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality
作者:Hongjia Zhai, Xiyu Zhang, Boming Zhao, Hai Li, Yijia He, Zhaopeng Cui, Hujun Bao, Guofeng Zhang
機構:State Key Lab of CAD & CG, Zhejiang University、RayNeo
原文鏈接:https://arxiv.org/abs/2409.14067
代碼鏈接:https://github.com/zhaihongjia/SplatLoc
1. 摘要
視覺定位在增強現實(AR)的應用中起著重要的作用,它使AR設備能夠在預先構建的地圖中獲得它們的6自由度姿態,以便在真實場景中渲染虛擬內容。然而,大多數現有方法不能執行新穎的視圖渲染,并且需要大的地圖存儲容量。為了克服這些限制,我們提出了一種有效的視覺定位方法,能夠以較少的參數進行高質量的渲染。具體來說,我們的方法利用3D高斯圖元作為場景表示。為了確保用于姿態估計的精確的2D-3D對應,我們開發了用于高斯圖元的無偏的3D場景特定描述符解碼器,其從構造的特征體中提取。此外,我們介紹了一種顯著的3D標志選擇算法,該算法基于顯著性分數選擇合適的圖元子集用于定位。我們進一步正則化關鍵高斯圖元以防止各向異性效應,這也提高了定位性能。在兩個廣泛使用的數據集上的大量實驗表明,我們的方法獲得了優于或相當于基于隱式的視覺定位方法的渲染和定位性能。
2. 引言
視覺定位是一項關鍵技術,它使移動設備或頭戴式顯示器能夠估算相機相對于預建3D地圖的6自由度(6-DoF)姿態。它在各種增強現實(AR)應用中發揮著至關重要的作用。例如,視覺定位方法可以提供AR設備的全局6-DoF姿態信息,這些信息可用于在真實環境中渲染虛擬內容,并促進用戶與物理空間的交互。
一般而言,經典的視覺定位方法可分為兩類:基于回歸的方法和基于特征的方法。
基于回歸的方法通常使用卷積神經網絡(CNN)提取圖像的高級上下文特征,并編碼重建環境的幾何信息(如絕對姿態和場景坐標)。PoseNet和SCRNet是直接從單個圖像的提取特征中回歸姿態或像素3D坐標的代表性工作。然而,由于缺乏幾何約束,這些方法在準確性方面往往落后于基于特征的方法。
基于特征的方法通常預先構建基于結構的場景地圖(例如3D點云模型),并將每個地圖元素與一個或多個3D描述符相關聯。這些3D一致描述符通常是通過對手工特征或基于學習的關鍵點描述符[9, 46](從2D圖像中檢測得到)執行多視圖融合獲得的。查詢圖像中檢測到的2D點可以與3D描述符進行匹配,以獲得用于穩健姿態估計的2D-3D對應關系。基于特征的方法的定位性能還取決于所提取描述符的可重復性和區分能力。然而,受限于場景表示方式,這些經典的定位方法無法進行逼真的渲染,而這是AR應用的重要組成部分。
近年來,神經輻射場(NeRF)和3D高斯濺射(3DGS)已成為神經隱式場景表示的新范式。這些范式使用隱式表示(例如多層感知器、參數化編碼)或顯式基本元素(例如點、2D/3D高斯)來表示場景屬性,并在高質量渲染和幾何重建方面實現了令人滿意的性能。得益于可微分的NeRF風格體積渲染[16]和基于點的alpha混合,基于神經的方法可以在沒有3D監督的情況下以端到端的方式進行參數優化。一些工作使用神經隱式表示來重建場景并進行姿態估計。iNeRF是第一個通過最小化查詢圖像與預訓練NeRF模型渲染結果之間的光度誤差來精煉6-DoF姿態的工作。NeRF-SCR和LENS是將基于回歸的視覺定位與神經輻射場相結合的代表性工作。它們訓練一個特定場景的NeRF模型來合成覆蓋整個場景空間的高質量新視圖,從而為它們的場景坐標回歸網絡優化提供額外的訓練數據。同樣,由于缺乏幾何約束,這些NeRF輔助的回歸方法的定位性能也不具備競爭力。為了施加幾何約束,基于特征的方法PNeRFLoc使用顯式結構表示場景,并將地圖中的每個點與基于學習的描述符相關聯。PNeRFLoc能夠實現更好的定位性能和泛化能力。然而,與傳統基于特征的方法一樣,PNeRFLoc需要顯式存儲逐點特征,這會導致大量內存使用,對于存儲有限的移動設備而言不切實際。
為了克服上述限制,我們提出了一種高效且新穎的視覺定位方法,該方法以更少的模型參數實現了更好的性能,適用于定位和高質量新視圖渲染。具體而言,為了減少模型參數,我們不顯式存儲逐點描述符。相反,我們從多視圖2D特征圖中構建特征體,并將其提煉為特定場景的3D特征解碼器,從而可以避免由alpha混合引入的高斯基本元素的描述符偏差。然后,我們提出了一種高效的顯著3D地標選擇算法,以減少由大量高斯基本元素引起的2D-3D匹配的計算開銷。最后,我們對關鍵高斯基本元素進行位置和縮放正則化,以減少3D中心偏移。
3. 效果展示
我們提出了SplatLoc,一種為增強現實設計的高效新穎的視覺定位方法。如圖所示,我們的系統利用單目RGB-D幀,使用3D高斯圖元來重建場景。此外,利用我們學習的無偏3D描述符場,我們通過精確的2D-3D特征匹配實現了6-DoF相機姿態估計。我們展示了我們的系統的潛在AR應用,例如虛擬內容插入和物理碰撞模擬。我們用紅框突出顯示虛擬對象。
4. 主要貢獻
我們提出的方法的具體貢獻總結如下:
? 我們提出了一種高效且新穎的視覺定位方法,該方法基于3D高斯基本元素,能夠以更少的參數實現精確的定位性能和高質量、快速的渲染。
? 我們引入了一種無偏的3D描述符學習策略,用于精確匹配2D關鍵點和3D高斯基本元素,使用一個特定場景的3D特征解碼器從多視圖特征圖中回歸特征體。
? 我們開發了一種有效的顯著3D地標選擇算法,以減少用于定位的基本元素數量。此外,為了減輕由光度渲染損失引起的高斯基本元素中心偏移,我們對關鍵高斯基本元素的位置和尺度應用了正則化。
? 我們進行了大量實驗,證明了所提出方法在視覺定位和高質量新視圖渲染方面的先進性和可比性能。
5. 方法
重建過程。我們逐步初始化高斯基元,每個基元都與位置μ、旋轉q、尺度s、不透明度σ、顏色c以及3D地標分數a相關聯。對于關鍵高斯基元,我們執行軟等軸性和尺度正則化,以減輕結果的非等軸性。利用顏色損失Lc、深度損失Ld、3D地標損失Lm和正則化損失Lreg,通過可微光柵化優化每個基元的屬性。
有偏和無偏3D描述符場學習的說明。(a) 以往工作[44, 48]中的有偏3D特征優化,它們使用alpha混合來獲得2D混合特征。(b) 我們的無偏3D特征學習方案,直接從由多視圖特征圖構建的特征體中學習3D特征解碼器。
我們無偏3D基元描述符學習的流程。我們首先基于2D卷積神經網絡(CNN)模型[9]對圖像進行編碼,以獲得多視圖特征圖,并根據深度和姿態信息構建3D場景特征體。為了增強3D特征解碼器的表征能力,我們使用多分辨率參數編碼來輔助3D場景特定描述符的學習。此外,我們僅對場景表面進行描述符采樣,以實現有效的知識蒸餾。
6. 實驗結果
7. 總結 & 未來工作
在本文中,我們提出了SplatLoc,這是一種基于3D高斯基元的高效且新穎的視覺定位方法,相比傳統定位方法更適合增強現實(AR)/虛擬現實(VR)。具體而言,為了壓縮用于定位的場景模型,我們為重建的高斯基元學習了一個無偏3D描述符場,這比以往的alpha混合方法更準確。然后,我們提出了一種顯著的3D地標選擇算法,根據高斯基元的顯著性分數選擇更具信息量的基元進行視覺定位,這可以減少移動設備的內存和運行時間需求。此外,我們為關鍵高斯基元提出了一個有效的正則化項,以避免非等軸形狀并減少幾何誤差,從而可以提高定位性能的穩定性。在兩個常用數據集上的大量實驗證明了我們所提系統的有效性和實用性。
目前,我們提出的方法存在兩個局限性。第一個是我們需要深度信息或稀疏點云來重建場景。我們的方法基于3DGS,該方法需要點云來初始化每個高斯基元的位置。第二個是我們的方法不能用于大型室外場景,因為這會增加參數數量。在未來,我們將嘗試使用視覺基礎模型(例如DepthAnything)來估計RGB圖像的深度,這可以視為替代深度傳感器的先驗,并指導場景重建過程。此外,我們考慮使用分層表示方法來擴展我們的定位方法,以適用于大型室外場景。