解鎖SLAM新紀元!基于NeRF和3D GS方法綜述
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
在過去的二十年里,SLAM領域的研究經歷了重大的發展,突出了其在實現未知環境的自主探索方面的關鍵作用。這種演變從手工制作的方法到深度學習時代,再到最近專注于神經輻射場(NeRFs)和3D高斯潑濺(3DGS)表示的發展。我們意識到越來越多的研究和缺乏對該主題的全面調查,本文旨在通過輻射場的最新進展,首次全面概述SLAM的進展。它揭示了背景、進化路徑、固有優勢和局限性,并作為突出動態進展和具體挑戰的基本參考。
相關背景
現有SLAM綜述回顧
SLAM有了顯著的增長,誕生了各種各樣的綜合論文。在早期階段,達蘭特-懷特和貝利介紹了SLAM問題的概率性質,并強調了關鍵方法。Grisetti等人進一步深入研究了基于圖的SLAM問題,強調了它在未知環境中導航的作用。在視覺SLAM領域,Yousif概述了定位和映射技術,結合了視覺里程計和SLAM的基本方法和進展。多機器人系統的出現使Saeedi和Clark回顧了最先進的方法,重點關注多機器人SLAM的挑戰和解決方案。
在現有文獻中,出現了兩種主要的SLAM策略,即frame-to-frame和frame-to-model跟蹤方法。通常,前一種策略用于實時系統,通常涉及通過閉環(LC)或全局束調整(BA)對估計的姿態進行進一步優化,而后一種策略從重建的3D模型中估計相機姿態,通常避免進一步優化,但導致對大場景的可擴展性較低。這些策略構成了我們即將深入研究的方法論的基礎。
雖然現有的調查涵蓋了傳統的和基于深度學習的方法,但最近的文獻缺乏對SLAM技術前沿的全面探索,這些前沿植根于輻射領域的最新進展。
圖2展示了輻射場的三種表達形式
輻射場理論的演進
基于神經場的表面重建
盡管NeRF及其變體有可能捕捉場景的3D幾何結構,但這些模型是在神經網絡的權重中隱含定義的。通過3D網格獲得場景的顯式表示對于3D重建應用是可取的。從NeRF開始,實現粗略場景幾何的基本方法是對MLP預測的密度進行閾值設置。更高級的解決方案探討了三種主要表示形式。
占用情況。該表示通過用學習的離散函數o(x)∈{0,1}代替沿射線的α值αi,對自由空間和占用空間進行建模。具體而言,通過運行行進立方體算法來估計占有概率∈[0,1],并獲得表面。
符號距離函數(SDF)。場景幾何體的另一種方法是從任意點到最近曲面的符號距離,在對象內部產生負值,在對象外部產生正值。NeuS是第一個重新訪問NeRF體積渲染引擎的人,用MLP預測SDF為f(r(t)),并用ρ(t)代替α,從SDF推導如下:
截斷有符號距離函數(TSDF)。最后,使用MLP預測截斷的SDF允許在渲染過程中消除任何SDF值離單個表面太遠的貢獻。像素顏色是作為沿射線采樣的顏色的加權和獲得的:
3D Gaussian Splatting
3DGS由Kerbl于2023年推出,是一種用于高效、高質量渲染3D場景的顯式輻射場技術。與傳統的顯式體積表示(如體素網格)不同,它提供了一種連續而靈活的表示,用于根據可微分的3D高斯形狀基元對3D場景進行建模。這些基元用于參數化輻射場,并可以進行渲染以生成新的視圖。此外,與依賴于計算昂貴的體積射線采樣的NeRF相比,3DGS通過基于瓦片的光柵化器實現實時渲染。這種概念上的差異在圖3中突出顯示。這種方法在不依賴神經組件的情況下提供了改進的視覺質量和更快的訓練,同時也避免了在空白空間中進行計算。更具體地說,從具有已知相機姿勢的多視圖圖像開始,3DGS學習一組3D高斯。這允許將單個高斯基元的空間影響緊湊地表示為:
相反對于優化,該過程從SfM點云或隨機值的參數初始化開始,然后使用L1和D-SSIM損失函數對GT和渲染視圖進行隨機梯度下降(SGD)。此外,周期性自適應致密化通過調整具有顯著梯度的點和移除低不透明度點來處理欠重建和過重建,優化場景表示并減少渲染錯誤。
數據集
本節總結了最近SLAM方法中常用的數據集,涵蓋了室內和室外環境中的各種屬性,如傳感器、GT準確性和其他關鍵因素。圖4展示了來自不同數據集的定性示例,這些示例將在剩余部分中介紹。
TUM RGB-D數據集包括帶有注釋的相機軌跡的RGB-D序列,使用兩個平臺記錄:手持和機器人,提供不同的運動范圍。該數據集有39個序列,其中一些帶有循環閉包。核心元素包括來自微軟Kinect傳感器的彩色和深度圖像,以30赫茲和640×480分辨率拍攝。GT軌跡來源于一個運動捕捉系統,該系統有八臺高速攝像機,工作頻率為100赫茲。數據集的多功能性通過典型辦公環境和工業大廳中的各種軌跡得到了證明,包括不同的平移和角速度。
ScanNet數據集提供了真實世界室內RGB-D采集的集合,其中包括707個獨特空間中1513次掃描的250萬張圖像。特別地,它包括估計的校準參數、相機姿態、3D表面重建、紋理網格、對象級別的詳細語義分割以及對齊的CAD模型。
開發過程包括創建一個用戶友好的捕獲管道,使用定制的RGB-D捕獲設置,將結構傳感器連接到iPad等手持設備上。隨后的離線處理階段導致了全面的3D場景重建,包括可用的6-DoF相機姿勢和語義標簽。請注意,ScanNet中的相機姿勢源自BundleFusion系統,該系統可能不如TUM RGB-D等替代系統準確。
Replica數據集具有18個照片級真實感3D室內場景,具有密集網格、HDR紋理、語義數據和反射表面。它跨越不同的場景類別,包括88個語義類,并結合了單個空間的6次掃描,捕捉不同的家具布置和時間快照。重建涉及定制的RGB-D捕捉設備,該設備具有同步IMU、RGB、IR和廣角灰度傳感器,通過6個自由度(DoF)姿勢準確融合原始深度數據。盡管原始數據是在現實世界中捕獲的,但用于SLAM評估的數據集部分是由重建過程中產生的精確網格綜合生成的。因此,合成序列缺乏真實世界的特性,如鏡面反射高光、自動曝光、模糊等。
KITTI數據集是評估雙目、光流、視覺里程計/SLAM算法等的流行基準。該數據集來自一輛配備了雙目攝像頭、Velodyne LiDAR、GPS和慣性傳感器的汽車,包含來自61個代表自動駕駛場景的場景的42000個立體對和LiDAR點云。KITTI里程計數據集包含22個激光雷達掃描序列,有助于評估使用激光雷達數據的里程計方法。
Newer College數據集包括在牛津新學院周圍2.2公里步行過程中采集的傳感器數據。它包括來自立體慣性相機、帶慣性測量的多波束3D激光雷達和三腳架安裝的勘測級激光雷達掃描儀的信息,生成了一張包含約2.9億個點的詳細3D地圖。該數據集為每次激光雷達掃描提供了6 DoFGT姿態,精確到約3厘米。該數據集涵蓋了各種環境,包括建筑空間、開放區域和植被區。
其他數據集
此外,在最近的SLAM研究中,我們提請注意利用率較低的替代數據集。
ETH3D-SLAM數據集包括來自定制相機設備的視頻,適用于評估視覺慣性單目、雙目和RGB-D SLAM。它具有56個訓練數據集、35個測試數據集和5個使用GTSfM技術獨立捕獲的訓練序列。
EuRoC MAV數據集為微型飛行器提供同步立體圖像、IMU和準確的GT。它支持在各種條件下進行視覺慣性算法設計和評估,包括具有毫米精度GT的工業環境和用于3D環境重建的房間。
為重新定位性能評估而創建的7場景數據集使用Kinect以640×480的分辨率進行記錄。GT姿勢是通過KinectFusion獲得的。來自不同用戶的序列被分為兩組——一組用于模擬關鍵幀采集,另一組用于誤差計算。該數據集帶來了諸如鏡面反射、運動模糊、照明條件、平坦表面和傳感器噪聲等挑戰。
ScanNet++數據集包括460個高分辨率3D室內場景重建、密集語義注釋、單反圖像和iPhone RGB-D序列。使用亞毫米分辨率的高端激光掃描儀拍攝,每個場景都包括1000多個語義類的注釋,解決標簽歧義,并為3D語義場景理解和新穎視圖合成引入新的基準。
SLAM
本節介紹利用輻射場表示的最新進展的最新SLAM系統。這些論文以基于方法的分類法進行組織,按其方法進行分類,為讀者提供清晰有序的展示。本節首先對RGB-D、RGB和激光雷達方法進行基本分類,為特定子類別的發展奠定基礎。每個類別都按發表日期列出了在會議/期刊上正式發表的論文,然后是arXiv按其初始預印本日期排列的預印本。
為了全面了解,表1提供了調查方法的詳細概述。此表提供了深入的摘要,突出顯示了每種方法的關鍵功能,并包括對項目頁面或源代碼的引用(只要可用)。有關更多細節或方法細節,請參閱原始論文。
RGB-D SLAM
在這里,我們重點關注密集SLAM技術使用RGB-D相機,捕捉彩色圖像和逐像素的深度信息的環境。這些技術分為不同的類別:NeRF風格的SLAM解決方案和基于3D高斯飛濺表示的替代方案。從這兩種方法派生的專門解決方案包括用于大型場景的基于子映射的SLAM方法、處理語義的框架以及為動態場景量身定制的框架。在這種分類中,一些技術通過不確定性來評估可靠性,而另一些技術則探索集成其他傳感器,如基于事件的相機。
NeRF-style RGB-D SLAM
隱式神經表示的最新進展已經實現了精確和密集的3D表面重建。這導致了源自NeRF或受其啟發的新型SLAM系統,最初設計用于已知相機姿勢的離線使用。在本節中,我們描述了這些密集神經VSLAM方法,分析了它們的主要特征,并對它們的優勢和劣勢進行了清晰的概述。
iMAP。這項工作標志著首次嘗試利用SLAM的隱式神經表示。這一突破性的成就不僅突破了SLAM的界限,而且為該領域確立了新的方向。特別地,iMAP展示了MLP動態創建特定場景的隱式3D模型的潛力。
NICE-SLAM。與iMAP使用單個MLP作為場景表示不同,NICE-SLAM采用了集成多層次局部數據的分層策略。這種方法有效地解決了諸如過度平滑的重建和較大場景中的可擴展性限制等問題。
Vox Fusion。這項工作將傳統的體積融合方法與神經隱式表示相結合。具體而言,它利用基于體素的神經隱式表面表示來編碼和優化每個體素內的場景。雖然與NICE-SLAM有相似之處,但其獨特之處在于采用了基于八叉樹的結構來實現動態體素分配策略。
ESLAM。ESLAM的核心是實現了與傳統體素網格不同的多尺度軸對齊特征平面。這種方法通過二次縮放優化內存使用,與基于體素的模型所表現出的三次增長形成對比。
其他工作如Co-SLAM、GO-SLAM、Point-SLAM、ToF-SLAM、ADFP、MLM-SLAM、Plenoxel-SLAM、Structerf-SLAM、iDF-SLAM、NeuV-SLAM可以參考具體論文。
3DGS-style RGB-D SLAM
在這里,我們概述了使用基于3D高斯飛濺的顯式體積表示來開發SLAM解決方案的開創性框架。這些方法通常利用3DGS的優勢,例如與其他現有場景表示相比,更快、更真實的渲染。它們還提供了通過添加更多高斯基元、完全利用每像素密集光度損失和直接參數梯度流來提高地圖容量的靈活性,以促進快速優化。到目前為止,3DGS表示主要用于離線系統,該離線系統致力于從已知相機姿勢合成新的視圖。在下一節中,我們將介紹開創性的SLAM方法,這些方法能夠同時優化場景幾何結構和相機姿態。
GS-SLAM。GS-SLAM通過利用3D高斯作為表示,結合飛濺渲染技術,引入了一種范式轉變。與依賴神經隱式表示的方法相比,GS-SLAM通過采用一種新方法,利用3D高斯以及不透明度和球面諧波來封裝場景幾何結構和外觀,從而大大加速了地圖優化和重新渲染,如圖6所示。
Photo-SLAM。這項工作將顯式幾何特征和隱式紋理表示集成在超基元地圖中。該方法結合了ORB特征、旋轉、縮放、密度和球面諧波系數,以優化相機姿態和貼圖精度,同時最大限度地減少光度損失。
SplaTAM。這種方法將場景表示為簡化的3D高斯圖的集合,從而實現高質量的彩色和深度圖像渲染。SLAM管道包括幾個關鍵步驟:相機跟蹤-高斯稠密化-地圖更新。
GSSLAM。該系統采用3D高斯飛濺作為其唯一的表示,使用單個移動的RGB或RGB-D相機進行在線3D重建。該框架包括幾個關鍵組件,如跟蹤和相機姿態優化、高斯形狀驗證和正則化、建圖和關鍵幀以及資源分配和修剪。
高斯SLAM。該框架采用了涉及地圖構建和優化的管道,創建由單獨的3D高斯點云表示的單獨的子地圖,以防止災難性遺忘并保持計算效率。
Submaps-based SLAM
在這一類別中,我們專注于解決災難性遺忘的挑戰以及先前討論的受密集輻射場啟發的SLAM系統在大型環境中面臨的適用性問題的方法。
MeSLAM。MeSLAM引入了一種新的SLAM算法,用于具有最小內存占用的大規模環境映射。這是通過將神經隱式映射表示與新的網絡分布策略相結合來實現的。具體而言,通過使用分布式MLP網絡,全局映射模塊有助于將環境分割成不同的區域,并在重建過程中協調這些區域的縫合。
CP-SLAM。這項工作是一種協作的神經隱式SLAM方法,其特點是包含前端和后端模塊的統一框架。其核心是利用與關鍵幀相關的基于神經點的3D場景表示。這允許在姿勢優化過程中進行無縫調整,并增強協作建圖功能。
NISB地圖。NISB Map采用多個小型MLP網絡,遵循iMAP的設計,以緊湊的空間塊表示大規模環境。與具有深度先驗的側面稀疏光線采樣一起,這實現了低內存使用率的可擴展室內映射。
多個SLAM。本文介紹了一種新的協作隱式SLAM框架來解決災難性遺忘問題。通過使用多個SLAM代理來處理塊中的場景,它最大限度地減少了軌跡和建圖錯誤。
MIPS-Fusion。如圖8所示,這項工作引入了一種用于在線密集RGB-D重建的分治映射方案,使用了一種無網格的純神經方法,該方法具有增量分配和多個神經子映射的動態學習。
NEWTON。大多數神經SLAM系統使用具有單個神經場模型的以世界為中心的地圖表示。然而,這種方法在捕捉動態和實時場景方面面臨挑戰,因為它依賴于準確和固定的先前場景信息。這在廣泛的映射場景中可能特別有問題。
NGEL-SLAM。該系統利用兩個模塊,即跟蹤和映射模塊,將ORB-SLAM3的魯棒跟蹤能力與多個隱式神經映射提供的場景表示相結合。
PLGSLAM。本工作中提出的漸進式場景表示方法將整個場景劃分為多個局部場景表示,允許對更大的室內場景進行可擴展性,并提高魯棒性。
Loopy-SLAM。該系統利用子地圖形式的神經點云進行局部建圖和跟蹤。該方法采用幀到模型跟蹤和數據驅動的基于點的子地圖生成方法,在場景探索過程中基于相機運動動態生長子地圖。
Semantic RGB-D SLAM
作為SLAM系統運行,這些方法本身包括映射和跟蹤過程,同時還包含語義信息以增強環境的真實性。這些框架針對對象識別或語義分割等任務量身定制,為場景分析提供了一種整體方法——識別和分類對象和/或有效地將圖像區域分類為特定的語義類(如桌子、椅子等)。
iLabel。該框架是一個用于交互理解和分割3D場景的新穎系統。它使用神經場表示將三維坐標映射到顏色、體積密度和語義值。
FR-Fusion。該方法將神經特征融合系統無縫集成到iMAP框架中。通過結合2D圖像特征提取器(基于EfficientNet或DINO)并使用潛在體積繪制技術增強iMAP,該系統可以有效地融合高維特征圖,同時降低計算和內存需求。
其他算法如vMap、NIDS-SLAM、SNI-SLAM、DNS SLAM、SGS-SLAM可以參考具體論文。
SLAM in Dynamic Environments
到目前為止,大多數SLAM方法都是基于以剛性、不移動物體為特征的靜態環境的基本假設。雖然這些技術在靜態場景中表現良好,但它們在動態環境中的性能面臨重大挑戰,限制了它們在現實世界場景中的適用性。因此,在本節中,我們概述了專門為應對動態環境中精確映射和定位估計的挑戰而設計的方法。
DN-SLAM。這項工作集成了各種組件,以解決動態環境中準確位置估計和地圖一致性方面的挑戰。DN-SLAM利用ORB特征進行對象跟蹤,并采用語義分割、光流和分段任意模型(SAM),有效地識別和隔離場景中的動態對象,同時保留靜態區域,增強SLAM性能。具體而言,該方法包括利用語義分割進行對象識別,通過SAM細化動態對象分割,提取靜態特征,以及使用NeRF生成密集地圖。
DynaMoN。該框架建立在DROID-SLAM的基礎上,通過運動和語義分割對其進行了增強。該方法將這些元素集成到密集BA過程中,利用運動和分割掩碼對優化過程進行加權,并忽略潛在的動態像素。通過預先訓練的DeepLabV3網絡,語義分割有助于細化已知對象類的掩碼,并結合了基于運動的過濾來處理未知的動態元素。
其他算法如DDN-SLAM、NID-SLAM可以參考具體論文。
不確定性估計
分析輸入數據中的不確定性,尤其是深度傳感器噪聲,對于魯棒系統處理至關重要。這包括過濾不可靠的傳感器測量值或將深度不確定性納入優化過程等任務。總體目標是防止SLAM過程中可能嚴重影響系統準確性的不準確。同時,承認神經模型重建中的內在不確定性為評估系統可靠性增加了一個關鍵層,尤其是在具有挑戰性的場景中。本節標志著神經SLAM不確定性探索的開始,強調將認知(基于知識)和預測(基于環境噪聲)不確定性信息作為提高SLAM系統整體性能的重要組成部分。
OpenWorld-SLAM。這項工作改進了NICE-SLAM。解決其非實時執行、有限的軌跡估計以及由于依賴預定義網格而適應新場景的挑戰。為了增強在開放世界場景中的適用性,這項工作引入了新的改進,包括從RGB-D圖像中集成深度不確定性以進行局部精度細化,來自慣性測量單元(IMU)的運動信息利用以及用于不同環境處理的有限前景網格和背景球面網格的NeRF的劃分。這些增強提高了跟蹤精度和地圖表示,同時保持了基于NeRF的SLAM優勢。這項工作強調了對支持基于NeRF的SLAM的專業數據集的需求,特別是那些提供戶外網格模型、運動數據和特征良好的傳感器的數據集。
UncLe-SLAM。UncLe-SLAM在飛行中聯合學習場景幾何和任意深度的不確定性。這是通過采用與輸入深度傳感器相關聯的拉普拉斯誤差分布來實現的。與缺乏深度不確定性建模集成的現有方法不同,UncLeSLAM采用了一種學習范式,根據不同圖像區域的估計置信度,自適應地為其分配權重,而無需地面實況深度或3D。
Event-based SLAM
雖然輻射場啟發的VSLAM方法在精確的密集重建中具有優勢,但涉及運動模糊和照明變化的實際場景帶來了重大挑戰,影響了映射和跟蹤過程的穩健性。在本節中,我們將探討一類系統,這些系統利用事件攝像機捕獲的數據來利用其動態范圍和時間分辨率。由給定像素的亮度對數變化觸發的異步事件生成機制在低延遲和高時間分辨率方面顯示出潛在的優勢。這有可能提高神經VSLAM在極端環境中的魯棒性、效率和準確性。盡管基于事件相機的SLAM系統仍處于研究的早期階段,但我們相信,正在進行的研究有望克服傳統基于RGB的方法的局限性。
EN-SLAM。該框架通過隱式神經范式將事件數據與RGB-D無縫集成,引入了一種新的范式轉變。它旨在克服現有SLAM方法在以運動模糊和照明變化等問題為特征的非理想環境中操作時遇到的挑戰。
RGB-based SLAM
本節探討RGB密集SLAM方法,該方法僅依賴于彩色圖像的視覺提示,從而消除了對深度傳感器的需求,這些傳感器通常是光敏的、有噪聲的,在大多數情況下僅適用于室內。因此,使用單目或雙目相機的僅RGB SLAM在RGB-D相機不切實際或成本高昂的情況下越來越受到關注,使RGB相機成為適用于更廣泛的室內和室外環境的更可行的解決方案。然而,這些方法經常面臨挑戰,特別是在單目設置中,因為它們缺乏幾何先驗,導致深度模糊問題。因此,由于較少的約束優化,它們往往表現出較慢的優化收斂。
NeRF-style RGB SLAM
DIM-SLAM。本文介紹了第一個使用神經隱式映射表示的RGB SLAM系統。與NICE-SLAM類似,它結合了可學習的多分辨率體積編碼和用于深度和顏色預測的MLP解碼器。該系統動態學習場景特征和解碼器。此外,DIM-SLAM通過跨尺度融合特征,在一步中優化占用率,提高了優化速度。值得注意的是,它引入了受多視圖立體啟發的光度扭曲損失,通過解決與視圖相關的強度變化,加強了合成圖像和觀測圖像之間的對齊,以提高準確性。與其他RGB-D方法類似,DIM-SLAM利用并行跟蹤和映射線程來同時優化相機姿勢和隱含場景表示。
其他算法Orbeez-SLAM、FMapping、TT-HO-SLAM、Hi-Map可以參考具體論文。
輔助監督
在本節中,我們探討了基于RGB的SLAM方法,該方法使用外部框架將正則化信息集成到優化過程中,稱為輔助監督。這些框架包括各種技術,例如從從單視圖或多視圖圖像獲得的深度估計導出的監督、表面法線估計、光流等等。外部信號的結合對于消除優化過程的歧義至關重要,并且有助于顯著提高僅使用RGB圖像作為輸入的SLAM系統的性能。
iMODE。該系統通過由三個核心進程組成的多線程體系結構運行。首先,定位過程利用ORB-SLAM2稀疏SLAM系統在CPU上進行實時相機姿態估計,為后續映射選擇關鍵幀。其次,受iMAP的啟發,半密集映射過程通過監督深度渲染幾何體的實時訓練來提高重建精度。
其他算法Hi-SLAM、NICER-SLAM、NeRF-VO、MoD-SLAM可以參考具體論文。
Semantic RGB SLAM
RO-MAP。RO-MAP是一種實時多目標建圖系統,無需深度先驗,利用神經輻射場進行目標表示。這種方法將輕量級的以對象為中心的SLAM與NeRF模型相結合,用于從單目RGB輸入中同時定位和重建對象。該系統有效地為每個對象訓練單獨的NeRF模型,展示了語義對象建圖和形狀重建的實時性能。主要貢獻包括開發了第一個3D先驗免費單目多目標映射管道,一個為目標量身定制的高效損失函數,以及一個高性能CUDA實現。
不確定性估計
NeRF SLAM。通過采用DROID-SLAM作為跟蹤模塊和Instant NGP作為分層體積神經輻射場圖的實時實現,該方法在給定RGB圖像作為輸入的情況下成功地實現了實時操作效率。此外,結合深度不確定性估計解決了深度圖中的固有噪聲,通過對神經輻射場的深度損失監督(權重由深度的邊際協方差確定)改善了結果。具體來說,管道涉及兩個實時同步的線程:跟蹤和建圖。跟蹤線程最大限度地減少了滑動關鍵幀窗口的BA重新投影錯誤。映射線程在沒有滑動窗口的情況下優化跟蹤線程中的所有關鍵幀。只有當跟蹤線程創建新的關鍵幀,共享關鍵幀數據、姿勢、深度估計和協變量時,才會發生通信。
LiDAR-Based SLAM
雖然到目前為止討論的VSLAM系統在RGB和密集深度數據都可用的較小室內場景中成功運行,但它們的局限性在RGB-D相機不切實際的大型室外環境中變得明顯。激光雷達傳感器在長距離和各種戶外條件下提供稀疏而準確的深度信息,在確保這些環境中的穩健映射和定位方面發揮著關鍵作用。然而,激光雷達數據的稀疏性和RGB信息的缺乏對先前概述的密集SLAM方法在戶外環境中的應用提出了挑戰。我們現在的重點是利用3D增量激光雷達數據的精度來改善戶外場景中的自主導航的新方法,同時利用基于輻射場的場景表示,即使在傳感器覆蓋范圍稀疏的區域中,也有可能實現密集、平滑的環境地圖重建。
NeRF-style LiDAR-based SLAM
NeRF-LOAM。NeRF LOAM引入了第一種神經隱式方法來聯合確定傳感器的位置和方向,同時使用激光雷達數據構建大規模環境的綜合3D表示。該框架包括三個相互連接的模塊:神經里程計、神經建圖和網格重建。神經里程計模塊通過固定的隱式網絡最小化SDF誤差,為每次進入的激光雷達掃描估計6-DoF姿態。隨后通過反向投影對姿態進行優化。并行地,神經映射模塊在基于八叉樹的架構中使用動態體素嵌入,熟練地捕捉局部幾何。這種動態分配策略確保了計算資源的有效利用,避免了預分配嵌入或時間密集型哈希表搜索的復雜性。該方法使用動態體素嵌入查找表,提高了效率并消除了計算瓶頸。關鍵掃描細化策略提高了重建質量,并解決了增量映射過程中的災難性遺忘問題,從而在最后一步中生成詳細的3D網格表示。
其他算法LONER、PIN-SLAM可以參考具體論文。
3DGS-style LiDAR-based SLAM
LIV-GaussMap。所提出的激光雷達慣性視覺(LIV)融合輻射場映射系統將硬件同步激光雷達慣性傳感器與相機集成,以實現精確的數據對齊。該方法從激光雷達慣性里程計開始,利用尺寸自適應體素來表示平面表面。激光雷達點云被分割成體素,并計算初始橢圓飛濺估計的協方差矩陣。該系統是通過使用視覺衍生的光度梯度優化球面諧波系數和激光雷達高斯結構來改進的,提高了映射精度和視覺真實性。高斯的初始化涉及大小自適應體素分割,并基于指定參數進行進一步細分。3D高斯圖的自適應控制通過結構細化和光度梯度優化來解決重建不足和過密場景。該系統使用光柵化和阿爾法混合實現實時渲染。
實驗及分析
在本節中,我們比較了數據集之間的方法,重點是跟蹤和3D重建。此外,我們還探索了新穎的視圖合成,并分析了運行時和內存使用方面的性能。在隨后的每個表中,我們使用粗體強調子類別中的最佳結果,并用紫色突出顯示絕對最佳結果。在我們的分析中,我們使用通用評估協議組織了論文中的定量數據,并對結果進行了交叉驗證。我們的首要任務是納入具有一致基準的論文,確保為多個來源的比較提供可靠的基礎。盡管這種方法并非詳盡無遺,但它保證了在我們的表格中包含具有可驗證結果和共享評估框架的方法。為了進行性能分析,我們使用了具有可用代碼的方法來報告通用硬件平臺(單個NVIDIA 3090 GPU)上的運行時和內存需求。關于每種方法的具體實施細節,鼓勵讀者參考原始論文。
Visual SLAM評測
表2提供了對TUM RGB-D數據集的三個場景的相機跟蹤結果的全面分析,這些場景以具有挑戰性的條件為標志,例如稀疏的深度傳感器信息和RGB圖像中的高運動模糊。關鍵基準包括Kintinous、BAD-SLAM和ORB-SLAM2等已建立的方法,這些方法表示傳統的手工制作的基線。
表3給出了對ScanNet數據集的六個場景的相機跟蹤方法的評估。
表4評估了Replica中八個場景的相機跟蹤,與ScanNet和TUM RGB-D等具有挑戰性的同行相比,使用了更高質量的圖像。評估包括報告每個場景的ATE RMSE結果以及平均結果。
在表5中,我們提供了建圖結果,突出了Replica數據集在3D重建和2D深度估計方面的性能。
在表6中,我們顯示了Replica的訓練輸入視圖上的渲染質量,遵循Point SLAM和NICE-SLAM的標準評估方法。
LiDAR SLAM/Odometry評測
表7顯示了對KITTI數據集上的激光雷達SLAM策略的評估,詳細說明了頂部的里程計準確性和底部的SLAM性能指標。
表8報告了根據ATE RMSE測量的Newer College數據集的跟蹤精度。
圖片
表9收集了關于New College數據集上的3D重建質量的結果。
性能分析
我們通過考慮迄今為止綜述的SLAM系統的效率來結束實驗研究。為此,我們使用公開的源代碼運行方法,并測量1)GPU內存需求(以GB為單位的峰值內存使用量)和2)在單個NVIDIA RTX 3090板上實現的平均FPS(計算為處理單個序列所需的總時間,除以其中的幀總數)。表10收集了我們在Replica上運行的RGB-D和RGB系統的基準測試結果,按平均FPS的升序排序。最重要的是,我們考慮RGB-D框架:我們可以注意到,盡管SplaTAM在渲染圖像方面效率很高,但在同時處理跟蹤和映射方面卻慢得多。使用分層特征網格的混合方法也是如此,另一方面,所需的GPU內存要少得多——與SplaTAM相比低4到5倍。最后,使用更高級的表示,如散列網格或點特征,可以實現更快的處理。這也通過對僅RGB方法的研究得到了證實,在中間,NeRF-SLAM比DIM-SLAM快6倍。最后,關于激光雷達SLAM系統,我們可以觀察到PIN-SLAM是如何比Nerf LOAM高效得多的,在以近7 FPS的速度運行時只需要7 GB的GPU內存,而Nerf LOAM需要近12 GB和每幀4秒。
該分析強調了盡管新一代SLAM系統帶來了巨大的前景,但它們中的大多數在硬件和運行時要求方面仍然不令人滿意,使它們還沒有準備好用于實時應用。
討論
本節中,我們重點強調調查的主要發現。我們將概述通過所審查的最新方法取得的主要進展,同時確定該領域當前的挑戰和未來研究的潛在途徑。
場景表示。場景表示的選擇在當前的SLAM解決方案中至關重要,它會顯著影響映射/跟蹤精度、渲染質量和計算。早期的方法,如iMAP,使用基于網絡的方法,使用基于坐標的MLP隱式地對場景進行建模。雖然這些提供了緊湊、連續的場景建模,但由于在更新局部區域和縮放大型場景方面的挑戰,它們難以進行實時重建。此外,它們往往會產生過度平滑的場景重建。隨后的研究探索了基于網格的表示,如多分辨率分層和稀疏八叉樹網格,這些網格已經很受歡迎。網格允許快速查找鄰居,但需要預先指定的網格分辨率,這導致在空閑空間中內存使用效率低下,并且捕獲受分辨率限制的精細細節的能力有限。最近的進展,如Point SLAM,支持基于混合神經點的表示。與柵格不同,點密度自然變化,無需預先指定。與基于網絡的方法相比,點可以有效地集中在曲面周圍,同時為細節分配更高的密度,從而促進可擴展性和本地更新。然而,與其他NeRF風格的方法類似,體積射線采樣顯著限制了其效率。有前景的技術包括基于3D高斯飛濺范式的顯式表示,與以前的表示相比,這種表示表現出更快的渲染/優化。然而,在各種限制中,它們嚴重依賴初始化,對未觀察到的區域的原始生長缺乏控制。
盡管在過去三年中取得了重大進展,但正在進行的研究仍在積極克服現有的場景表示限制,并尋找更有效的替代方案來提高SLAM的準確性和實時性能。
災難性遺忘。現有的方法往往表現出忘記先前學習的信息的趨勢,特別是在大型場景或擴展視頻序列中。在基于網絡的方法的情況下,這歸因于它們依賴于單個神經網絡或具有固定容量的全局模型,這些網絡或模型在優化過程中會受到全局變化的影響。緩解這一問題的一種常見方法是在從歷史數據中回放關鍵幀的同時,使用當前觀測的稀疏射線采樣來訓練網絡。然而,在大規模增量映射中,這種策略會導致數據的累積增加,需要復雜的重新采樣過程來提高內存效率。遺忘問題延伸到基于網格的方法。盡管努力解決這一問題,但由于二次或三次空間復雜性,仍存在障礙,這對可擴展性提出了挑戰。同樣,雖然顯式表示(如3DGS風格的解決方案)為災難性遺忘提供了一種實用的解決方案,但由于內存需求增加和處理速度緩慢,尤其是在大型場景中,它們面臨著挑戰。一些方法試圖通過使用稀疏幀采樣來減輕這些限制,但這會導致整個3D空間的信息采樣效率低下,與集成稀疏射線采樣的方法相比,導致模型更新速度較慢且不太均勻。
最終,一些策略建議將環境劃分為子圖,并將局部SLAM任務分配給不同的代理。然而,這在處理多個分布式模型和設計有效策略來管理重疊區域同時防止地圖融合偽影的發生方面帶來了額外的挑戰。
實時限制。所審查的許多技術在實現實時處理方面面臨挑戰,通常無法與傳感器幀速率相匹配。這種限制主要是由于所選擇的地圖數據結構或基于計算密集型光線渲染的優化,這在NeRF風格的SLAM方法中尤為明顯。特別地,使用分層網格的混合方法需要較少的GPU內存,但表現出較慢的運行時性能。另一方面,散列網格或稀疏體素等高級表示允許更快的計算,但對內存的要求更高。最后,盡管目前的3DGS風格的方法在快速圖像渲染方面具有優勢,但它們仍難以有效處理多時間跟蹤和映射處理,阻礙了它們在實時應用中的有效使用。
全局優化。實現LC和全局BA需要大量的計算資源,冒著性能瓶頸的風險,尤其是在實時應用程序中。由于更新整個3D模型的計算復雜性過高,許多已綜述的幀到模型方法都面臨著閉環和全局束調整的挑戰。相比之下,幀對幀技術通過在背景線程中執行全局BA來促進全局校正,這顯著提高了跟蹤精度,如所報道的實驗所示,盡管與實時速率相比計算速度較慢。對于這兩種方法,計算成本很大程度上是由于潛在特征網格缺乏靈活性,無法適應環路閉合的姿態校正。事實上,這需要重新分配特征網格,并在校正循環和更新姿勢后重新訓練整個地圖。然而,隨著處理幀數的增加,這一挑戰變得更加明顯,導致相機漂移誤差的累積,最終導致不一致的3D重建或重建過程的快速崩潰。
SLAM中NeRF vs. 3DGS。NeRF風格的SLAM主要依賴于MLP,非常適合于新的視圖合成、映射和跟蹤,但由于其依賴于每像素光線行進,因此面臨著過度平滑、易發生災難性遺忘和計算效率低下等挑戰。3DGS繞過每像素光線行進,并通過基元上的可微分光柵化來利用稀疏性。這有利于SLAM的顯式體積表示、快速渲染、豐富的優化、直接梯度流、增加的地圖容量和顯式的空間范圍控制。因此,盡管NeRF顯示出非凡的合成新視圖的能力,但其訓練速度慢和難以適應SLAM是顯著的缺點。3DGS以其高效的渲染、明確的表示和豐富的優化能力,成為一種強大的替代品。盡管有其優點,但當前3DGS風格的SLAM方法仍有局限性。這些問題包括大型場景的可擴展性問題、缺乏直接的網格提取算法、無法準確編碼精確的幾何體,以及無法控制的高斯增長到未觀察到的區域的可能性,從而導致渲染視圖和底層3D結構中的偽影。
評估不一致。缺乏標準化的基準或具有明確評估協議的在線服務器,導致評估方法不一致,難以在方法之間進行公平比較,并在不同研究論文中提出的方法中出現不一致。ScanNet等數據集的挑戰就是例證,其中地面實況姿態是從Bundle Fusion中得出的,這引發了人們對評估結果的可靠性和可推廣性的擔憂。此外,使用訓練視圖作為輸入來評估渲染性能會引發對特定圖像過擬合風險的合理擔憂。我們強調有必要探索在SLAM背景下評估新視圖渲染的替代方法,并強調解決這些問題對更穩健的研究結果的重要性。
其他挑戰。SLAM方法,無論是傳統的、基于深度學習的,還是受輻射場表示的影響,都面臨著共同的挑戰。一個值得注意的障礙是動態場景的處理,由于靜態環境的基本假設,這被證明是困難的,導致重建場景中的偽影和跟蹤過程中的錯誤。雖然一些方法試圖解決這個問題,但仍有很大的改進空間,尤其是在高度動態的環境中。
另一個挑戰是對傳感器噪聲的敏感性,包括運動模糊、深度噪聲和劇烈旋轉,所有這些都會影響跟蹤和映射的準確性。場景中存在的非朗伯對象(如玻璃或金屬表面)進一步加劇了這種情況,由于其反射特性的變化,這些對象會帶來額外的復雜性。在這些挑戰的背景下,值得注意的是,許多方法往往忽視了對輸入模式的明確不確定性估計,阻礙了對系統可靠性的全面理解。
此外,缺乏外部傳感器,特別是深度信息,給僅RGB的SLAM帶來了一個根本問題,導致深度模糊和3D重建優化收斂問題。
一個不那么關鍵但具體的問題是場景的渲染圖像的質量。由于缺乏對模型中的視圖方向進行建模,從而影響渲染質量,因此已審查的技術通常難以處理與視圖相關的外觀元素,如鏡面反射。
結論
總之,這篇綜述開創了受輻射場表示最新進展影響的SLAM方法的探索。從iMap等開創性作品到最新進展,這篇綜述揭示了在短短三年內出現的大量文獻。通過結構化的分類和分析,它突出了關鍵的局限性和創新,提供了有價值的見解和跟蹤、繪制和渲染的比較結果。它還確定了當前懸而未決的挑戰,為未來的探索提供了有趣的途徑。
因此,這項調查旨在為新手和經驗豐富的專家提供重要指南,使其成為這一快速發展領域的綜合參考。