純RGB輸入，解決戶外場景SLAM！誤差降低至9.8%，港科廣開源 | ICRA 2025

作者：新智元 2025-03-27 10:54:06

OpenGS-SLAM是一種新的RGB-only SLAM系統(tǒng)，專門用于無界戶外場景。它通過點圖回歸網(wǎng)絡(luò)和3D高斯分布（3DGS）表示，實現(xiàn)了精準(zhǔn)的相機定位和高保真的場景重建，顯著提升了跟蹤精度和新視角合成的效果。

在自主駕駛、機器人導(dǎo)航、AR/VR等前沿應(yīng)用中，Simultaneous Localization and Mapping (SLAM) 是核心技術(shù)之一。

現(xiàn)有基于3D高斯分布（3DGS）的SLAM方法雖在室內(nèi)場景表現(xiàn)出色，但使用僅RGB輸入來處理無界的戶外場景仍然面臨挑戰(zhàn)：

準(zhǔn)確的深度和尺度估計困難，這影響了姿態(tài)精度和3DGS初始化
圖像重疊有限且視角單一，缺乏有效的約束，導(dǎo)致訓(xùn)練難以收斂

為了解決上述挑戰(zhàn)，港科廣團隊提出全新解決方案OpenGS-SLAM，僅憑RGB圖像實現(xiàn)高精度定位與逼真場景重建。

論文鏈接：https://arxiv.org/abs/2502.15633

代碼鏈接：https://github.com/3DAgentWorld/OpenGS-SLAM

官方主頁：https://3dagentworld.github.io/opengs-slam/

具體來說，該方法采用了一個點圖回歸網(wǎng)絡(luò)來生成幀間一致的點圖，儲存了來自多個標(biāo)準(zhǔn)視角的3D結(jié)構(gòu)，包含了視角關(guān)系、2D到3D的對應(yīng)關(guān)系和場景幾何信息，使得相機位姿估計更加穩(wěn)健，有效緩解了預(yù)訓(xùn)練深度網(wǎng)絡(luò)的誤差問題。

此外，將相機位姿估計與3DGS渲染集成到一個端到端可微的管道中，實現(xiàn)了位姿和3DGS參數(shù)的聯(lián)合優(yōu)化，顯著提高了系統(tǒng)的跟蹤精度。

文中還設(shè)計了一種自適應(yīng)比例映射器和動態(tài)學(xué)習(xí)率調(diào)整策略，能夠更準(zhǔn)確地將點圖映射到3DGS地圖表示。

值得注意的是，在Waymo數(shù)據(jù)集上的實驗表明，OpenGS-SLAM將追蹤誤差降低至現(xiàn)有3DGS方法的9.8%，研究人員還在新視角合成任務(wù)上建立了一個新的基準(zhǔn)，達(dá)到了最先進(jìn)的結(jié)果。

摘要

3D Gaussian Splatting（3DGS）已成為SLAM領(lǐng)域的一種流行解決方案，因其能夠生成高保真的新視角圖像。

然而，現(xiàn)有的基于3DGS的方法主要針對室內(nèi)場景，并依賴于RGB-D傳感器或預(yù)訓(xùn)練的深度估計模型，因此在戶外場景中的表現(xiàn)較差。

為了解決這一問題，研究人員提出了一種針對無界戶外場景的純RGB 3DGS SLAM方法OpenGS-SLAM。

從技術(shù)上來說，該方法先引入了一種Pointmap回歸網(wǎng)絡(luò)，用于在不同幀之間生成一致的Pointmap以進(jìn)行位姿估計。

與常用的深度圖相比，Pointmap能夠包含跨多個視角的空間關(guān)系和場景幾何信息，從而實現(xiàn)更魯棒的相機位姿估計。

隨后，將估計得到的相機位姿與3DGS渲染結(jié)合，構(gòu)建端到端可微分優(yōu)化管線，使得相機位姿與3DGS場景參數(shù)能夠同時優(yōu)化，顯著提高了系統(tǒng)的跟蹤精度。

此外，研究人員還為Pointmap回歸網(wǎng)絡(luò)設(shè)計了一種自適應(yīng)尺度映射器（Adaptive Scale Mapper），能夠更準(zhǔn)確地將Pointmap映射到3DGS結(jié)構(gòu)表示中。

在Waymo數(shù)據(jù)集上的實驗結(jié)果表明，OpenGS-SLAM將跟蹤誤差降低至現(xiàn)有3DGS方法的9.8%，并在新視角合成（Novel View Synthesis, NVS）任務(wù)上達(dá)到了最新的SOTA結(jié)果。

效果展示

如下圖所示，在Waymo數(shù)據(jù)集的無界戶外場景上，該方法能渲染高保真的新視角圖片，準(zhǔn)確捕捉車輛、街道和建筑物的細(xì)節(jié)。相比之下，MonoGS和GlORIE-SLAM存在渲染模糊和失真的問題。

如下圖所示，該方法擁有明顯更優(yōu)的追蹤性能，在面臨大轉(zhuǎn)彎時也能穩(wěn)定收斂。

基本原理

下圖為SLAM方法的管線示意圖，每一幀都會輸入一張 RGB 圖像用于追蹤，當(dāng)前幀和上一幀作為圖片對輸入到Pointmap回歸網(wǎng)絡(luò)進(jìn)行位姿估計，隨后基于當(dāng)前的3D高斯地圖進(jìn)行位姿優(yōu)化。

在關(guān)鍵幀處，系統(tǒng)執(zhí)行地圖更新，并通過自適應(yīng)尺度映射器（Adaptive Scale Mapper）對 Pointmap 進(jìn)行處理，以插入新的3D高斯點。

此外，相機位姿與3D高斯地圖會在局部窗口內(nèi)進(jìn)行聯(lián)合優(yōu)化，確保更精準(zhǔn)的追蹤與場景重建。

追蹤

幀間點圖回歸與位姿估計

之前基于3DGS和NeRF的SLAM工作，主要集中在室內(nèi)和小規(guī)模場景中，其中相機的運動幅度較小，視角密集。

在這種情況下，NeRF或3DGS可以直接用于優(yōu)化相機位姿。然而，戶外場景通常涉及基于車輛的攝影，特征是運動幅度較大且視角相對稀疏，使得直接優(yōu)化相機位姿難以收斂。

鑒于點圖包含視角關(guān)系、2D到3D的對應(yīng)關(guān)系和場景幾何信息，研究人員提出了一種基于幀間點圖回歸網(wǎng)絡(luò)的位姿估計方法，旨在實現(xiàn)穩(wěn)健且快速的當(dāng)前幀相機位姿估計。

研究人員利用一個預(yù)訓(xùn)練的點圖回歸網(wǎng)絡(luò)，結(jié)合了ViT編碼器、帶有自注意力和交叉注意力層的Transformer解碼器以及一個MLP回歸頭，生成連續(xù)幀圖像的點圖，兩個圖像分支之間的信息共享有助于點圖的正確對齊。

盡管應(yīng)用點圖可能看起來有些反直覺，但它能夠在圖像空間中有效表示3D形狀，并且允許在不同視角的射線之間進(jìn)行三角測量，而不受深度估計質(zhì)量的限制。

隨后，使用穩(wěn)健且廣泛應(yīng)用的RANSAC和PnP來推斷兩幀之間的相對姿態(tài)，使用這種方法，估計第k幀的位姿為

位姿優(yōu)化

為了實現(xiàn)精確的相機位姿追蹤，研究人員基于3DGS可微光柵化管道，構(gòu)建一套可微的相機位姿優(yōu)化方法，定義光度損失為：

其中rr表示每個像素的可微渲染函數(shù)，通過高斯GG和相機位姿TCWTCW生成圖像，IˉIˉ表示真實圖像。光度損失LphoLpho關(guān)于位姿TCWTCW的梯度為：

通過這些步驟，利用渲染函數(shù)的微分，將增量位姿更新與光度損失緊密關(guān)聯(lián)。這一策略使得相機位姿能夠基于 3DGS 渲染結(jié)果進(jìn)行端到端優(yōu)化，從而確保高精度且穩(wěn)定的位姿跟蹤。

3DGS場景表示

研究人員使用3DGS作為場景表示，提出自適應(yīng)尺度映射器（Adaptive Scale Mapper），在關(guān)鍵幀時為地圖插入新的高斯點。

利用先前獲得的點圖來映射3D高斯地圖，由于幀間點圖存在尺度不穩(wěn)定的問題，基于點匹配關(guān)系計算連續(xù)幀之間的相對尺度變化因子，以確保整個場景的尺度一致性。

建圖

高斯地圖優(yōu)化

研究人員管理一個局部關(guān)鍵幀窗口W，以選擇觀察相同區(qū)域的非冗余關(guān)鍵幀，為后續(xù)的建圖優(yōu)化提供更高效的多視角約束。

在每個關(guān)鍵幀上，通過聯(lián)合優(yōu)化W窗口中的高斯屬性和相機位姿來實現(xiàn)局部BA，優(yōu)化過程仍然通過最小化光度損失進(jìn)行。

為了減少高斯橢球體的過度拉伸，采用了各向同性正則化：

高斯地圖優(yōu)化任務(wù)可以總結(jié)為：

自適應(yīng)學(xué)習(xí)率調(diào)整

在經(jīng)典的室內(nèi)SLAM數(shù)據(jù)集中，相機通常圍繞小范圍場景運動并形成閉環(huán)，使高斯優(yōu)化的學(xué)習(xí)率隨迭代次數(shù)逐漸衰減。

然而，文中研究的戶外數(shù)據(jù)由前向車輛相機捕獲，所經(jīng)過區(qū)域不會重訪，因此需要不同的學(xué)習(xí)率衰減策略。

為此，研究人員提出了一種基于旋轉(zhuǎn)角度的自適應(yīng)學(xué)習(xí)率調(diào)整策略：當(dāng)車輛沿直路行駛時，學(xué)習(xí)率逐步衰減；在遇到坡道或轉(zhuǎn)彎時，動態(tài)提升學(xué)習(xí)率，以更有效地優(yōu)化新場景。

首先，計算當(dāng)前關(guān)鍵幀和上一關(guān)鍵幀之間的旋轉(zhuǎn)矩陣R1和R0，其相對旋轉(zhuǎn)矩陣為

，接著計算旋轉(zhuǎn)弧度：

接著將弧度θrad轉(zhuǎn)換為度數(shù)θ，并根據(jù)以下公式調(diào)整累計迭代次數(shù)：

當(dāng)旋轉(zhuǎn)角度達(dá)到90度時，累積迭代次數(shù)將被重置。

實驗結(jié)果

精度

該方法在Waymo數(shù)據(jù)集上實現(xiàn)了新視角合成（NVS）的最佳性能。在追蹤精度方面，與GlORIE-SLAM相當(dāng)；而相比同樣基于3DGS的SLAM方法MonoGS，誤差降低至9.8%，顯著提升了系統(tǒng)的魯棒性和準(zhǔn)確性。

消融研究

下表顯示，自適應(yīng)學(xué)習(xí)率調(diào)整和自適應(yīng)尺度映射均對整體性能產(chǎn)生積極影響，而Pointmap回歸網(wǎng)絡(luò)更是該方法的核心支撐，對系統(tǒng)性能至關(guān)重要。

總結(jié)

OpenGS-SLAM是一種基于3DGS表示的RGB-only SLAM系統(tǒng)，適用于無界的戶外場景。該方法將點圖回歸網(wǎng)絡(luò)與3DGS表示結(jié)合，確保精確的相機姿態(tài)跟蹤和出色的新視圖合成能力。

與其他基于3DGS的SLAM系統(tǒng)相比，該方法在戶外環(huán)境中提供了更高的跟蹤精度和魯棒性，使其在實際應(yīng)用中具有較高的實用性。

責(zé)任編輯：張燕妮來源：新智元

3D 模型 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看