專為自動駕駛而生!DeSiRe-GS:徹底摒棄3D框,動靜態重建完美解耦(UC Berkeley最新)
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 & 個人理解
UC Berkeley最新的工作,提出了DeSiRe GS。全新自監督高斯飛濺表示,可以在復雜的駕駛場景中實現有效的靜態-動態分解和高保真表面重建。我們的方法采用動態街道高斯的兩階段優化流水線。在第一階段,由于3DGS只能重建動態環境中的靜態區域,因此首先提取2D運動目標mask。然后這些提取的2D運動先驗以可微的方式映射到高斯空間,在第二階段利用動態高斯的有效公式。結合引入的幾何正則化,我們的方法能夠解決自動駕駛中數據稀疏引起的過擬合問題,重建與物體表面對齊而不是漂浮在空中的物理上合理的高斯分布。此外,我們引入了時間跨視圖一致性,以確保跨時間和視點的一致性,從而實現高質量的表面重建。綜合實驗證明了DeSiRe GS的效率和有效性,超越了先前的自監督技術,實現了與依賴外部3D邊界框標注的方法相當的準確性。
- 開源鏈接:https://github.com/chengweialan/DeSiRe-GS
總結來說,本文的主要貢獻如下:
- 本文基于3DGS無法成功建模動態區域的簡單觀察,從外觀差異中輕松提取運動信息。
- 然后以可微的方式使用time-varying高斯將提取的局部幀中的2D運動先驗提取到全局高斯空間中。
- 引入了有效的3D正則化和時間交叉視圖一致性,以生成物理上合理的高斯球,進一步增強高質量的分解和重建。
相關工作回顧
城市場景重建。新視圖合成的最新進展,如神經輻射場(NeRF)和3D高斯散斑(3DGS),顯著推進了城市場景重建。許多研究已經將NeRF集成到自動駕駛的工作流程中。Urban Radiance Fields結合了激光雷達和RGB數據,而Block NeRF和Mega NeRF則對大型場景進行了分區,以進行并行訓練。然而,動態環境帶來了挑戰。NSG使用神經場景圖來分解動態場景,SUDS引入了一個用于4D場景表示的多分支哈希表。EmerNeRF和RoDUS等自我監督方法可以有效地應對動態場景挑戰。EmerNeRF通過場景流估計捕獲目標對應關系,RoDUS利用基于核的魯棒訓練策略結合語義監督。
在基于3DGS的城市重建中,最近的工作引起了人們的關注。StreetGaussians使用球諧函數分別對靜態和動態場景進行建模,而DrivingGaussian引入了用于靜態背景和動態目標重建的特定模塊。OmniRe通過動態高斯場景圖統一了靜態和動態對象重建。
靜態動態分解。幾種方法試圖對動態和靜態部件的變形進行建模。D-NeRF、Nerfiles、Deformable GS和4D-GS通過引入變形場擴展了vanilla NeRF或3DGS。他們計算規范到觀測的轉換,并通過變形網絡分離靜態和動態組件。然而,由于學習密集變形參數需要大量的計算資源,將這些方法應用于大規模駕駛場景具有挑戰性,不準確的分解會導致次優性能。
對于自動駕駛場景,NSG將動態和靜態部分建模為神經場景圖中的節點,但需要額外的3D注釋。其他基于NeRF的方法利用多分支結構分別訓練時變和時不變特征。基于3DGS的方法,也側重于靜態-動態分離,但仍面臨局限性。PVG為每個高斯函數分配速度和壽命等屬性,區分靜態和動態。然而,這種分離仍然不完整,缺乏徹底性。
神經表面重建。傳統的神經曲面重建方法更側重于真實的幾何結構。隨著神經輻射場(NeRF)技術的興起,神經隱式表示顯示出高保真表面重建的前景。StreetSurf建議在城市環境中解開近景和遠景,以更好地進行隱式表面重建。
3D GS重新引起了人們對顯式幾何重建的興趣,最近的工作側重于幾何正則化技術。SuGaR通過引入和附加正則化項將高斯橢球體與物體表面對齊,而2DGS直接用2D圓盤替換3D橢球體,并利用截斷符號距離函數(TSDF)融合深度圖,實現無噪聲的表面重建。PGSR引入了單視圖和多視圖正則化,以實現多視圖一致性。GSDF和NeuSG將3D高斯與神經隱式SDF相結合,以增強表面細節。TrimGS通過修剪不準確的幾何體來細化表面結構,保持與3DGS和2DGS等早期方法的兼容性。雖然這些方法在小規模重建中表現出色,但較新的作品旨在解決大規模的城市場景。RoGS提出了與路面物理特性相一致的2D高斯曲面表示。
DeSiRe-GS方法詳解
如圖2所示,訓練過程分為兩個階段。我們首先通過計算渲染圖像和GT圖像之間的特征差來提取2D運動mask。在第二階段,我們使用PVG將2D運動信息提取到高斯空間中,從而能夠以可微的方式糾正每個高斯的不準確屬性。
Dynamic Mask Extraction (stage I)
在第一階段,我們觀察到3D高斯散斑(3DGS)在重建靜態元素方面表現良好,例如駕駛場景中停放的汽車和建筑物。然而它很難準確地重建動態區域,因為原始的3DGS沒有包含時間信息。如圖2(階段1)所示,這種限制會導致渲染圖像中出現重影狀浮點等偽影。為了解決這個問題,我們利用靜態和動態區域之間的顯著差異,開發了一種有效的方法來提取編碼運動信息的分割mask。
最初,采用預訓練的基礎模型從渲染圖像和用于監督的GT圖像中提取特征。設F表示從渲染圖像I中提取的特征,F表示從GT圖像I中抽取的特征。為了區分動態和靜態區域,我們計算相應特征之間的每像素相異度D。相異度度量D對于類似特征接近0,表示靜態區域,對于不同特征接近1,對應于動態區域。
當預訓練模型被凍結時,計算出的相異度得分不涉及任何可學習的參數。我們提出了一種多層感知器(MLP)解碼器來預測動態度δ,而不是對D應用簡單的閾值來生成運動分割mask。該解碼器利用提取的特征,其中包含豐富的語義信息,同時采用相異性得分來指導和優化解碼器的學習過程。
通過采用等式7中定義的損失函數,解碼器被優化以預測與動態區域對應的D較高的區域中的較低值,從而最小化損失。然后,我們可以獲得二進制掩碼編碼運動信息(ε是固定閾值):
在訓練過程中,圖像渲染和mask預測的聯合優化是相輔相成的。通過在監控過程中排除動態區域,渲染圖像和GT圖像之間的差異變得更加明顯,從而有助于提取運動蒙版。
Static Dynamic Decomposition (stage II)
雖然第一階段提供了有效的動態mask,但這些mask僅限于圖像空間而不是3D高斯空間,并且依賴于GT圖像。這種依賴性限制了它們在新型視圖合成中的適用性,在這種情況下,監督圖像可能不可用。
為了將2D運動信息從第一階段橋接到3D高斯空間,我們采用了PVG,一種動態場景的統一表示(第3節)。然而,PVG對圖像和稀疏深度圖監督的依賴帶來了挑戰,因為很難從間接監督信號中學習到準確的運動模式。因此,如圖2(第2階段)所示,渲染的速度圖V通常包含噪聲異常值。例如,速度應為零的道路和建筑物等靜態區域沒有得到有效處理。這導致場景分解不令人滿意,PVG經常對預期速度為零的區域進行錯誤分類。
為了緩解這個問題并生成更精確的高斯表示,我們結合了從第一階段獲得的分割mask來正則化2D速度圖V,該速度圖V是從3D空間中的高斯圖渲染的。
最小化Lv會懲罰速度應為零的區域,有效地消除了原始PVG產生的噪聲異常值。該過程將運動信息從2D局部幀傳播到全局高斯空間。對于每個高斯分布,通過應用一個簡單的閾值,可以區分動態和靜態高斯分布。與PVG和S3Gaussian相比,這種方法實現了更優的自監督分解,而不需要額外的3D標注,如之前方法中使用的邊界框。
Surface Reconstruction
Geometric Regularization
Flattening 3D高斯:受2D高斯散斑(2DGS)的啟發,我們的目標是將3D橢球體壓平成2D圓盤,使優化的高斯更好地符合物體表面,并實現高質量的表面重建。3DGS的尺度s=(s1,s2,s3)定義了橢球體沿三個正交軸的大小。最小化沿最短軸的比例有效地將3D橢球體轉換為2D磁盤。縮放正則化損失為:
法線推導:曲面法線對于曲面重建至關重要。以前的方法通過向每個高斯函數附加一個法向量來合并法線,然后使用該法向量來渲染法線圖N。使用地面真值法線圖來監督高斯法線的優化。然而,這些方法往往無法實現精確的表面重建,因為它們忽略了尺度和法線之間的內在關系。我們不附加單獨的法向量,而是直接從尺度向量s中推導出法向量n。法向量方向自然與對應于最小尺度分量的軸對齊,因為高斯在展平正則化后形狀像圓盤。
通過這種法線公式,梯度可以反向傳播到尺度向量,而不是附加的法線向量,從而促進高斯參數的更好優化。正常損失是:
Giant高斯正則化:我們觀察到,3DGS和PVG都可以在不進行額外正則化的情況下產生超大高斯橢球,特別是在無界驅動場景中,如圖3(a)所示。
我們的主要目標是擬合適當縮放的高斯分布,以支持精確的圖像渲染和表面重建。雖然具有低不透明度的超大高斯橢球體對渲染圖像的影響可能很小,但它們會嚴重損害表面重建。這是一個在僅關注2D圖像渲染的現有方法中經常被忽視的局限性。為了解決這個問題,我們為每個高斯函數引入了一個懲罰項:
Temporal Spatial Consistency
在駕駛場景中,視圖的稀疏性通常會導致高斯優化過程中對訓練視圖的過擬合。單視圖圖像丟失特別容易受到遠距離無紋理區域的挑戰。因此,依賴圖像和稀疏深度圖的光度監督是不可靠的。為了解決這個問題,我們建議通過利用時間交叉視圖信息來增強幾何一致性。
在假設靜態區域的深度在不同視圖之間隨時間保持一致的情況下,我們引入了一個跨視圖時空一致性模塊。對于參考系中深度值為dr的靜態像素(ur,vr),我們將其投影到最近的相鄰視圖——重疊最大的視圖。使用相機內部函數K和外部函數Tr、Tn,相鄰視圖中的相應像素位置計算如下:
然后,我們查詢相鄰視圖中(un,vn)處的深度值dn。將其投影回3D空間,得到的位置應與通過將(ur,vr,dr)反向投影到參考系而獲得的位置對齊:
為了加強交叉視圖深度一致性,我們應用幾何損失來優化高斯分布,定義為:
這種損失促使高斯人隨著時間的推移在視圖中產生幾何一致的深度。
優化
第一階段:在第一階段,我們的目標是利用運動掩模和渲染圖像的聯合優化來有效地學習運動掩模。因此,我們只使用遮蔽圖像損失LI:
第二階段:我們使用阿爾法混合來渲染深度圖、法線圖和速度圖,如下所示:
實驗結果
結論
本文提出了一種用于駕駛場景中靜態動態分解和高質量表面重建的自監督方法DeSiRe GS。通過引入運動掩模模塊并利用時間幾何一致性,DeSiRe GS解決了動態對象建模和數據稀疏性等關鍵挑戰。