CVPR 2024 | 巨幅提升24%!LiDAR4D會(huì)是LiDAR重建的答案么?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
盡管神經(jīng)輻射場(chǎng)(NeRFs)在圖像新視角合成(NVS)方面取得了成功,但激光雷達(dá)NVS的發(fā)展卻相對(duì)緩慢。之前的方法follow圖像的pipeline,但忽略了激光雷達(dá)點(diǎn)云的動(dòng)態(tài)特性和大規(guī)模重建問題。有鑒于此,我們提出了LiDAR4D,這是一種用于新的時(shí)空LiDAR視圖合成的LiDAR-only的可微分框架??紤]到稀疏性和大規(guī)模特征,進(jìn)一步設(shè)計(jì)了一種結(jié)合多平面和網(wǎng)格特征的4D混合表示,以實(shí)現(xiàn)從粗到細(xì)的有效重建。此外引入了從點(diǎn)云導(dǎo)出的幾何約束,以提高時(shí)序一致性。對(duì)于激光雷達(dá)點(diǎn)云的真實(shí)重建,我們結(jié)合了ray-drop概率的全局優(yōu)化,以保持cross-region模式。在KITTI-360和NuScenes數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明了我們的方法在實(shí)現(xiàn)幾何感知和時(shí)間一致的動(dòng)態(tài)重建方面的優(yōu)越性。
開源地址:https://github.com/ispc-lab/LiDAR4D
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 提出了LiDAR4D,這是一種用于新的時(shí)空LiDAR視圖合成的LiDAR-only的可微分框架,它重建動(dòng)態(tài)駕駛場(chǎng)景并端到端生成逼真的LiDAR點(diǎn)云。
- 介紹了4D混合神經(jīng)表示和從點(diǎn)云導(dǎo)出的運(yùn)動(dòng)先驗(yàn),用于幾何感知和時(shí)間一致的大規(guī)模場(chǎng)景重建。
- 綜合實(shí)驗(yàn)證明了LiDAR4D在具有挑戰(zhàn)性的動(dòng)態(tài)場(chǎng)景重建和新穎視圖合成方面的SOTA性能。
相關(guān)工作回顧
激光雷達(dá)仿真。CARLA等傳統(tǒng)仿真器基于物理引擎,可以在手工制作的虛擬環(huán)境中通過光線投射生成激光雷達(dá)點(diǎn)云。然而,它有多樣性限制,并且嚴(yán)重依賴昂貴的3D資產(chǎn)。與真實(shí)世界的數(shù)據(jù)相比,domain gap仍然很大。因此,最近的幾項(xiàng)工作通過在仿真之前從真實(shí)數(shù)據(jù)重建場(chǎng)景,進(jìn)一步縮小了這一差距。LiDARsim重建網(wǎng)格表面表示,并使用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)光線下降特性。此外,值得注意的是,還有其他表面重建工作,如NKSR,可以將激光雷達(dá)點(diǎn)云轉(zhuǎn)換為網(wǎng)格表示。盡管如此,這些顯式重建工作對(duì)于在大規(guī)模復(fù)雜場(chǎng)景中恢復(fù)精確的曲面來說是麻煩的,這進(jìn)一步導(dǎo)致點(diǎn)云合成的精度下降。相反,PCGen直接從點(diǎn)云進(jìn)行重建,然后以類似光柵化的方式進(jìn)行渲染并進(jìn)行第一次峰值平均。盡管它更好地保留了原始信息,但渲染點(diǎn)云仍然相對(duì)嘈雜。此外,上述所有這些顯式方法僅適用于靜態(tài)場(chǎng)景。相反,我們的方法通過時(shí)空神經(jīng)輻射場(chǎng)隱式重建連續(xù)表示,實(shí)現(xiàn)了更高質(zhì)量的真實(shí)點(diǎn)云合成,擺脫了靜態(tài)重建的局限。
神經(jīng)輻射場(chǎng)。最近基于神經(jīng)輻射場(chǎng)的大量研究在新視圖合成(NVS)任務(wù)中取得了突破和顯著成就?;贛LP、體素網(wǎng)格、三平面、向量分解和多級(jí)哈希網(wǎng)格的各種神經(jīng)表示已被充分用于重建和合成。然而,大多數(shù)工作都集中在以目標(biāo)為中心的室內(nèi)小場(chǎng)景重建上。隨后,幾部作品逐漸將其擴(kuò)展到大型戶外場(chǎng)景。盡管如此,神經(jīng)輻射場(chǎng)通常在RGB圖像輸入的情況下存在幾何模糊性。因此,DS-NeRF和DDP-NeRF在提高效率之前引入了深度,URF還利用激光雷達(dá)點(diǎn)云來促進(jìn)重建。在本文中,我們使用新的混合表示和神經(jīng)激光雷達(dá)場(chǎng)來重建激光雷達(dá)NVS的大規(guī)模場(chǎng)景。
用于激光雷達(dá)NVS的NeRF。最近,一些研究開創(chuàng)了基于神經(jīng)輻射場(chǎng)的激光雷達(dá)點(diǎn)云新視圖合成的先河,大大超過了傳統(tǒng)的仿真方法。其中,NeRF-LiDAR和UniSim需要RGB圖像和LiDAR點(diǎn)云作為輸入,并在具有光度損失和深度監(jiān)督的情況下重建駕駛場(chǎng)景。隨后,可以通過神經(jīng)深度渲染生成新的視圖LiDAR點(diǎn)云。在僅使用LiDAR的方法中,LiDAR-NeRF和NFL首次提出了可微分LiDAR-NVS框架,該框架同時(shí)重建了深度、強(qiáng)度和raydrop概率。然而,這些方法僅限于靜態(tài)場(chǎng)景重建,并且不能處理諸如移動(dòng)車輛之類的動(dòng)態(tài)目標(biāo)。盡管UniSim確實(shí)支持動(dòng)態(tài)場(chǎng)景,但它在很大程度上受到3D目標(biāo)檢測(cè)的地面實(shí)況標(biāo)記以及重建前背景和動(dòng)態(tài)目標(biāo)解耦需求的限制。相反,我們的研究專注于僅用于動(dòng)態(tài)場(chǎng)景重建和新穎時(shí)空視圖合成的激光雷達(dá)輸入,而無需RGB圖像或地面實(shí)況標(biāo)簽的幫助。值得注意的是,NFL對(duì)激光雷達(dá)的詳細(xì)物理建模做出了重大貢獻(xiàn),如光束發(fā)散和二次返回,這與我們的正交,可能有利于所有激光雷達(dá)NVS工作。
動(dòng)態(tài)場(chǎng)景重建。大量的研究致力于擴(kuò)展神經(jīng)輻射場(chǎng),以涵蓋動(dòng)態(tài)場(chǎng)景重建。一般來說,動(dòng)態(tài)NeRF可以大致分為兩組。一種是通過連續(xù)變形場(chǎng)將坐標(biāo)映射到規(guī)范空間的可變形神經(jīng)輻射場(chǎng)。雖然變形場(chǎng)和輻射場(chǎng)的解耦簡(jiǎn)化了優(yōu)化,但建立準(zhǔn)確的遠(yuǎn)距離對(duì)應(yīng)仍然具有挑戰(zhàn)性。另一個(gè)是時(shí)空神經(jīng)場(chǎng),它將時(shí)間視為構(gòu)建4D時(shí)空表示的額外維度輸入。因此,可以靈活地將外觀、幾何結(jié)構(gòu)和運(yùn)動(dòng)同時(shí)建模為連續(xù)的時(shí)變函數(shù)。之前的大多數(shù)工作都集中在室內(nèi)相對(duì)較小的位移上,而自動(dòng)駕駛場(chǎng)景中的大規(guī)模車輛移動(dòng)則更具挑戰(zhàn)性。此外,我們的工作也是首次將動(dòng)態(tài)神經(jīng)輻射場(chǎng)引入激光雷達(dá)NVS任務(wù)。
詳解LiDAR4D
本節(jié)從新型激光雷達(dá)視圖合成的問題公式和NeRF的初步問題開始。在此之后,提供了我們提出的LiDAR4D框架的詳細(xì)描述。
問題公式。在動(dòng)態(tài)駕駛場(chǎng)景中,給定收集的激光雷達(dá)點(diǎn)云序列,以及相應(yīng)的傳感器姿態(tài)和時(shí)間戳作為輸入。每個(gè)單個(gè)激光雷達(dá)幀Si包含3D坐標(biāo)x和1D反射強(qiáng)度ρ的K個(gè)點(diǎn)。
LiDAR4D的目標(biāo)是將這種動(dòng)態(tài)場(chǎng)景重建為基于神經(jīng)場(chǎng)的連續(xù)隱式表示。此外,給定新的傳感器姿態(tài)和任意時(shí)刻,LiDAR4D執(zhí)行神經(jīng)渲染,以在新的時(shí)空視圖下合成具有強(qiáng)度的LiDAR點(diǎn)云。
NeRF的準(zhǔn)備工作。神經(jīng)輻射場(chǎng),簡(jiǎn)稱NeRFs,以位置x∈R3和觀看方向(θ,ξ)的5D輸入為輸入,建立到體積密度σ和顏色c的映射。然后,進(jìn)行體積渲染,估計(jì)像素值,合成未知新視圖中的圖像。詳細(xì)地說,它從傳感器中心o發(fā)射方向?yàn)閐的光線r,即r(t)=o+td,然后沿該光線對(duì)N個(gè)樣本的神經(jīng)場(chǎng)輸出進(jìn)行積分,以近似像素顏色C。體積渲染函數(shù)可以形成如下:
LiDAR4D概述
根據(jù)神經(jīng)輻射場(chǎng),我們提出的LiDAR4D將點(diǎn)云場(chǎng)景重建為隱式連續(xù)表示。與RGB圖像具有光度損失的原始NeRF不同,我們重新定義了基于激光雷達(dá)的神經(jīng)場(chǎng),稱為神經(jīng)激光雷達(dá)場(chǎng)。如圖2所示,它專注于對(duì)激光雷達(dá)點(diǎn)云的幾何深度、反射強(qiáng)度和光線下降概率進(jìn)行建模。對(duì)于大規(guī)模動(dòng)態(tài)駕駛場(chǎng)景,LiDAR4D將粗分辨率多平面特征與高分辨率哈希網(wǎng)格表示相結(jié)合,實(shí)現(xiàn)高效有效的重建。然后,我們將其提升到4D,并將時(shí)間信息編碼引入到新的時(shí)空視圖合成中。為了確保幾何感知和時(shí)間一致的結(jié)果,我們還引入了從點(diǎn)云導(dǎo)出的顯式幾何約束。最終,我們預(yù)測(cè)每條光線的raydrop概率,并使用運(yùn)行時(shí)優(yōu)化的U-Net執(zhí)行全局細(xì)化,以提高生成真實(shí)性。
4D Hybrid Planar-Grid Representation
圖3說明了我們提出的新的混合表示如何將4D空間分解為平面和哈希網(wǎng)格特征,這些特征進(jìn)一步細(xì)分為靜態(tài)和動(dòng)態(tài)特征。與室內(nèi)小物體的重建不同,大規(guī)模自動(dòng)駕駛場(chǎng)景對(duì)特征的表示能力和分辨率提出了更高的要求。然而,TiNeuVox等密集網(wǎng)格表示由于其立方體增長(zhǎng)的復(fù)雜性,對(duì)于大規(guī)模場(chǎng)景是不可縮放的。因此,我們遵循K平面,將場(chǎng)景空間分解為多個(gè)正交平面中的特征組合,以大幅減少參數(shù)量。平面特征可以如下獲得:
盡管如此,對(duì)于跨越數(shù)百米的場(chǎng)景,這種分辨率的提高仍然不夠,尤其是對(duì)于高頻強(qiáng)度重建。由于Instant NGP中提出的哈希網(wǎng)格,具有超高分辨率的顯式網(wǎng)格結(jié)構(gòu)是可能的。此外,激光雷達(dá)點(diǎn)云場(chǎng)景的稀疏性基本上避免了散列碰撞的不利影響。
其中密集網(wǎng)格G將通過散列映射被進(jìn)一步壓縮到有限的存儲(chǔ)器中以用于參數(shù)縮減。類似地,在三線性插值和級(jí)聯(lián)之前,4D坐標(biāo)被投影到靜態(tài)(xyz)和動(dòng)態(tài)(xyt,xzt,yzt)多級(jí)哈希網(wǎng)格中,其中使用Hadamard乘積來乘以動(dòng)態(tài)特征。
然而,值得注意的是,純哈希網(wǎng)格表示仍然存在視覺偽影和噪聲重建結(jié)果(如圖4所示),這阻礙了精確對(duì)象幾何結(jié)構(gòu)的構(gòu)建。有鑒于此,我們采用低分辨率的多平面特征進(jìn)行整體平滑表示,并采用高分辨率的哈希網(wǎng)格來處理更精細(xì)的細(xì)節(jié),最終在大規(guī)模場(chǎng)景重建中實(shí)現(xiàn)高精度和高效率。
Scene Flow Prior
為了增強(qiáng)當(dāng)前4D時(shí)空表示的時(shí)間一致性,我們進(jìn)一步引入了用于運(yùn)動(dòng)估計(jì)的流MLP。它將編碼的時(shí)空坐標(biāo)作為輸入,并構(gòu)建從坐標(biāo)場(chǎng)R4到運(yùn)動(dòng)場(chǎng)R3的映射。
由于在自動(dòng)駕駛場(chǎng)景中,車輛運(yùn)動(dòng)范圍可能跨越很長(zhǎng)的距離,因此在可變形神經(jīng)輻射場(chǎng)中很難建立與規(guī)范空間的長(zhǎng)期對(duì)應(yīng)關(guān)系。因此,我們利用流MLP僅預(yù)測(cè)相鄰幀之間的運(yùn)動(dòng),并聚合多幀動(dòng)態(tài)特征以實(shí)現(xiàn)時(shí)間一致的重建。
此外,可以從輸入的激光雷達(dá)點(diǎn)云進(jìn)一步導(dǎo)出顯式幾何約束。通過將點(diǎn)云饋送到流MLP中以產(chǎn)生場(chǎng)景流預(yù)測(cè),我們可以將倒角距離調(diào)節(jié)為幾何損失。它對(duì)激光雷達(dá)4D施加了運(yùn)動(dòng)先驗(yàn)和額外的監(jiān)督,從而實(shí)現(xiàn)了幾何感知重建。點(diǎn)云S和的兩個(gè)幀之間的倒角距離定義如下:
Neural LiDAR Fields
激光雷達(dá)發(fā)射激光脈沖并測(cè)量飛行時(shí)間(ToF),以確定物體距離以及反射光的強(qiáng)度。旋轉(zhuǎn)式激光雷達(dá)具有360度水平視場(chǎng)(FOV)和有限的垂直視場(chǎng)范圍,可以通過特定的角分辨率激光感知環(huán)境。以與神經(jīng)激光雷達(dá)場(chǎng)相同的方式,我們?cè)谝晥?chǎng)內(nèi)以特定的角度間隔發(fā)射激光,使用激光雷達(dá)傳感器的中心作為原點(diǎn)o。激光的方向d由極坐標(biāo)系下的方位角θ和仰角決定,如下所示。
然后,我們查詢沿激光器采樣的三維點(diǎn)坐標(biāo),并將其輸入神經(jīng)場(chǎng),以預(yù)測(cè)相應(yīng)位置的密度。接下來,對(duì)沿著射線的密度進(jìn)行積分,以獲得深度值D的期望值,該深度值D用作激光束的返回距離。
此外,我們分別預(yù)測(cè)了每個(gè)點(diǎn)的強(qiáng)度I和ray-drop概率P,并類似地沿著射線進(jìn)行α組成。
我們使用單獨(dú)的MLP來獲取時(shí)間聚合的平面和哈希特征,以及位置編碼的視點(diǎn)作為預(yù)測(cè)的輸入。
Ray-drop Refinement
在激光測(cè)距過程中,一部分發(fā)射的光線不會(huì)反射回傳感器,這被稱為光線下降特性。事實(shí)上,激光雷達(dá)的射線降受到各個(gè)方面的顯著影響,包括距離、表面特性和傳感器噪聲。與LiDAR-NeRF中一樣,ray-drop預(yù)測(cè)是直接用逐點(diǎn)MLP頭來完成的,這本質(zhì)上是有噪聲和不可靠的。為了解決這個(gè)問題,我們使用具有殘差的U-Net來全局細(xì)化ray-drop掩模,并更好地保持跨區(qū)域的一致圖案。它以LiDAR4D的全射線下降概率、深度和強(qiáng)度預(yù)測(cè)為輸入(與之前的工作不同),并通過二進(jìn)制交叉熵?fù)p失細(xì)化最終掩模,如下所示:
我們強(qiáng)調(diào),輕量級(jí)網(wǎng)絡(luò)是在運(yùn)行時(shí)隨機(jī)初始化和優(yōu)化的,可以有效地進(jìn)行重建。如圖5所示,全局優(yōu)化大大提高了預(yù)測(cè)結(jié)果,并進(jìn)一步增強(qiáng)了生成的激光雷達(dá)點(diǎn)云的保真度。
Optimization
對(duì)于LiDAR4D的優(yōu)化,總重建損失是深度損失、強(qiáng)度損失、ray-drop損失、流量損失和精細(xì)化損失的加權(quán)組合,可以形式化為:
實(shí)驗(yàn)
LiDAR4D在KITTI-360和NuScenes上展開實(shí)驗(yàn)。
限制
盡管LiDAR4D在大量實(shí)驗(yàn)中表現(xiàn)出了非凡的性能,但點(diǎn)云的遠(yuǎn)距離車輛運(yùn)動(dòng)和遮擋問題仍然是懸而未決的問題。與靜態(tài)對(duì)象相比,動(dòng)態(tài)對(duì)象的重建仍然存在顯著差距。此外,前景和背景可能難以很好地分離。此外,基于真實(shí)世界的數(shù)據(jù)集,NVS的定量評(píng)估僅限于自車軌跡,不允許新的空間和時(shí)間視圖合成的解耦。
結(jié)論
本文重新審視了現(xiàn)有激光雷達(dá)NVS方法的局限性,并提出了一個(gè)新的框架來應(yīng)對(duì)三大挑戰(zhàn),即動(dòng)態(tài)重建、大規(guī)模場(chǎng)景表征和逼真合成。我們提出的方法LiDAR4D在大量實(shí)驗(yàn)中證明了其優(yōu)越性,實(shí)現(xiàn)了大規(guī)模動(dòng)態(tài)點(diǎn)云場(chǎng)景的幾何感知和時(shí)間一致性重建,并生成了更接近真實(shí)分布的新時(shí)空視圖LiDAR點(diǎn)云。我們相信,未來更多的工作將集中在將激光雷達(dá)點(diǎn)云與神經(jīng)輻射場(chǎng)相結(jié)合,探索動(dòng)態(tài)場(chǎng)景重建和合成的更多可能性。