為自動駕駛而生,Lightning NeRF:速度提升10倍
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面&筆者的個人理解
最近的研究強調了NeRF在自動駕駛環境中的應用前景。然而室外環境的復雜性,加上駕駛場景中的視點受限,使精確重建場景幾何體的任務變得復雜。這些挑戰往往會導致重建質量下降,訓練和渲染的持續時間延長。為了應對這些挑戰,我們推出了Lightning NeRF。它使用了一種高效的混合場景表示,在自動駕駛場景中有效地利用了激光雷達的幾何先驗。Lightning NeRF顯著提高了NeRF的新穎視圖合成性能,并減少了計算開銷。通過對真實世界數據集(如KITTI-360、Argoverse2和我們的私人數據集)的評估,我們證明了我們的方法不僅在新視圖合成質量方面超過了當前最先進的技術,而且在訓練速度上提高了五倍,在渲染速度上也提高了十倍。
- 代碼鏈接:https://github.com/VISION-SJTU/Lightning-NeRF
詳解Lightning NeRF
Preliminaries
NeRF表示具有隱式函數的場景,該隱式函數通常由MLP參數化,其返回從觀看方向d觀察到的場景中的隨機3D點x的顏色值c和體積密度預測σ:
具體地說,為了渲染像素,NeRF利用分層體積采樣沿射線r生成N個點。這些位置的預測密度和顏色特征通過累積進行組合:
雖然NeRF在新的視圖合成中表現出優異的性能,但它的訓練時間長,渲染速度慢,部分原因是其采樣策略效率低。為此在訓練期間保持粗略的占用網格,并且僅對占用體積內的位置進行采樣。我們使用與這些工作類似的采樣策略來提高模型的效率。
Hybrid Scene Representation
混合體積表示已經使用緊湊的模型實現了快速優化和渲染。鑒于此,我們采用混合體素網格表示來對輻射場進行建模以提高效率。簡言之,我們通過在網格頂點存儲σ來顯式地對體積密度進行建模,同時使用淺MLP以隱式方式將顏色嵌入f解碼為最終顏色c。為了處理戶外環境的無邊界性質,我們將場景表示分為前景和背景兩部分,如圖2所示。具體來說,我們從軌跡序列中檢查每一幀中的相機截頭體,并定義前景邊界框,使其緊密包裹對齊坐標系中的所有截頭體。背景框是通過沿每個維度按比例放大前景框而獲得的。
體素網格表示。體素網格表示在其網格頂點中顯式存儲場景屬性(例如,密度、RGB顏色或特征),以支持高效的特征查詢。這樣,對于給定的3D位置,我們可以通過三線性插值來解碼相應的屬性:
前景。我們建立了兩個獨立的特征網格,用于對前景區域的密度和顏色嵌入進行建模。具體來說,密度網格映射將位置映射到密度標量σ中,用于體積渲染。對于顏色嵌入網格映射,我們通過哈希表以不同分辨率備份實例化多個體素網格,以獲得更精細的細節,并具有可承受的內存開銷。最終的顏色嵌入f是通過在L個分辨率級別上串聯輸出而獲得的。
背景盡管前面提到的前景建模適用于對象級別的輻射場,但將其擴展到無界的室外場景并非易事。一些相關技術,如NGP,直接擴展其場景邊界框,以便可以包括背景區域,而GANcraft和URF引入了球形背景輻射來處理這個問題。然而,前一種嘗試導致其功能的浪費,因為其場景框內的大多數區域都用于背景場景。對于后一種方案,它可能無法處理城市場景中復雜的全景(例如,起伏的建筑或復雜的景觀),因為它只是假設背景輻射僅取決于視線方向。
為此,我們設置了一個額外的背景網格模型,以保持前景部分的分辨率不變。我們采用[9]中的場景參數化作為背景,經過精心設計。首先與反球面建模不同,我們使用反三次建模,用?∞ 范數,因為我們使用體素網格表示。其次我們不實例化額外的MLP來查詢背景顏色以節省內存。具體來說,我們通過以下方式將3D背景點扭曲為4D:
LiDAR Initialization
使用我們的混合場景表示,當我們直接從有效的體素網格表示而不是計算密集型MLP查詢密度值時,該模型可以節省計算和內存。然而,考慮到城市場景的大規模性質和復雜性,由于密度網格的分辨率有限,這種輕量級表示很容易在優化中陷入局部極小值。幸運的是,在自動駕駛中,大多數自動駕駛汽車(SDV)都配備了LiDAR傳感器,為場景重建提供了粗略的幾何先驗。為此,我們建議使用激光雷達點云來初始化我們的密度網格,以減輕場景幾何和輻射聯合優化的障礙。
Color Decomposition
最初的NeRF使用與視圖相關的MLP來對輻射場中的顏色進行建模,這是對物理世界的簡化,其中輻射由漫射(與視圖無關)顏色和鏡面(與視圖相關)顏色組成。此外,由于最終輸出顏色c與觀看方向d完全糾纏,因此難以在看不見的視圖中渲染高保真圖像。如圖3所示,我們在沒有顏色分解(CD)的情況下訓練的方法在外推設置中的新視圖合成中失?。?,基于訓練視圖將觀看方向向左移動2米),而我們在顏色分解的情況下給出了合理的渲染結果。
采樣位置的最終顏色是這兩個因素的總和:
訓練損失
我們使用重新縮放的權重wi來修改光度損失,以優化我們的模型,使其專注于硬樣本以實現快速收斂。權重系數定義為:
圖片
實驗
結論
本文介紹了Lightning NeRF,這是一種高效的戶外場景視圖合成框架,它集成了點云和圖像。所提出的方法利用點云快速初始化場景的稀疏表示,實現了顯著的性能和速度增強。通過更有效地對背景進行建模,我們減少了前景上的代表性應變。最后,通過顏色分解,分別對視圖相關和視圖無關的顏色進行建模,增強了模型的外推能力。在各種自動駕駛數據集上進行的大量實驗表明,我們的方法在性能和效率方面都優于以前的先進技術。