LiDAR仿真新思路 | LidarDM:助力4D世界生成,仿真殺器~ 精華
原標題:LidarDM: Generative LiDAR Simulation in a Generated World
論文鏈接:https://arxiv.org/pdf/2404.02903.pdf
代碼鏈接:https://github.com/vzyrianov/lidardm
作者單位:伊利諾伊大學 麻省理工學院
論文思路:
本文提出了LidarDM,這是一種新穎的激光雷達生成模型,能夠產生逼真、布局感知(layout-aware)、物理上可信以及時間上連貫的激光雷達視頻。LidarDM在激光雷達生成建模方面具有兩個前所未有的能力:
(一)由駕駛場景引導的激光雷達生成,為自動駕駛模擬提供了重大潛力;
(二)4D激光雷達點云生成,使得創建逼真且時間上連貫的序列成為可能。
本文模型的核心是一個新穎的綜合4D世界生成框架。具體來說,本文采用隱擴散模型(latent diffusion models) 來生成3D場景,將其與動態交通參與者(dynamic actors)結合,形成底層的4D世界,然后在這個虛擬環境中產生逼真的感知觀測數據。
本文的實驗表明,本文的方法在逼真度、時間連貫性和布局一致性方面優于競爭算法。本文還展示了LidarDM可以作為生成世界模型仿真器,用于訓練和測試感知模型。
網絡設計:
生成模型在理解數據分布和內容創作方面已經變得引人注目,例如在圖像和視頻生成[10, 33, 52–55]、3D物體生成[10,19,38,52]、壓縮[5,29, 68]以及編輯[37,47]等領域。生成模型對于模擬[6, 11, 18, 34, 46, 60, 64, 66, 76, 82]也顯示出顯著的潛力,能夠創建逼真的場景及其相關的感知數據,用于訓練和評估安全關鍵的具身智能,如機器人和自動駕駛車輛,無需昂貴的手工建?,F實世界。這些能力對于依賴廣泛閉環訓練或場景測試的應用至關重要。
盡管在條件圖像和視頻生成[15,27,35,44]方面的進步非常顯著,但為自動駕駛應用生成特定場景下逼真的激光雷達點云序列的具體任務還未得到充分探索。目前的激光雷達生成方法主要分為兩大類,每一類都面臨著特定的挑戰:
- 當前的激光雷達生成建模方法[8, 72, 79, 83]僅限于單幀生成,并且沒有提供語義可控性和時間一致性的手段。
- 激光雷達重模擬(resimulation)[14, 17, 46, 65, 67, 74]嚴重依賴用戶創建或現實世界收集的資產。這增加了高昂的操作成本,限制了多樣性,并限制了更廣泛的應用性。
為了應對這些挑戰,本文提出了 LidarDM(激光雷達擴散模型),它能夠創造出逼真的、布局感知的、物理上可信的、以及時間上連貫的激光雷達視頻。本文探索了兩種以前未曾涉及的新穎能力:(i) 由駕駛場景引導的激光雷達合成,這對自動駕駛仿真具有巨大潛力,以及 (ii) 旨在產生逼真且時間上連貫的有標注的激光雷達點云序列的 4D 激光雷達點云合成。本文實現這些目標的關鍵洞察在于首先生成和組合底層的 4D 世界,然后在這個虛擬環境中創造逼真的感知觀察。為了實現這一點,本文整合了現有的 3D 物體生成方法來創建動態交通參與者(dynamic actors),并開發了一種基于隱擴散模型(latent diffusion models) 的大規模 3D 場景生成的新方法。這種方法能夠從粗糙的語義布局產生逼真且多樣化的 3D 駕駛場景,據本文所知,這是首次嘗試。本文應用軌跡生成來創造動態效果,同時確保交通參與者(actors)之間以及交通參與者(actors)與場景之間的真實互動。最后,本文在每個時間步驟組合 3D 世界,并執行隨機光線投射模擬(stochastic raycasting simulation)以產生最終的 4D 激光雷達序列。如圖 1 所示,本文生成的結果多樣化,與布局條件對齊,既逼真又時間上連貫。
本文的實驗結果表明,由 LidarDM 生成的單幀圖像展現出逼真性和多樣性,其性能與最先進的無條件單幀激光雷達點云生成技術相當。此外,本文展示了 LidarDM 能夠產生保持時間連貫性的激光雷達視頻,超越了穩健的 stable diffusion 傳感器生成基線。據本文所知,這是第一個具備此能力的激光雷達生成方法。本文進一步通過展示生成的激光雷達與真實激光雷達在匹配地圖條件下的良好吻合,來證明 LidarDM 的條件生成能力。最后,本文說明了使用 LidarDM 生成的數據在用真實數據訓練的感知模塊測試時展現出最小的域差距,并且還可以用來擴展訓練數據,顯著提升 3D 檢測器的性能。這為使用生成的激光雷達模型創造逼真且可控的仿真環境以訓練和測試駕駛模型提供了前提。
圖 1:本文展示了 LidarDM,這是一個新穎的 4D 激光雷達生成模型。本文生成的激光雷達視頻同時具有逼真性、布局條件性、物理可信性、多樣性和時間連貫性的優勢。
圖 2:LidarDM 的應用:(a) 在沒有 3D 捕捉或建模的情況下生成與地圖緊密對齊的激光雷達(彩色框突出顯示激光雷達與地圖之間的一致性);(b) 為現有的交通模擬器(Waymax [20])提供傳感器數據,使其能夠僅從純傳感器數據評估安全關鍵場景;(c) 生成具有可控障礙物位置的大量激光雷達數據(被視為免費獲得的真實標簽),以通過無需昂貴數據捕捉和標注的預訓練改進感知模型。
圖 3:LidarDM 概覽:給定時間 t = 0 時的交通布局輸入,LidarDM 首先生成交通參與者(actors)和靜態場景。然后,本文生成交通參與者(actors)和自車的運動,并構建底層的 4D 世界。最后,使用基于生成和物理的仿真來創建逼真的 4D 傳感器數據。
圖 4:本文的 3D 場景生成流程。首先,累積的點云被用于重建每個真實網格樣本。接下來,訓練一個變分自編碼器(VAE)將網格壓縮成隱式編碼。最后,訓練一個以地圖為條件的擴散模型,在 VAE 的隱空間內進行采樣,產生新的樣本。
圖 5:用于感知噪聲模擬的隨機光線丟棄(raydrop)網絡,進一步增強了真實感。本文在上方的掩碼距離圖和掩碼激光雷達圖像中用紅色突出顯示了光線丟棄的(raydropped)點。
實驗結果:
圖 6:真實的 KITTI-360 樣本與來自競爭方法的無條件樣本對比。UltraLiDAR 樣本可視化直接從它們的論文中獲取。與之前的方法相比,LidarDM 生成的樣本具有更多數量、更詳細的顯著物體(例如,汽車、行人)、更清晰的 3D 結構(例如,直墻)以及更逼真的道路布局。
圖 7:在 2 Waymax [20] 地圖序列上進行的以地圖為條件的序列生成的定性結果。本文還展示了相應的累積點云,以突出 LidarDM 的時序一致性。
總結:
本文提出了 LidarDM,這是一個新穎的基于布局條件的隱擴散模型(latent diffusion models) ,用于生成逼真的激光雷達點云。本文的方法將問題框定為一個聯合的 4D 世界創建和感知數據生成任務,并開發了一個新穎的隱擴散模型(latent diffusion models) 來創建 3D 場景。由此產生的點云視頻是真實的、連貫的,并且具有布局感知(layout-aware)能力。
本文轉自自動駕駛之心,作者:自動駕駛之心
