DiffMap：首個利用LDM來增強高精地圖構(gòu)建的網(wǎng)絡(luò)

作者：自動駕駛之心 2024-05-27 09:38:54

首個利用潛在擴(kuò)散模塊（Latent Diffusion Model）對地圖分割掩碼的結(jié)構(gòu)化先驗進(jìn)行建模的新方法，基于該技術(shù)，現(xiàn)有語義分割方法的性能可以得到顯著提升，并同時提高生成地圖的質(zhì)量。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

論文標(biāo)題：

DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model

論文作者：

Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang

01 背景簡介

對自動駕駛車輛來說，高清（HD）地圖能夠幫助其提高對環(huán)境理解（感知）的準(zhǔn)確度和導(dǎo)航的精度。然而，人工建圖面臨繁雜和高成本的問題。為此，當(dāng)前研究將地圖構(gòu)建集成到BEV（鳥瞰視角）感知任務(wù)中，在BEV空間中構(gòu)建柵格化HD地圖視為一個分割任務(wù)，可以理解為獲得BEV特征后增加使用類似于FCN（全卷積網(wǎng)絡(luò)）的分割頭。例如，HDMapNet通過LSS（Lift，Splat，Shoot）編碼傳感器特征，然后采用多分支FCN進(jìn)行語義分割、實例檢測和方向預(yù)測來構(gòu)建地圖。

但目前此類方法（基于像素的分類方法）仍存在固有局限性，包括可能忽略特定類別屬性，這可能導(dǎo)致分隔帶扭曲和中斷、行人橫道模糊以及其他類型的偽影和噪聲，如圖1（a）所示。這些問題不僅影響地圖的結(jié)構(gòu)精度，還可能直接影響自動駕駛系統(tǒng)的下游路徑規(guī)劃模塊。

▲圖1｜HDMapNet，DiffMap和GroundTruth效果對比

因此，模型最好能考慮HD地圖的結(jié)構(gòu)先驗信息，如車道線的平行和筆直特性。一些生成模型在捕捉圖像真實性和固有特性具備這樣的能力。例如，LDM（潛在擴(kuò)散模型）在高保真圖像生成方面展現(xiàn)了巨大潛力，并在與分割增強相關(guān)的任務(wù)中證明了其有效性。另外，還可以通過引入控制變量，進(jìn)一步指導(dǎo)圖像的生成以滿足特定的控制要求。因此，將生成模型應(yīng)用于捕捉地圖結(jié)構(gòu)先驗，有望減少分割偽影并提高地圖構(gòu)建性能。

在本文中，作者提出DiffMap網(wǎng)絡(luò)。該網(wǎng)絡(luò)首次通過使用改進(jìn)的LDM作為增強模塊，對現(xiàn)有的分割模型進(jìn)行地圖結(jié)構(gòu)化先驗建模并支持即插即用。DiffMap不僅能通過添加和刪除噪聲的過程學(xué)習(xí)地圖先驗，還可以將BEV特征集成為控制信號，以確保輸出與當(dāng)前幀觀測相匹配。實驗結(jié)果表明，DiffMap能夠有效地生成更加平滑合理的地圖分割結(jié)果，同時極大地減少了偽影，提高了整體的地圖構(gòu)建性能。

02 相關(guān)工作

2.1 語義地圖構(gòu)建

在傳統(tǒng)的高清（HD）地圖構(gòu)建中，語義地圖通常是基于激光雷達(dá)點云手動或半自動標(biāo)注的。一般基于SLAM的算法來構(gòu)建全局一致的地圖，并手動為地圖添加語義標(biāo)注。然而，這種方法費時費力，同時在更新地圖方面也存在極大挑戰(zhàn)，從而限制了其可擴(kuò)展性和實時性能。

HDMapNet提出了一種使用車載傳感器動態(tài)構(gòu)建局部語義地圖的方法。它將激光雷達(dá)點云和全景圖像特征編碼到鳥瞰視圖（BEV）空間，并使用三個不同的頭部進(jìn)行解碼，最終產(chǎn)生一個矢量化的局部語義地圖。SuperFusion專注于構(gòu)建遠(yuǎn)程高精度語義地圖，利用激光雷達(dá)深度信息增強圖像深度估計，并使用圖像特征引導(dǎo)遠(yuǎn)程激光雷達(dá)特征預(yù)測。然后采用類似于HDMapNet的地圖檢測頭獲得語義地圖。MachMap將任務(wù)劃分為折線檢測和多邊形實例分割，并使用后處理來細(xì)化掩碼以獲得最終結(jié)果。后續(xù)的研究聚焦在端到端在線建圖，直接獲得矢量化的高清地圖。無需手動標(biāo)注的語義地圖動態(tài)構(gòu)建有效地降低了構(gòu)建成本。

2.2 擴(kuò)散模型應(yīng)用于分割和檢測

去噪擴(kuò)散概率模型（DDPMs）是基于馬爾可夫鏈的一類生成模型，在圖像生成等領(lǐng)域展現(xiàn)出優(yōu)秀的性能，并逐步擴(kuò)展到分割和檢測等各種任務(wù)。SegDiff將擴(kuò)散模型應(yīng)用于圖像分割任務(wù)，其中使用的UNet編碼器進(jìn)一步解耦為三個模塊：E、F和G。模塊G和F分別編碼輸入圖像I和分割圖，然后在E中通過加法合并，以迭代地細(xì)化分割圖。DDPMS使用基礎(chǔ)分割模型產(chǎn)生初始預(yù)測先驗，并利用擴(kuò)散模型對先驗進(jìn)行細(xì)化。DiffusionDet將擴(kuò)散模型擴(kuò)展到目標(biāo)檢測框架，將目標(biāo)檢測建模為從噪聲框到目標(biāo)框的去噪擴(kuò)散過程。

擴(kuò)散模型也應(yīng)用于自動駕駛領(lǐng)域，如MagicDrive利用幾何約束合成街景，以及Motiondiffuser將擴(kuò)散模型擴(kuò)展到多智能體運動預(yù)測問題。

2.3 地圖先驗

目前有幾種方法通過利用先驗信息（包括顯式的標(biāo)準(zhǔn)地圖信息和隱式的時間信息）來增強模型魯棒性，減少車載傳感器的不確定性。MapLite2.0以標(biāo)準(zhǔn)定義（SD）先驗地圖為起點，并結(jié)合車載傳感器實時推斷局部高清地圖。MapEx和SMERF利用標(biāo)準(zhǔn)地圖數(shù)據(jù)改善車道感知和拓?fù)淅斫狻MERF采用基于Transformer的標(biāo)準(zhǔn)地圖編碼器編碼車道線和車道類型，然后計算標(biāo)準(zhǔn)地圖信息與基于傳感器的鳥瞰視圖（BEV）特征之間的交叉注意力，以集成標(biāo)準(zhǔn)地圖信息。NMP通過將過去的地圖先驗數(shù)據(jù)與當(dāng)前感知數(shù)據(jù)相結(jié)合，為自動駕駛汽車提供長期記憶能力。MapPrior結(jié)合判別式和生成式模型，在預(yù)測階段將基于現(xiàn)有模型生成的初步預(yù)測編碼為先驗，注入生成模型的離散潛在空間，然后使用生成模型進(jìn)行細(xì)化預(yù)測。PreSight利用先前行程的數(shù)據(jù)優(yōu)化城市尺度的神經(jīng)輻射場，生成神經(jīng)先驗，增強后續(xù)導(dǎo)航中的在線感知。

03 方法精析

3.1 準(zhǔn)備工作

3.2 整體架構(gòu)

如圖2所示。DiffMap作為解碼器，將擴(kuò)散模型納入語義地圖分割模型，該模型以周圍多視角圖像和LiDAR點云作為輸入，將其編碼為BEV空間并獲得融合的BEV特征。然后采用DiffMap作為解碼器生成分割圖。在DiffMap模塊中，將BEV特征作為條件來引導(dǎo)去噪過程。

▲圖2｜DiffMap架構(gòu)??【深藍(lán)AI】編譯

◆語義地圖構(gòu)建的基線：基線主要遵循BEV編碼器-解碼器范式。編碼器部分負(fù)責(zé)從輸入數(shù)據(jù)（LiDAR和/或相機數(shù)據(jù)）中提取特征，將其轉(zhuǎn)換為高維表示。同時，解碼器通常作為分割頭，將高維特征表示映射到相應(yīng)的分割圖。基線在整個框架中起兩個主要作用：監(jiān)督者和控制器。作為監(jiān)督者，基線生成分割結(jié)果作為輔助監(jiān)督。同時，作為控制器，它提供中間BEV特征作為條件控制變量，以引導(dǎo)擴(kuò)散模型的生成過程。

◆DiffMap模塊：沿襲LDM，作者在基線框架中引入DiffMap模塊作為解碼器。LDM主要由兩部分組成：一個圖像感知壓縮模塊（如VQVAE）和一個使用UNet構(gòu)建的擴(kuò)散模型。首先，編碼器將地圖分割ground truth 編碼為潛在空間中的，其中表示潛在空間的低維度。隨后，在低維潛在變量空間中執(zhí)行擴(kuò)散和去噪，然后使用解碼器將潛在空間恢復(fù)到原始像素空間。

首先通過擴(kuò)散過程添加噪聲，在每個時間步獲得噪聲潛在圖，其中。然后在去噪過程中，UNet作為噪聲預(yù)測的主干網(wǎng)絡(luò)。為了增強分割結(jié)果的監(jiān)督部分，并希望DiffMap模型在訓(xùn)練期間直接為實例相關(guān)預(yù)測提供語義特征。因此，作者將UNet網(wǎng)絡(luò)結(jié)構(gòu)分為兩個分支，一個分支用于預(yù)測噪聲，如傳統(tǒng)擴(kuò)散模型，另一個分支用于預(yù)測潛在空間中的。

如圖3所示。獲得潛在圖預(yù)測后，將其解碼到原始像素空間，作為語義特征圖。然后就可以按照HDMapNet提出的方法從中獲得實例預(yù)測，輸出三種不同頭的預(yù)測：語義分割、實例嵌入和車道方向。這些預(yù)測隨后用于后處理步驟以矢量化地圖。

▲圖3｜去噪模塊

整個過程是一個有條件的生成過程，根據(jù)當(dāng)前傳感器輸入下獲得地圖分割結(jié)果。其結(jié)果的概率分布可以建模為，其中表示地圖分割結(jié)果，表示條件控制變量，即BEV特征。作者這里用了兩種方式融合控制變量。首先，由于和BEV特征在空間域上具有相同的類別和尺度，將調(diào)整為潛在空間大小，然后將它們串聯(lián)作為去噪過程的輸入，如公式5所示。

其次，將交叉注意力機制融入到UNet網(wǎng)絡(luò)的每一層，其中作為key/value，作為query。交叉注意力模塊的公式如下：

3.3 具體實現(xiàn)

◆訓(xùn)練：

◆推理：

04 實驗

4.1 實驗細(xì)節(jié)

◆數(shù)據(jù)集：在nuScenes數(shù)據(jù)集上驗證DiffMap。nuScenes數(shù)據(jù)集包含1000個場景的多視角圖像和點云，其中700個場景用于訓(xùn)練，150個用于驗證，150個用于測試。nuScenes數(shù)據(jù)集還包含注釋的高清地圖語義標(biāo)簽。

◆架構(gòu)：使用ResNet-101作為相機分支的主干網(wǎng)絡(luò)，使用PointPillars作為模型的LiDAR分支主干網(wǎng)絡(luò)。基線模型中的分割頭是基于ResNet-18的FCN網(wǎng)絡(luò)。對于自編碼器，采用VQVAE，該模型在nuScenes分割地圖數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，以提取地圖特征并將地圖壓縮為基本潛在空間。最后使用UNet來構(gòu)建擴(kuò)散網(wǎng)絡(luò)。

◆訓(xùn)練細(xì)節(jié)：使用AdamW優(yōu)化器訓(xùn)練VQVAE模型30個epoch。使用的學(xué)習(xí)率調(diào)度器是LambdaLR，它以指數(shù)衰減模式逐漸降低學(xué)習(xí)率，衰減因子為0.95。初始學(xué)習(xí)率設(shè)置為，批量大小為8。然后，使用AdamW優(yōu)化器從頭開始訓(xùn)練擴(kuò)散模型30個epoch，初始學(xué)習(xí)率為2e-4。采用MultiStepLR調(diào)度器，該調(diào)度器根據(jù)指定的里程碑時間點（0.7、0.9、1.0）和在不同訓(xùn)練階段的縮放因子1/3來調(diào)整學(xué)習(xí)率。最后將BEV分割結(jié)果設(shè)置為0.15m的分辨率，并將LiDAR點云體素化。HDMapNet的檢測范圍為[-30m，30m]×[-15m，15m]m，因此相應(yīng)的BEV地圖大小為400×200，而Superfusion使用[0m，90m]×[-15m，15m]并得到600×200的結(jié)果。由于LDM的維度約束（在VAE和UNet中下采樣8倍），需要將語義地面實況地圖的大小填充到64的倍數(shù)。

◆推理細(xì)節(jié)：通過在當(dāng)前BEV特征條件下對噪聲地圖執(zhí)行去噪過程20次來獲得預(yù)測結(jié)果。使用3次采樣的平均值作為最終的預(yù)測結(jié)果。

4.2 評估指標(biāo)

主要針對地圖語義分割和實例檢測任務(wù)進(jìn)行平評估。且主要集中在三個靜態(tài)地圖元素上：車道邊界、車道分隔線和行人橫道。

4.3 評估結(jié)果

表1顯示了語義地圖分割的 IoU 得分比較。DiffMap 在所有區(qū)間都顯示出顯著的改善，尤其在車道分隔線和行人橫道上取得了最佳結(jié)果。

▲表1｜IoU得分比較

如表2所示，DiffMap方法在平均精度（AP）方面也有顯著提升，驗證了 DiffMap 的有效性。

▲表2｜MAP得分比較

如表3所示，將DiffMap范式集成到HDMapNet中時，可以觀察到，無論是僅使用攝像頭還是攝像頭-激光雷達(dá)融合方法，DiffMap都能提高HDMapNet的性能。這說明DiffMap方法在各類分割任務(wù)上都很有效，包括遠(yuǎn)距離和近距離檢測。然而對于邊界，DiffMap的表現(xiàn)并不出色，這是因為邊界的形狀結(jié)構(gòu)不固定，存在許多難以預(yù)測的扭曲，從而使捕捉先驗結(jié)構(gòu)特征變得困難。

▲表3｜定量分析結(jié)果

4.4 消融實驗

表4顯示了VQVAE中不同下采樣因子對檢測結(jié)果的影響。通過分析DiffMap在下采樣因子為4、8、16時的行為可以看到，當(dāng)下采樣因子設(shè)置為8x時，結(jié)果最佳。

▲表4｜消融實驗結(jié)果

此外，作者還測量了刪除與實例相關(guān)的預(yù)測模塊對模型的影響，如表5所示。實驗表明，添加此預(yù)測進(jìn)一步提高了IOU。

▲表5｜消融實驗結(jié)果（是否包含預(yù)測模塊）

4.5 可視化

圖4展示了DiffMap和基線（HDMapNet-fusion）在復(fù)雜場景中的比較。很明顯，基線的分割結(jié)果忽略了元素內(nèi)部的形狀屬性和一致性。相比之下，DiffMap展示了能夠糾正這些問題的能力，產(chǎn)生與地圖規(guī)范很好對齊的分割輸出。具體而言，在案例（a）、（b）、（d）、（e）、（h）和（l）中，DiffMap有效地糾正了不準(zhǔn)確預(yù)測的人行橫道。在案例（c）、（d）、（h）、（i）、（j）和（l）中，DiffMap完成或刪除了不準(zhǔn)確的邊界，使結(jié)果更接近于現(xiàn)實的邊界幾何。此外，在案例（b）、（f）、（g）、（h）、（k）和（l）中，DiffMap解決了分隔線斷裂的問題，確保了相鄰元素的平行性。

▲圖4｜定性分析結(jié)果

05 總結(jié)與未來展望

在本文中，作者設(shè)計的DiffMap網(wǎng)絡(luò)是一種利用潛在擴(kuò)散模型學(xué)習(xí)地圖結(jié)構(gòu)先驗的新方法，從而增強了傳統(tǒng)的地圖分割模型。該方法可以作為任何地圖分割模型的輔助工具，其預(yù)測結(jié)果在遠(yuǎn)近距離檢測場景中都有顯著改善。由于該方法具有很強的擴(kuò)展性，適合研究其他類型的先驗信息，例如可以將SD地圖先驗集成到DiffMap的第二模塊中，從增強其性能表現(xiàn)。將來有望在矢量化地圖構(gòu)建中繼續(xù)有所進(jìn)步。

責(zé)任編輯：張燕妮來源：自動駕駛之心

自動駕駛模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看