DiffMap:首個利用LDM來增強高精地圖構(gòu)建的網(wǎng)絡(luò)
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
論文標(biāo)題:
DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model
論文作者:
Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang
01 背景簡介
對自動駕駛車輛來說,高清(HD)地圖能夠幫助其提高對環(huán)境理解(感知)的準(zhǔn)確度和導(dǎo)航的精度。然而,人工建圖面臨繁雜和高成本的問題。為此,當(dāng)前研究將地圖構(gòu)建集成到BEV(鳥瞰視角)感知任務(wù)中,在BEV空間中構(gòu)建柵格化HD地圖視為一個分割任務(wù),可以理解為獲得BEV特征后增加使用類似于FCN(全卷積網(wǎng)絡(luò))的分割頭。例如,HDMapNet通過LSS(Lift,Splat,Shoot)編碼傳感器特征,然后采用多分支FCN進(jìn)行語義分割、實例檢測和方向預(yù)測來構(gòu)建地圖。
但目前此類方法(基于像素的分類方法)仍存在固有局限性,包括可能忽略特定類別屬性,這可能導(dǎo)致分隔帶扭曲和中斷、行人橫道模糊以及其他類型的偽影和噪聲,如圖1(a)所示。這些問題不僅影響地圖的結(jié)構(gòu)精度,還可能直接影響自動駕駛系統(tǒng)的下游路徑規(guī)劃模塊。
▲圖1|HDMapNet,DiffMap和GroundTruth效果對比
因此,模型最好能考慮HD地圖的結(jié)構(gòu)先驗信息,如車道線的平行和筆直特性。一些生成模型在捕捉圖像真實性和固有特性具備這樣的能力。例如,LDM(潛在擴(kuò)散模型)在高保真圖像生成方面展現(xiàn)了巨大潛力,并在與分割增強相關(guān)的任務(wù)中證明了其有效性。另外,還可以通過引入控制變量,進(jìn)一步指導(dǎo)圖像的生成以滿足特定的控制要求。因此,將生成模型應(yīng)用于捕捉地圖結(jié)構(gòu)先驗,有望減少分割偽影并提高地圖構(gòu)建性能。
在本文中,作者提出DiffMap網(wǎng)絡(luò)。該網(wǎng)絡(luò)首次通過使用改進(jìn)的LDM作為增強模塊,對現(xiàn)有的分割模型進(jìn)行地圖結(jié)構(gòu)化先驗建模并支持即插即用。DiffMap不僅能通過添加和刪除噪聲的過程學(xué)習(xí)地圖先驗,還可以將BEV特征集成為控制信號,以確保輸出與當(dāng)前幀觀測相匹配。實驗結(jié)果表明,DiffMap能夠有效地生成更加平滑合理的地圖分割結(jié)果,同時極大地減少了偽影,提高了整體的地圖構(gòu)建性能。
02 相關(guān)工作
2.1 語義地圖構(gòu)建
在傳統(tǒng)的高清(HD)地圖構(gòu)建中,語義地圖通常是基于激光雷達(dá)點云手動或半自動標(biāo)注的。一般基于SLAM的算法來構(gòu)建全局一致的地圖,并手動為地圖添加語義標(biāo)注。然而,這種方法費時費力,同時在更新地圖方面也存在極大挑戰(zhàn),從而限制了其可擴(kuò)展性和實時性能。
HDMapNet提出了一種使用車載傳感器動態(tài)構(gòu)建局部語義地圖的方法。它將激光雷達(dá)點云和全景圖像特征編碼到鳥瞰視圖(BEV)空間,并使用三個不同的頭部進(jìn)行解碼,最終產(chǎn)生一個矢量化的局部語義地圖。SuperFusion專注于構(gòu)建遠(yuǎn)程高精度語義地圖,利用激光雷達(dá)深度信息增強圖像深度估計,并使用圖像特征引導(dǎo)遠(yuǎn)程激光雷達(dá)特征預(yù)測。然后采用類似于HDMapNet的地圖檢測頭獲得語義地圖。MachMap將任務(wù)劃分為折線檢測和多邊形實例分割,并使用后處理來細(xì)化掩碼以獲得最終結(jié)果。后續(xù)的研究聚焦在端到端在線建圖,直接獲得矢量化的高清地圖。無需手動標(biāo)注的語義地圖動態(tài)構(gòu)建有效地降低了構(gòu)建成本。
2.2 擴(kuò)散模型應(yīng)用于分割和檢測
去噪擴(kuò)散概率模型(DDPMs)是基于馬爾可夫鏈的一類生成模型,在圖像生成等領(lǐng)域展現(xiàn)出優(yōu)秀的性能,并逐步擴(kuò)展到分割和檢測等各種任務(wù)。SegDiff將擴(kuò)散模型應(yīng)用于圖像分割任務(wù),其中使用的UNet編碼器進(jìn)一步解耦為三個模塊:E、F和G。模塊G和F分別編碼輸入圖像I和分割圖,然后在E中通過加法合并,以迭代地細(xì)化分割圖。DDPMS使用基礎(chǔ)分割模型產(chǎn)生初始預(yù)測先驗,并利用擴(kuò)散模型對先驗進(jìn)行細(xì)化。DiffusionDet將擴(kuò)散模型擴(kuò)展到目標(biāo)檢測框架,將目標(biāo)檢測建模為從噪聲框到目標(biāo)框的去噪擴(kuò)散過程。
擴(kuò)散模型也應(yīng)用于自動駕駛領(lǐng)域,如MagicDrive利用幾何約束合成街景,以及Motiondiffuser將擴(kuò)散模型擴(kuò)展到多智能體運動預(yù)測問題。
2.3 地圖先驗
目前有幾種方法通過利用先驗信息(包括顯式的標(biāo)準(zhǔn)地圖信息和隱式的時間信息)來增強模型魯棒性,減少車載傳感器的不確定性。MapLite2.0以標(biāo)準(zhǔn)定義(SD)先驗地圖為起點,并結(jié)合車載傳感器實時推斷局部高清地圖。MapEx和SMERF利用標(biāo)準(zhǔn)地圖數(shù)據(jù)改善車道感知和拓?fù)淅斫狻MERF采用基于Transformer的標(biāo)準(zhǔn)地圖編碼器編碼車道線和車道類型,然后計算標(biāo)準(zhǔn)地圖信息與基于傳感器的鳥瞰視圖(BEV)特征之間的交叉注意力,以集成標(biāo)準(zhǔn)地圖信息。NMP通過將過去的地圖先驗數(shù)據(jù)與當(dāng)前感知數(shù)據(jù)相結(jié)合,為自動駕駛汽車提供長期記憶能力。MapPrior結(jié)合判別式和生成式模型,在預(yù)測階段將基于現(xiàn)有模型生成的初步預(yù)測編碼為先驗,注入生成模型的離散潛在空間,然后使用生成模型進(jìn)行細(xì)化預(yù)測。PreSight利用先 前行程的數(shù)據(jù)優(yōu)化城市尺度的神經(jīng)輻射場,生成神經(jīng)先驗,增強后續(xù)導(dǎo)航中的在線感知。
03 方法精析
3.1 準(zhǔn)備工作
3.2 整體架構(gòu)
如圖2所示。DiffMap作為解碼器,將擴(kuò)散模型納入語義地圖分割模型,該模型以周圍多視角圖像和LiDAR點云作為輸入,將其編碼為BEV空間并獲得融合的BEV特征。然后采用DiffMap作為解碼器生成分割圖。在DiffMap模塊中,將BEV特征作為條件來引導(dǎo)去噪過程。
▲圖2|DiffMap架構(gòu)??【深藍(lán)AI】編譯
◆語義地圖構(gòu)建的基線:基線主要遵循BEV編碼器-解碼器范式。編碼器部分負(fù)責(zé)從輸入數(shù)據(jù)(LiDAR和/或相機數(shù)據(jù))中提取特征,將其轉(zhuǎn)換為高維表示。同時,解碼器通常作為分割頭,將高維特征表示映射到相應(yīng)的分割圖。基線在整個框架中起兩個主要作用:監(jiān)督者和控制器。作為監(jiān)督者,基線生成分割結(jié)果作為輔助監(jiān)督。同時,作為控制器,它提供中間BEV特征作為條件控制變量,以引導(dǎo)擴(kuò)散模型的生成過程。
◆DiffMap模塊:沿襲LDM,作者在基線框架中引入DiffMap模塊作為解碼器。LDM主要由兩部分組成:一個圖像感知壓縮模塊(如VQVAE)和一個使用UNet構(gòu)建的擴(kuò)散模型。首先,編碼器將地圖分割ground truth 編碼為潛在空間中的,其中表示潛在空間的低維度。隨后,在低維潛在變量空間中執(zhí)行擴(kuò)散和去噪,然后使用解碼器將潛在空間恢復(fù)到原始像素空間。
首先通過擴(kuò)散過程添加噪聲,在每個時間步獲得噪聲潛在圖,其中。然后在去噪過程中,UNet作為噪聲預(yù)測的主干網(wǎng)絡(luò)。為了增強分割結(jié)果的監(jiān)督部分,并希望DiffMap模型在訓(xùn)練期間直接為實例相關(guān)預(yù)測提供語義特征。因此,作者將UNet網(wǎng)絡(luò)結(jié)構(gòu)分為兩個分支,一個分支用于預(yù)測噪聲,如傳統(tǒng)擴(kuò)散模型,另一個分支用于預(yù)測潛在空間中的。
如圖3所示。獲得潛在圖預(yù)測后,將其解碼到原始像素空間,作為語義特征圖。然后就可以按照HDMapNet提出的方法從中獲得實例預(yù)測,輸出三種不同頭的預(yù)測:語義分割、實例嵌入和車道方向。這些預(yù)測隨后用于后處理步驟以矢量化地圖。
▲圖3|去噪模塊
整個過程是一個有條件的生成過程,根據(jù)當(dāng)前傳感器輸入下獲得地圖分割結(jié)果。其結(jié)果的概率分布可以建模為,其中表示地圖分割結(jié)果,表示條件控制變量,即BEV特征。作者這里用了兩種方式融合控制變量。首先,由于和BEV特征在空間域上具有相同的類別和尺度,將調(diào)整為潛在空間大小,然后將它們串聯(lián)作為去噪過程的輸入,如公式5所示。
其次,將交叉注意力機制融入到UNet網(wǎng)絡(luò)的每一層,其中作為key/value,作為query。交叉注意力模塊的公式如下:
3.3 具體實現(xiàn)
◆訓(xùn)練:
◆推理:
04 實驗
4.1 實驗細(xì)節(jié)
◆數(shù)據(jù)集:在nuScenes數(shù)據(jù)集上驗證DiffMap。nuScenes數(shù)據(jù)集包含1000個場景的多視角圖像和點云,其中700個場景用于訓(xùn)練,150個用于驗證,150個用于測試。nuScenes數(shù)據(jù)集還包含注釋的高清地圖語義標(biāo)簽。
◆架構(gòu):使用ResNet-101作為相機分支的主干網(wǎng)絡(luò),使用PointPillars作為模型的LiDAR分支主干網(wǎng)絡(luò)。基線模型中的分割頭是基于ResNet-18的FCN網(wǎng)絡(luò)。對于自編碼器,采用VQVAE,該模型在nuScenes分割地圖數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,以提取地圖特征并將地圖壓縮為基本潛在空間。最后使用UNet來構(gòu)建擴(kuò)散網(wǎng)絡(luò)。
◆訓(xùn)練細(xì)節(jié):使用AdamW優(yōu)化器訓(xùn)練VQVAE模型30個epoch。使用的學(xué)習(xí)率調(diào)度器是LambdaLR,它以指數(shù)衰減模式逐漸降低學(xué)習(xí)率,衰減因子為0.95。初始學(xué)習(xí)率設(shè)置為,批量大小為8。然后,使用AdamW優(yōu)化器從頭開始訓(xùn)練擴(kuò)散模型30個epoch,初始學(xué)習(xí)率為2e-4。采用MultiStepLR調(diào)度器,該調(diào)度器根據(jù)指定的里程碑時間點(0.7、0.9、1.0)和在不同訓(xùn)練階段的縮放因子1/3來調(diào)整學(xué)習(xí)率。最后將BEV分割結(jié)果設(shè)置為0.15m的分辨率,并將LiDAR點云體素化。HDMapNet的檢測范圍為[-30m,30m]×[-15m,15m]m,因此相應(yīng)的BEV地圖大小為400×200,而Superfusion使用[0m,90m]×[-15m,15m]并得到600×200的結(jié)果。由于LDM的維度約束(在VAE和UNet中下采樣8倍),需要將語義地面實況地圖的大小填充到64的倍數(shù)。
◆推理細(xì)節(jié):通過在當(dāng)前BEV特征條件下對噪聲地圖執(zhí)行去噪過程20次來獲得預(yù)測結(jié)果。使用3次采樣的平均值作為最終的預(yù)測結(jié)果。
4.2 評估指標(biāo)
主要針對地圖語義分割和實例檢測任務(wù)進(jìn)行平評估。且主要集中在三個靜態(tài)地圖元素上:車道邊界、車道分隔線和行人橫道。
4.3 評估結(jié)果
表1顯示了語義地圖分割的 IoU 得分比較。DiffMap 在所有區(qū)間都顯示出顯著的改善,尤其在車道分隔線和行人橫道上取得了最佳結(jié)果。
▲表1|IoU得分比較
如表2所示,DiffMap方法在平均精度(AP)方面也有顯著提升,驗證了 DiffMap 的有效性。
▲表2|MAP得分比較
如表3所示,將DiffMap范式集成到HDMapNet中時,可以觀察到,無論是僅使用攝像頭還是攝像頭-激光雷達(dá)融合方法,DiffMap都能提高HDMapNet的性能。這說明DiffMap方法在各類分割任務(wù)上都很有效,包括遠(yuǎn)距離和近距離檢測。然而對于邊界,DiffMap的表現(xiàn)并不出色,這是因為邊界的形狀結(jié)構(gòu)不固定,存在許多難以預(yù)測的扭曲,從而使捕捉先驗結(jié)構(gòu)特征變得困難。
▲表3|定量分析結(jié)果
4.4 消融實驗
表4顯示了VQVAE中不同下采樣因子對檢測結(jié)果的影響。通過分析DiffMap在下采樣因子為4、8、16時的行為可以看到,當(dāng)下采樣因子設(shè)置為8x時,結(jié)果最佳。
▲表4|消融實驗結(jié)果
此外,作者還測量了刪除與實例相關(guān)的預(yù)測模塊對模型的影響,如表5所示。實驗表明,添加此預(yù)測進(jìn)一步提高了IOU。
▲表5|消融實驗結(jié)果(是否包含預(yù)測模塊)
4.5 可視化
圖4展示了DiffMap和基線(HDMapNet-fusion)在復(fù)雜場景中的比較。很明顯,基線的分割結(jié)果忽略了元素內(nèi)部的形狀屬性和一致性。相比之下,DiffMap展示了能夠糾正這些問題的能力,產(chǎn)生與地圖規(guī)范很好對齊的分割輸出。具體而言,在案例(a)、(b)、(d)、(e)、(h)和(l)中,DiffMap有效地糾正了不準(zhǔn)確預(yù)測的人行橫道。在案例(c)、(d)、(h)、(i)、(j)和(l)中,DiffMap完成或刪除了不準(zhǔn)確的邊界,使結(jié)果更接近于現(xiàn)實的邊界幾何。此外,在案例(b)、(f)、(g)、(h)、(k)和(l)中,DiffMap解決了分隔線斷裂的問題,確保了相鄰元素的平行性。
▲圖4|定性分析結(jié)果
05 總結(jié)與未來展望
在本文中,作者設(shè)計的DiffMap網(wǎng)絡(luò)是一種利用潛在擴(kuò)散模型學(xué)習(xí)地圖結(jié)構(gòu)先驗的新方法,從而增強了傳統(tǒng)的地圖分割模型。該方法可以作為任何地圖分割模型的輔助工具,其預(yù)測結(jié)果在遠(yuǎn)近距離檢測場景中都有顯著改善。由于該方法具有很強的擴(kuò)展性,適合研究其他類型的先驗信息,例如可以將SD地圖先驗集成到DiffMap的第二模塊中,從增強其性能表現(xiàn)。將來有望在矢量化地圖構(gòu)建中繼續(xù)有所進(jìn)步。