無圖感知更進一步!ScalableMap:邁向大范圍高精地圖新方案!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
筆者的個人理解
今年真的是無圖感知爆發的一年啊~近幾天arxiv上放出了一篇在線局部高精地圖構建算法—ScalableMap,ScalableMap提出了一種新的端到端范式,用于純視覺構建在線long-range矢量化高精地圖。HD地圖的矢量化表示,使用polyline和polygon來表示地圖元素,進而應用到下游的地圖構建。然而,以前參考動態目標檢測設計的方案忽略了線性地圖元素內的結構約束,導致在長距離場景中性能下降。因此本文利用地圖元素的特性來提高地圖構建的性能。ScalableMap在線性結構的指導下提取了更準確的鳥瞰圖(BEV)特征,然后提出了一種分層稀疏地圖表示,以進一步利用矢量化地圖元素的可擴展性,并基于這種表示設計了漸進解碼機制和監督策略。ScalableMap在nuScenes數據集上取得了SOTA性能,尤其是在遠程場景中,在實現18.3 FPS的同時,超過了以前最先進的模型6.5 mAP。
開源鏈接:https://github.com/jingy1yu/ScalableMap
總結來說,ScalableMap的主要貢獻有如下兩點:
- ScalableMap是第一個端到端的遠程矢量化地圖構建范式。作者利用地圖元素的結構特性來提取更準確的BEV特征,提出了一種基于可縮放矢量化元素的HSMR,并相應地設計了漸進解碼器和監督策略。這幾點改進均大幅提升了模型的感知性能;
- 作者通過大量實驗評估了ScalableMap在nuScenes數據集上的性能。ScalableMap在更大范圍的HD地圖學習中取得了最先進的結果,超過現有的多模態方法6.5 mAP,同時達到18.3 FPS。
高精地圖構建的相關工作
車道檢測:車道檢測任務多年來一直是一個熱門的研究課題。早期方法通常依賴于需要復雜后處理才能獲得最終結果的分割方案。為了獲得結構化信息,一些方案旨在找到曲線的統一表示,而另一些方案則利用基于Anchor的方案來抽象具有開放形狀的地圖元素。與上述解決方案相比,我們的思維更接近HRAN,它直接輸出結構化polyline。然而,它依賴于已知計算效率低的遞歸網絡。ScalableMap能夠處理具有復雜幾何結構的真實地圖元素,而前面提到的方法只能處理單個類型或規則形狀。
邊界提取:邊界提取旨在預測圖像中物體的多邊形邊界。Polygon RNN采用遞歸結構對捕獲每個邊界,不適合有實時要求的場景。一些工作在邊界提取方面取得了良好的效果,但它們通常是為圖像空間中的多邊形設計的,不適合于地圖構建任務。最接近本文的方案是BoundaryFormer,它使用查詢來預測多邊形的頂點,以獲得矢量化的多邊形邊界。然而,它為圖像空間中的閉合形狀元素定義的可微損失不適用于由開放形狀線性元素主導的地圖元素,因為與動態對象相比,它們具有較少集中的特征。
矢量化高精地圖構建:最近的工作試圖直接從傳感器數據獲取矢量化高精地圖。HDMapNet使用耗時的啟發式后處理方法生成矢量化地圖,而VectorMapNet提出了一種具有端到端范式的兩階段框架,該框架使用慢速自回歸解碼器來循環預測頂點。InstaGraM提出了一種基于頂點和edge heatmap的圖建模方法來推理實例-頂點關系,這可能很難推斷出多個視圖中出現的地圖元素的一些頂點。考慮到處理元素中任意形狀和不同數量頂點的挑戰,MapTR通過使用固定數量的插值來獲得單一形式的表示來解決這一問題。但MapTR的分層查詢設計主要關注初始化階段元素的結構關聯,導致收斂緩慢,并隨著感知范圍的增加而影響性能。只有SuperFusion是遠程矢量化高精地圖構建的相關工作,它也使用后處理來獲得矢量化結果。ScalableMap是第一個在整個過程中利用地圖元素的結構特性來構建大范圍矢量化地圖的端到端方案。
詳解ScalableMap
概覽
給定一組環視圖像,ScalableMap的目標是實時預測一定范圍內的M個局部地圖元素{,包括車道線、道路邊界和人行橫道。每個地圖元素由有序頂點的稀疏集表示。
ScalableMap的體系結構如圖1所示。主要包含三個組件:
- 結構引導的混合BEV特征提取;
- 漸進解碼器;
- 漸進式監督;
BEV特征提取
地圖元素的延展和線性特性加劇了2D-3D變換的不適定性,導致特征錯位和不連續。為了獲得混合BEV特征,作者利用一個分支來提取position-aware的BEV特征和另一個分支用于提取instance-aware的BEV特征。然后,在地圖元素的結構特性的指導下,將這些分支融合在一起。
透視視圖轉換器。模型首先通過ResNet提取圖像特征。采用BEVFormer提出的方法來獲得position-aware的BEV特征,該方法利用可變形注意力來實現基于預定義的3D網格和標定參數的BEV查詢和相應圖像特征之間的空間交互。此外使用幾個MLP來獲得實instance-aware的BEV特征,因為它們在保留圖像空間中的連續特征方面是有效的。使用k個MLP將k個圖像特征單獨地轉換為它們各自的俯視圖。為了進一步提高視圖之間的特征連續性,作者使用線性層將俯視圖特征轉換為統一的BEV特征。
結構引導的特征融合。為了增強特征對精確地圖構建的魯棒性,作者進一步提出了一種相互校正策略,該策略利用來自兩個不同特征的信息:具有相對精確的地圖頂點位置數據,包含地圖元素的綜合形狀信息。通過直接相加這些特征,進一步得到了更新的。此外在中引入了一個分割頭,引導它專注于可行駛區域來學習變換尺度。隨后,將與refined的連接,并通過卷積層執行它們的融合。該融合過程糾正了中的錯位,得到了具有增強的豐富性和準確性的混合bev特征。
漸進式Decoder
矢量化地圖元素的各種形狀對傳統的抽象方案(如基于邊界框和基于錨點的方法)提出了挑戰。為了解決這個問題,本文引入了HSMR。HSMR提供了一種稀疏和統一的表示,可以準確描述元素的實際形狀,同時支持快速推理。在此基礎上設計了一個受DETR范式啟發的漸進解碼器。此外集成了一個模塊,該模塊首先生成結構查詢,然后動態插入查詢,充當連接不同密度地圖的重要橋梁。
分層稀疏圖表示。地圖元素的polyline表示通常是通過對曲率超過閾值的點進行采樣來獲得的,從而導致每個元素的頂點數量不同。我們將形成每個元素的頂點數量定義為地圖密度,以確保一致的表示。基于該密度,我們對頂點數量過多的元素使用均勻點采樣,而對于頂點數量少于所需密度的元素,我們根據原始頂點之間的距離執行點子采樣。這種方法允許我們在任意密度下獲得相同元素的表示。通過將DETR范式的迭代優化思想與矢量化地圖的動態可調密度相結合,我們分層地利用低密度地圖作為高密度地圖的抽象表示。低密度地圖在足夠稀疏的同時充分地捕捉地圖元素形狀。HSMR及其性能的可視化描述如圖4所示。
Decoder Layers。進一步作者定義了負責第n個元素的第m個頂點的查詢。利用地圖元素的分層稀疏表示,最初生成少量查詢以捕獲每個地圖元素的近似形狀。每個查詢是通過添加實例嵌入和位置嵌入而形成的。方法的漸進地圖元素解碼器由多個解碼器層組成,每個解碼器層包含兩種類型的注意力機制。這些注意力機制促進了頂點之間的信息交換,并實現了每個頂點與其相應BEV特征之間的交互。頂點之間的交換使用多頭自注意來實現,而另一個使用可變形注意來實現。
結構查詢生成和動態查詢插入。為了連接處理不同密度的層,我們利用同一元素內相鄰頂點之間的位置約束來增加地圖密度。我們通過獲取共享一條邊的兩個相鄰查詢的平均值來引入新查詢,并在這兩個查詢之間動態插入新查詢。具體來說沒有采用同時初始化大量查詢并迭代更新的傳統方法,而是采用了一種策略,即僅用有限數量的查詢初始化每個元素,并逐層逐漸增加地圖密度。這使該模塊能夠專注于原始稀疏實例特征,并利用矢量化地圖元素的結構特征,確保強大的大范圍感知能力。
漸進式監督策略
使用常見的二分匹配策略匹配真值和預測:
使用focal loss來監督元素類別和可行駛區域,以下損失函數中包含了額外的損失項:
頂點損失。考慮到HSMR涉及子采樣過程,本文區分了原始頂點和新添加頂點之間的監督。漸進polyline損失的監督機制的可視化表示如圖2所示。使用L1損失優化:
邊緣損失。使用邊緣損失來監督邊的形狀,包括與新添加頂點的距離以及由相鄰邊緣形成的角度。距離度量以L1損失進行監督,而斜率和角度分量以余弦相似性進行監督。每個元素的邊緣損失公式為:
實驗驗證
主要結果
與基線的比較。將ScalableMap與最先進的nuScenes驗證測試方法進行比較來評估其性能。如表1所示,在相機模態下,ScalableMap的表現略好于MapTR,在沿Y軸[-30.0m,30.0m]的傳統感知范圍內,實現了1.9個更高的mAP和更快的推理速度。當相同的模型直接應用于[-60.0m,60.0m]場景時,ScalableMap實現了45.6 mAP和18.3 FPS,而MapTR的相應值分別為39.1和11.2。值得注意的是,SuperFusion是唯一一種公布這一范圍內實驗結果的方法。然而,它是激光雷達和單目相機的融合模型。在相同的基準下,我們的方法實現的mAP比SuperFusion高出16.2,即使在具有接近實時推理速度的多目相機模式下也表現出卓越的性能。結果表明,本文的方案有效地滿足了在線地圖構建任務的實時性要求,在傳統的感知范圍測試和遠程測試中都具有卓越的準確性。
定性結果可視化。ScalableMap在nuScenes驗證數據集上的定性結果在大范圍測試中的可視化如圖3所示。附錄B中給出了更多具有挑戰性的場景的可視化結果,以獲得更多具有挑戰的場景的視覺化結果。即使在彎道、十字路口、擁堵道路和夜間場景中,我們的模型仍然表現良好。圖4可視化了MapTR*和ScalableMap的六個解碼器層中的三個。我們的策略展示了更快地關注實例特征的能力,而漸進迭代產生了更精確的元素形狀。
消融實驗
我們在nuScenes驗證集上進行了消融實驗,以驗證所提出的方法和不同設計的組件的有效性。所有實驗的設置與前面提到的保持相同。
表2給出了實驗結果,展示了本文提出的組件的影響。HSMR在稀疏表示的遠程感知中表現出有效的性能。SQG&DQI增強了地圖元素中的結構信息,而SGFF模塊顯著提高了性能。
頂點數量的消融實驗。表3中給出了形成每個元素的頂點數量對每個解碼器層中的大范圍感知的影響。實驗結果表明,基于本文提出的HSMR,模型性能隨著頂點數量的增加而相當穩定。我們權衡準確性和速度來選擇合適的參數。
ScalableMap的結論和未來的改進方向
本文提出的ScalableMap是一種用于構建長距離矢量化高精地圖的全新范式。作者利用地圖元素的固有結構來提取準確的BEV特征,提出了基于可擴展矢量化映射的HSMR概念,并相應地設計了漸進解碼器和監督策略以確保快速收斂。通過這些設計,ScalableMap可以有效地捕捉長距離的信息。在nuScenes數據集上的實驗結果證明了它的SOTA性能,特別是在更大范圍的感知場景中,從而肯定了它在現實世界環境中的實時適用性和有效性。
未來方向:ScalableMap僅依賴于實時視覺感知,因此其性能取決于場景的可見性,而在交通擁堵或極端天氣條件等情況下,場景的可見性可能會受到限制。此外方法依賴準確的相機內外參,這可能會在實際部署中造成限制。未來的研究可以通過開發無參數方法或結合在線校準方法來減少對傳感器內外參的依賴。探索地圖元素之間的位置約束的集成或利用全局粗略地圖作為先驗知識可以進一步增強魯棒性和準確性。
論文鏈接:https://arxiv.org/abs/2310.13378
原文鏈接:https://mp.weixin.qq.com/s/Ch-iktorUlVErabSouuvOg