優于所有方法!HIMap:端到端矢量化HD地圖構建
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
矢量化高清(HD)地圖構建需要預測地圖元素的類別和點坐標(例如道路邊界、車道分隔帶、人行橫道等)。現有技術的方法主要基于點級表示學習,用于回歸精確的點坐標。然而,這種pipeline在獲得element-level信息和處理element-level故障方面具有局限性,例如錯誤的element 形狀或element之間的糾纏。為了解決上述問題,本文提出了一個簡單而有效的HybrId框架,命名為HIMap,以充分學習和交互點級和element級信息。
具體來說,引入了一種稱為HIQuery的混合表示來表示所有地圖元素,并提出了一種點element交互器來交互式地提取元素的混合信息,如點位置和element形狀,并將其編碼到HIQuery中。此外,還提出了點-element一致性約束,以增強點級和element級信息之間的一致性。最后,集成HIQuery的輸出點元素可以直接轉換為地圖元素的類、點坐標和掩碼。在nuScenes和Argoverse2數據集上進行了廣泛的實驗,結果顯示始終優于以前的方法。值得注意的是,在nuScenes數據集上方法實現了77.8mAP ,顯著優于以前的SOTA至少8.3 mAP!
論文名稱:HIMap: HybrId Representation Learning for End-to-end Vectorized HD Map Construction
論文鏈接:https://arxiv.org/pdf/2403.08639.pdf
HIMap首先引入一種稱為HIQuery的混合表示來表示地圖中的所有地圖元素。它是一組可學習的參數,可以通過與BEV特征交互來迭代更新和細化。然后,設計了一個多層混合解碼器,將地圖元素的混合信息(如點位置、元素形狀)編碼到HIQuery中,并進行點元素交互,見圖2。混合解碼器的每一層包括點元素交互器、自關注和FFN。在點元交互器內部,執行了一個相互交互機制,以實現點級和元素級信息的交換,避免單級信息的學習偏差。最終,集成HIQuery的輸出點元素可以直接轉換為元素的點坐標、類和掩碼。此外,還提出了點-元素一致性約束,以加強點級和元素級信息之間的一致性。
HIMap框架一覽
HIMap的總體pipeline如圖3(a)所示。輸入 HIMap與各種機載傳感器數據兼容,例如來自多視圖相機的RGB圖像、來自激光雷達的點云或多模態數據。這里我們以多視圖RGB圖像為例來說明HIMap。
BEV特征提取器:使用BEV特征提取器從多視圖RGB圖像中提取BEV特征。它包括從每個透視圖中提取多尺度2D特征的主干,將多尺度特征細化并融合為單尺度特征的FPN,以及將2D特征映射為BEV特征的2D到BEV特征轉換模塊。
HIQuery:為了充分學習地圖元素的點級和元素級信息,引入HIQuery來表示地圖中的所有元素!
混合解碼器:混合解碼器通過將HIQuery Qh與BEV特征X迭代交互來產生集成的HIQuery。
點元素交互器的目標是交互式地提取地圖元素的點級和元素級信息并將其編碼到HIQuery中。兩個層次的信息相互作用的動機來自于它們的互補性。點級信息包含局部位置知識,而元素級信息提供整體形狀和語義知識。因此,該交互使得能夠對地圖元素的局部信息和整體信息進行相互細化。
考慮到點級表示和元素級表示之間的原始差異,它們分別關注局部信息和整體信息,兩級表示的學習也可能相互干擾。這將增加信息交互的難度,降低信息交互的有效性。因此,引入了點元素一致性約束,以增強每個點級別和元素級別信息之間的一致性,元素的可分辨性也可以得到加強!
實驗結果對比
論文在NuScenes Dataset和Argoverse2 Dataset上進行了實驗!
在nuScenes val-set上的SOTA模型進行比較:
和Argoverse2 val set上的SOTA模型比較:
與nuScenes驗證集多模態數據下SOTA模型比較:
更多消融實驗: