RadarPillars:從4D雷達中進行高效目標檢測(速度精度均有優勢)
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
論文思路:
汽車雷達(radar)系統已經發展到不僅提供距離、方位角和多普勒速度,還能提供俯仰數據。這一額外的維度使得4D雷達可以表示為3D點云。因此,現有的用于3D目標檢測的深度學習方法,最初是為LiDAR數據開發的,經常被應用于這些雷達點云。然而,這忽略了4D雷達數據的特殊特性,例如極端稀疏性和速度信息的最佳利用。為了彌補這些在現有技術中的不足,本文提出了RadarPillars,一種基于柱狀結構的目標檢測網絡。通過分解徑向速度數據,引入PillarAttention進行高效特征提取,并研究層縮放以適應雷達稀疏性,RadarPillars在View-of-Delft數據集上的檢測結果顯著優于現有技術。重要的是,這在顯著減少參數量的同時,實現了超越現有方法的效率,并在邊緣設備上實現了實時性能。
論文設計:
在自動駕駛和汽車應用的背景下,雷達作為一種關鍵的感知技術脫穎而出,使車輛能夠檢測到周圍的物體和障礙物。這一能力對于確保各種自動駕駛功能的安全性和效率至關重要,包括碰撞避免、自適應巡航控制和車道保持輔助。雷達技術的最新進展導致了4D雷達的發展,它結合了三個空間維度以及一個額外的多普勒速度維度。與傳統雷達系統不同,4D雷達引入了作為第三維度的俯仰信息。這一增強功能使得雷達數據可以表示為3D點云,類似于LiDAR或深度感應相機生成的點云,從而能夠應用之前僅限于這些傳感器的深度學習方法。
然而,盡管來自LiDAR檢測領域的深度學習技術已經被適配到4D雷達數據上,但它們并沒有充分探索或適應其獨特特性。與LiDAR數據相比,4D雷達數據顯著稀疏。盡管存在這種稀疏性,雷達獨特地提供了速度作為特征,這在各種場景中有助于移動物體的檢測,例如在LiDAR傳統上難以應對的遠距離場景中[1]。在View-of-Delft數據集中,平均每次4D雷達掃描僅包含216個點,而相同視野內的LiDAR掃描包含21,344個點[2]。對此,本文提出了RadarPillars,一種專門為4D雷達數據量身定制的新型3D檢測網絡。通過RadarPillars,本文填補了當前技術中的空白,并在以下幾個方面做出了貢獻,大幅提升了性能,同時保持了實時能力:
- 增強速度信息的利用:本文分解徑向速度數據,提供額外的特征,從而顯著提升網絡性能。
- 適應雷達稀疏性:RadarPillars利用柱狀表示法[3]進行高效的實時處理。本文利用4D雷達數據固有的稀疏性,并引入PillarAttention,一種將每個 pillar 作為一個 token 處理的新型自注意層,同時保持效率和實時性能。
- 針對稀疏雷達數據的擴展:本文展示了雷達數據的稀疏性可能導致檢測網絡中信息量較少的特征。通過均勻網絡,本文不僅提升了性能,還顯著減少了參數量,從而提高了運行效率。
圖1:RadarPillars在4D雷達上的檢測結果示例。汽車用紅色標記,行人用綠色標記,騎行者用藍色標記。點的徑向速度由箭頭指示。
圖2:補償了4D雷達自車運動的絕對徑向速度$ v_r $。隨著物體的移動,$ v_r $會根據其相對于傳感器的航向角發生變化。由于其航向無法確定,汽車的實際速度$v$仍然未知。然而,$ v_r $可以分解為其$x$和$y$分量,以提供額外的特征。坐標系統和命名法遵循View-of-Delft數據集[2]。
圖3:PillarAttention概述。本文利用雷達點云的稀疏性,通過使用掩碼從非空 pillars 中收集特征,將空間大小從$H, W$減少到$p$。每個具有$C$通道的柱狀特征被視為計算自注意力的一個 token 。本文的PillarAttention封裝在一個Transformer層中,前饋網絡(FFN)由層歸一化(Layer Norm)和兩個中間帶有GeLU激活的MLP組成。PillarAttention的隱藏維度$E$由層前后的MLP控制。最后,具有$C$通道的柱狀特征被散射回其在網格中的原始位置。本文的PillarAttention不使用位置嵌入。
圖4:本文提出的方法組合形成RadarPillars,與基準方法PointPillars [3]的比較。在View-of-Delft數據集[2]上,整個雷達區域的一幀目標檢測精度結果。幀率是在Nvidia AGX Xavier 32GB上評估的。
圖5:權重幅度分析比較不同通道大小的均勻縮放RadarPillars。結果顯示,隨著網絡規模的減小,權重強度增加。本可視化排除了無效權重和異常值。
實驗結果:
總結:
本文提出了RadarPillars,利用4D雷達數據進行目標檢測的新方法。作為一個僅有 0.27 M 參數和1.99 GFLOPS的輕量級網絡,RadarPillars在檢測性能方面建立了新的基準,同時實現了實時能力,顯著超越了當前的先進技術。本文研究了雷達速度的最佳利用,以為網絡提供增強的上下文。此外,本文引入了PillarAttention,這是一種創新的層,將每個 pillar 視為一個 token ,同時確保效率。本文展示了均勻縮放網絡在檢測性能和實時推理方面的優勢。以RadarPillars為基礎,本文未來的工作將集中于通過優化主干網絡和探索無錨檢測頭來提升運行時間。另一條研究途徑是研究使用僅包含PillarAttention的Transformer層進行端到端的目標檢測,或將有前景的LiDAR方法[38], [39]適用于雷達。此外,本文還提出將RadarPillars擴展到其他傳感器數據模態的潛力,如深度傳感器或LiDAR。