Far3D:直接干到150m,視覺3D目標檢測新思路(AAAI2024)
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
近來在 Arxiv 讀到一篇純視覺環視感知的新工作,它延續了 PETR 系列方法,主要關注如何解決純視覺感知的遠距離目標檢測問題,將感知范圍擴大到150m。文章方法和結果有相當的借鑒意義,所以試著解讀一下。
原標題:Far3D: Expanding the Horizon for Surround-view 3D Object Detection
論文鏈接:https://arxiv.org/abs/2308.09616
作者單位:北京理工大學 & 曠視科技
任務背景
三維物體檢測在理解自動駕駛的三維場景方面發揮著重要作用,其目的是對自車周圍的物體進行精確定位和分類。純視覺環視感知方法具有成本低、適用性廣等優點,已取得顯著進展。然而,它們大多側重于近距離感知(例如,nuScenes的感知距離約為 50 米),對遠距離探測領域的探索較少。檢測遠距離物體對于實際駕駛中保持安全距離至關重要,尤其是在高速或復雜路況下。
近來,從環視圖像中進行三維物體檢測取得了顯著進展,其部署成本較低。然而,大多數研究主要集中在近距離感知范圍,對遠距離檢測的研究較少。將現有方法直接擴展到覆蓋長距離會面臨計算成本高、收斂性不穩定等挑戰。為了解決這些局限性,本文提出了一種新的基于稀疏查詢的框架,稱為 Far3D。
論文思路
現有的環視感知方法根據中間表征可大致分為兩類:基于 BEV 表征和基于稀疏 query 表征的方法。基于 BEV 表征的方法,由于其密集的 BEV 特征計算,計算量非常大,難以擴展到遠距離場景。而基于稀疏query表征的方法,會從訓練數據中學習到全局 3D query,計算量會小許多,且擴展性較強。但它也有弱點,雖然可以避免 query 數目的平方增長,但全局固定 query 不易適應動態場景,在遠距離檢測中通常會遺漏目標。
圖1:Argoverse 2 數據集上,3D 檢測和 2D 檢測的性能對比。
在遠距離檢測中,基于稀疏 query 表征的方法有兩個主要挑戰。
- 首先是召回性能較差。由于 query 在 3D 空間分布的稀疏性,在遠距離范圍只能產生少量匹配的 positive query。如上圖所示,3D 檢測的召回率較低,而現有 2D 檢測的召回率要高得多,兩者之間存在明顯的性能差距。因此,利用高質量的 2D 物體先驗來改進 3D query 是一種很有潛力的方法,它有利于實現物體的精確定位和全面覆蓋。
- 其次,直接引入 2D 檢測結果來幫助 3D 檢測會面臨誤差傳播的問題。如下圖所示,兩種主要來源是 1) 由于深度預測不準的物體定位誤差;2) 隨著距離的增大,視錐變換中的 3D 位置誤差也會增大。這些 noisy query 會影響訓練的穩定性,需要有效的去噪方法來優化。此外,在訓練過程中,模型會表現出對密集的近距離物體過度擬合的傾向,而忽略稀疏分布的遠距離物體。
為了解決上述問題,本文做了以下設計:
- 除了從數據集中學到的 3D global query 外,還引入了由 2D 檢測結果生成的 3D adaptive query。具體地,首先利用 2D 檢測器和深度預測網絡得到 2D 框和對應深度,再通過空間變換投射到 3D 空間,作為 3D adaptive query 的初始化。
- 為了適應不同距離的物體的尺度不同,設計了 Perspective-aware Aggergation。它使得 3D query 可以和不同尺度的特征交互,有利于不同距離物體的特征捕捉。比如,遠處物體需要大分辨率的特征,而近處則不同。模型通過這種設計可以自適應地與特征交互。
- 設計了一種稱為 Range-modulated 3D Denoising 的策略,以減輕 query 錯誤傳播和收斂緩慢的問題。考慮到不同距離的 query 回歸難度不同,noisy query 根據真實框的距離和尺度來調整。將 GT 附近的多組 noisy query 輸入解碼器,來分別實現重建3D 真實框(對于正樣本)和舍棄負樣本的作用。
主要貢獻
- 本文提出了一種新的基于稀疏 query 的檢測框架,它利用高質量的 2D object prior 來生成 3D adaptive query, 從而擴大三維檢測的感知范圍。
- 本文設計了 Perspective-aware Aggregation 模塊,它從不同尺度和視角聚合視覺特征,以及一個基于目標距離的 3D Denoising 策略,來解決 query 誤差傳播和框架收斂問題。
- 在遠距離的 Argoverse 2 數據集的實驗結果表明,Far3D 超越了此前的環視方法,并優于幾種基于激光雷達的方法。并且在 nuScenes 數據集上驗證了其通用性。
模型設計
Far3D 流程概覽:
- 將環視圖像輸入主干網絡和 FPN 層,編碼得到 2D 圖像特征,并將其與相機參數進行編碼。
- 利用 2D 檢測器和深度預測網絡,生成可靠的 2D 物體框及其相應深度,然后通過相機變換投影到 3D 空間。
- 生成的3D adaptive query 與初始的 3D global query 相結合,由解碼器層迭代回歸,以預測 3D 物體框。更進一步,該模型可通過長時序的 query 傳播實現時序建模。
Perspective-aware Aggregation:
為了給遠距離檢測模型引入多尺度特征,本文應用了 3D spatial deformable attention。它先在 query 對應的 3D 位置附近進行偏移采樣,而后通過 3D-2D 視圖變換聚合圖像特征。這種方法替代 PETR 系列中的 global attention 的優勢在于,計算量可以大幅降低。具體地,對于 3D 空間中的每個 query 的參考點,模型會學習其周圍的 M 個采樣偏移,并將這些偏移點投影到不同的 2D 視圖特征中。
其后,3D query 與投影得到的采樣特征交互。通過這種方式,來自不同視角和尺度的各種特征將通過考慮其相對重要性匯聚到三維查詢中。
Range-modulated 3D Denoising:
不同距離的 3D query 具有不同的回歸難度,這不同于現有的 2D Denoising 方法(如 DN-DETR, 通常同等對待的2D query)。難度差異來自于 query 匹配密度和誤差傳播。一方面,與遠處物體相對應的 query 匹配度低于近處物體。另一方面,在 3D adaptive query 中引入二維先驗時,2D 物體框的微小誤差會被放大,更不用說這種影響會隨著物體距離的增加而增大。因此,GT 框附近的一些 query 可被視為 positive query,而其他有明顯偏差則應被視為 negative query。本文提出一種 3D Denoising 方法,旨在優化那些正樣本,并直接舍棄負樣本。
具體地,作者通過同時添加正樣本和負樣本組來構建基于 GT 的 noisy queries。對于這兩種類型,都會根據物體的位置和大小應用隨機噪聲,以促進遠距離感知中的去噪學習。形式上,正樣本定義在 3D 框內的隨機點,而負樣本則在 GT 施加更大的偏移,范圍隨著物體的距離變化。這種方式可以在訓練過程中模擬有噪聲的候選正樣本和 false postive 樣本。
實驗結果
Far3D 在 150m 感知范圍的 Argoverse 2 上取得了最高的性能。并且模型 scale up 之后,可以達到幾個 Lidar-based 方法的性能,展現了純視覺方法的潛力。
為了驗證泛化性能,作者也在 nuScenes 數據集上做了實驗,表明其在驗證集和測試集上都達到 SoTA 性能。
通過 Ablation 實驗表明了 3D adaptive query, perspective-aware aggregation 和 range-modulated 3D denoising 各自的增益。
論文思考
Q:這篇文章有什么 novelty?
A:主要 novelty 是解決遠距離場景的感知問題。現有方法拓展到遠距離場景有許多問題,計算成本和收斂困難等。本文作者為這個任務提出了一個高效的框架。盡管單拎出來各個模塊似曾相識,它們都是服務于遠處目標的檢測的,目標明確。
Q:相比 BevFormer v2, MV2D 有什么區別?
A: MV2D 主要是依賴 2D anchor 去取對應的特征對 3D 進行了綁定,但是沒有顯式的深度估計,所以對于遠距離物體來說不確定性就會比較大,然后難收斂;BevFormer v2 主要解決的是2D backbone與 3D 任務場景之間的domain gap,一般 2D 識別任務上預訓練的 backbone 察覺 3D 場景的能力存在不足,并沒有探索遠距離任務中的問題。
Q: 時序上能否改進,如 query propagation 再加上 feature propagation?
A: 理論上是可行的,但是實際應用中應該考慮performance-efficiency tradeoff。
Q: 還有哪些需要改進的地方?
A: 在長尾問題和遠距離評測指標上都值得改進。在 Argoverse 2 這樣的 26 類目標上,模型在長尾類別上表現不佳,最終也會降低平均精度,這一點尚未被探索。另一方面,使用統一的指標來評估遠距離和近距離物體可能并不合適,這就強調了對實用的動態評估標準的需求,以適應現實世界的不同場景。
原文鏈接:https://mp.weixin.qq.com/s/xxaaYQsjuWzMI7PnSmuaWg