超越BEVFusion!Lift-Attend-Splat:最新BEV LV融合方案
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
論文:Lift-Attend-Splat: Bird’s-eye-view camera-lidar fusion using transformers
鏈接:https://arxiv.org/pdf/2312.14919.pdf
結合互補的傳感器模態對于為自動駕駛等安全關鍵應用提供強大的感知至關重要。最近最先進的自動駕駛相機-激光雷達融合方法依賴于單目深度估計,與直接使用激光雷達的深度信息相比,這是一項困難任務。在這里,我們發現這種方法并沒有像預期的那樣利用深度,并表明天真地改進深度估計并不能提高目標檢測性能,而且令人驚訝的是,完全消除深度估計并不會降低目標檢測性能。
這表明,在相機-激光雷達融合過程中,依賴單目深度可能是一個不必要的架構瓶頸。本文介紹了一種新的融合方法,該方法完全繞過單目深度估計,而是使用簡單的注意力機制在BEV網格中選擇和融合相機和激光雷達的特征。論文表明,提出的模型可以根據激光雷達特征的可用性調整其對相機特征的使用,并且它在nuScenes數據集上比依賴于單目深度估計的基線產生更好的3D檢測性能。
本文介紹了一種新的相機-激光雷達融合方法,稱為“Lift Attented Splat”,該方法完全繞過單目深度估計,而是使用簡單的transformer在BEV中選擇和融合相機和激光雷達特征。證據表明,與基于Monocular深度估計的方法相比,本文的方法顯示出更好的相機利用率,并提高了物體檢測性能。貢獻如下:
- 基于Lift Splat范式的相機-激光雷達融合方法并沒有像預期的那樣利用深度。特別地,我們表明,如果完全去除單目深度預測,它們的性能相當或更好。
- 本文介紹了一種新的相機-激光雷達融合方法,該方法使用簡單的注意力機制融合純BEV中的相機和激光雷達特征。論文證明,與基于Lift Splat范式的模型相比,它可以更好地利用相機,并提高3D檢測性能。
主要結構介紹
Lift Splat深度預測通常較差,通過使用絕對相對誤差(Abs.Rel.)和均方根誤差(RMSE)將其與激光雷達深度圖進行定性和定量比較,來分析BEVFusion預測的深度質量。如圖1所示,深度預測不能準確反映場景的結構,并且與激光雷達深度圖明顯不同,后者表明單目深度沒有如預期的那樣得到利用。論文還進行了研究,改進深度預測并不能提高檢測性能!完全取消深度預測不會影響物體檢測性能。
我們提出了一種相機-激光雷達融合方法,該方法完全繞過單目深度估計,而是使用簡單的transformer在鳥瞰圖中融合相機和激光雷達特征。然而,由于大量的相機和激光雷達特征以及注意力的二次性,transformer架構很難簡單地應用于相機-激光雷達融合問題。在BEV中投影相機特征時,可以使用問題的幾何形狀來大幅限制注意力的范圍,因為相機特征應該只對沿其相應光線的位置有貢獻。我們將這一想法應用于相機-激光雷達融合的情況,并介紹了一種簡單的融合方法,該方法使用相機平面中的柱和激光雷達BEV網格中的極射線之間的交叉注意力!交叉注意力不是預測單目深度,而是在激光雷達特征沿著其光線提供的背景下,學習哪些相機特征是最顯著的。
除了在BEV中投影相機特征外,我們的模型與基于Lift Splat范式的方法具有相似的總體架構,如下圖所示。它由以下模塊組成:相機和激光雷達主干,獨立生成每個模態的特征;投影和融合模塊,將相機特征嵌入BEV并與激光雷達融合;最后是檢測頭。當考慮目標檢測時,模型的最終輸出是場景中目標的屬性,表示為具有位置、維度、方向、速度和分類信息的3D邊界框。
Lift Attented Splat相機激光雷達融合架構如下所示。(左)總體架構:相機和激光雷達主干的特征在傳遞到檢測頭之前融合在一起。(inset)我們的3D投影的幾何結構:“Lift”步驟通過使用雙線性采樣沿z方向提升激光雷達特征,將激光雷達BEV特征嵌入投影地平線?!皊plat”步驟對應于逆變換,因為它使用雙線性采樣將特征從投影的地平線投影回BEV網格,再次沿著z方向!右邊是project模塊的細節部分。
實驗結果
原文鏈接:https://mp.weixin.qq.com/s/D7xgvrp8633S2SeUfCRFXQ