SupFusion:探索如何有效監督Lidar-Camera融合的3D檢測網絡?
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
基于激光雷達相機融合的3D檢測是自動駕駛的一項關鍵任務。近年來,與單模態檢測器相比,許多激光雷達相機融合方法涌現,并取得了良好的性能,但始終缺乏精心設計和有效監督的融合過程。
本文提出了一種稱為SupFusion的新訓練策略,該策略為激光雷達相機融合提供了輔助特征級監督,并顯著提高了檢測性能。方法主要包括一種名為Polar Sampling的數據增強方法,該方法加密稀疏目標并訓練輔助模型以生成高質量特征作為監督。這些特征隨后被用于訓練激光雷達相機融合模型,其中融合特征被優化以模擬生成高質量特征。此外,還提出了一種簡單而有效的深度融合模塊,與以前使用SupFusion策略的融合方法相比,該模塊連續獲得了優越的性能。通過這種方式,本文的方法具有以下優點:首先,SupFusion引入了輔助特征級監督,可以在不引入額外推理成本的情況下提高激光雷達相機的檢測性能。其次,所提出的深度融合可以不斷提高檢測器的能力。提出的SupFusion和深度融合模塊是即插即用的,論文進行了大量實驗來證明其有效性。在基于多個激光雷達相機3D檢測的KITTI基準上獲得了約2%的3D mAP改進!
圖1:頂部,以前的激光雷達相機3D檢測模型,融合模塊是通過檢測loss進行優化的。底部:本文提出的SupFusion,通過輔助模型提供的高質量特征引入輔助監督。
基于激光雷達相機融合的3D檢測是自動駕駛和機器人技術的一項關鍵且具有挑戰性的任務,先前的方法總是通過內參和外參將相機輸入投影到激光雷達BEV或體素空間,以對齊激光雷達和相機特征。然后,采用簡單的級聯或求和來獲得用于最終檢測的融合特征。此外,一些基于深度學習的融合方法獲得了有希望的性能。然而,以往的融合方法總是通過檢測損失直接優化3D/2D特征提取和融合模塊,這在特征層面缺乏精心設計和有效的監督,限制了其性能。
近年來,蒸餾方式在用于3D檢測的特征級監督方面顯示出很大的改進。一些方法提供了激光雷達特征,以指導2D主干根據相機輸入估計深度信息。此外,一些方法提供了激光雷達相機融合功能,以監督激光雷達主干從激光雷達輸入中學習全局和上下文表示。通過模擬更穩健和高質量的特征引入特征級輔助監督,檢測器可以促進邊際改進。受此啟發,處理激光雷達相機特征融合的自然解決方案是提供更強、高質量的特征,并為激光雷達相機3D檢測引入輔助監督!
為此,本文提出了一種名為SupFusion的監督式激光雷達相機融合方法,以生成高質量的特征,并為融合和特征提取過程提供有效的監督,進一步提高基于激光雷達相機的融合3D檢測性能。首先訓練一個輔助模型來提供高質量的功能。為了實現這一點,與以前利用較大模型或額外數據的方法不同,本文提出了一種新的數據增強方法,稱為Polar Sampling。Polar Sampling可以從稀疏的激光雷達數據中動態增強目標的密度,這更容易檢測并提高特征質量,例如,特征可以得出準確的檢測結果。然后,簡單地訓練基于激光雷達相機融合的檢測器,并引入輔助特征級監督。在這一步中,將原始激光雷達和相機輸入輸入到3D/2D主干和融合模塊中,以獲得融合特征。一方面,融合特征被饋送到檢測頭中用于最終預測,這是決策級監督。另一方面,輔助監督將融合特征模擬為高質量特征,這些特征是通過預訓練的輔助模型和增強的激光雷達數據獲得的。通過這種方式,所提出的特征級監督可以使融合模塊生成更穩健的特征,并進一步提高檢測性能。為了更好地融合激光雷達和相機的特征,本文提出了一種簡單而有效的深度融合模塊,該模塊由堆疊的MLP塊和動態融合塊組成。SupFusion可以充分挖掘深度融合模塊的能力,并不斷提高探測精度!
本文的主要貢獻:
- 提出了一種新的監督融合訓練策略SupFusion,該策略主要由高質量的特征生成過程組成,并首次提出了用于魯棒融合特征提取和精確3D檢測的輔助特征級監督損失。
- 為了在SupFusion中獲得高質量的特征,提出了一種名為“Polar Sampling”的數據增強方法來加密稀疏目標。此外,還提出了一種有效的深度融合模塊,以連續提高檢測精度。
- 基于具有不同融合策略的多個檢測器進行了廣泛的實驗,并在KITTI基準上獲得了約2%的mAP改進。
提出的方法
高質量的特征生成過程如下圖所示,對于任何給定的LiDAR樣本,通過polar pasting粘貼來加密稀疏目標,極軸polar pasting計算方向和旋轉以從數據庫中查詢密集目標,并通過pasting為稀疏目標添加額外的點。本文首先通過增強的數據訓練輔助模型,并將增強的激光雷達數據饋送到輔助模型中,以在其收斂后生成高質量特征f*。
高質量的特征生成
為了在SupFusion中提供特征級監督,采用了一個輔助模型來從增強的數據中捕獲高質量的特征,如圖3所示。首先,訓練一個輔助模型來提供高質量的特征。對于D中的任何樣本,通過polar pasting來增強稀疏的激光雷達數據,以獲得增強的數據,該極性粘貼通過極性分組中生成的添加點集來加密備用目標。然后,在輔助模型收斂之后,將增強的樣本輸入到優化的輔助模型中,以捕獲高質量特征,用于訓練激光雷達相機3D檢測模型。為了更好地應用于給定的激光雷達相機檢測器并更容易實現,這里簡單地采用激光雷達分支探測器作為輔助模型!
檢測器訓練
對于任何給定的激光雷達相機檢測器,在特征級別使用所提出的輔助監督來訓練模型。給定樣本,的情況下,首先將激光雷達和相機輸入到3D和2D編碼器和中,以捕獲相應的特征和,這些特征被輸入到融合模型中以生成融合特征,并流到檢測頭中進行最終預測。此外,采用所提出的輔助監督來模擬具有高質量特征的融合特征,該特征是由預先訓練的輔助模型和增強的激光雷達數據生成的。上述過程可以公式化為:
Polar Sampling
為了在提出的SupFusion中通過輔助模型提供高質量的特征,本文提出了一種新的數據增強方法,稱為Polar Sampling,以緩解經常導致檢測失敗的稀疏問題。為此,用類似的密集目標對激光雷達數據中的稀疏目標進行了密集處理。極坐標采樣由兩部分組成,包括極坐標分組和polar pasting。在極性分組中,主要建立一個數據庫來存儲密集目標,該數據庫用于polar pasting以使稀疏目標致密化。
考慮到激光雷達傳感器的特性,收集到的點云數據自然存在特定的密度分布,例如,物體在表面上有更多的點朝向激光雷達傳感器,而在相對兩側的點很少。密度分布主要受方向和旋轉的影響,而點的密度主要取決于距離,例如,離激光雷達傳感器更近的物體具有更密集的點。受此啟發,本文的目標是根據稀疏目標的方向和旋轉,將長距離的稀疏目標與短距離的密集目標進行密度化,以保持密度分布。基于場景中心和特定目標為整個場景以及目標建立極坐標系,并將激光雷達傳感器的正方向定義為0度,以測量相應的方向和旋轉。然后,收集具有相似密度分布(例如,具有相似方向和旋轉)的目標,并為極性分組中的每組生成一個密集目標,并在polar pasting中使用它來密集稀疏目標。
Polar Grouping
如圖4所示,這里構建了一個數據庫B,根據極性分組中的方向和旋轉來存儲生成的密集物點集l,在圖4中記為α和β!
首先,搜索整個數據集,通過位置計算所有目標的極角,并在基準中提供旋轉。其次,根據目標的極角將它們分成幾組。手動將方向和旋轉劃分為N組,對于任何目標點集l,都可以根據索引將其放入相應的組中:
Polar Pasting
如圖2所示,利用Polar Pasting來增強稀疏的激光雷達數據,以訓練輔助模型并生成高質量特征。給定LiDAR樣本,,,,包含個目標,對于任何目標,都可以計算與分組過程相同的方向和旋轉,并根據標簽和索引從B查詢密集目標,這可以從E.q.6中獲得增強樣本中的所有目標并獲得增強的數據。
Deep Fusion
為了模擬增強型激光雷達數據生成的高質量特征,融合模型旨在從相機輸入中豐富的顏色和上下文特征中提取稀疏目標的缺失信息。為此,本文提出了深度融合模塊,以利用圖像特征并完成激光雷達演示。所提出的深度融合主要由3D學習器和2D-3D學習器組成。3D學習器是一個簡單的卷積層,用于將3D呈現轉移到2D空間中。然后,連接2D特征和3D呈現(例如,在2D空間中),2D-3D學習器被用來融合LiDAR相機特征。最后,通過MLP和激活函數對融合特征進行了加權,將其添加回原始激光雷達特征作為深度融合模塊的輸出。2D-3D學習器由深度為K的堆疊MLP塊組成,學習利用相機特征來完成稀疏目標的激光雷達表示,以模擬密集激光雷達目標的高質量特征。
實驗對比分析
實驗結果(mAP@R40%)。這里列出了三個類別的簡單、中等(mod.)和困難情況,以及總體性能。這里L、LC、LC*表示相應的激光雷達檢測器、激光雷達相機融合檢測器和本文提案的結果。?表示改進。最佳結果以粗體顯示,預期L?是輔助模型,并在增強驗證集上進行測試。MVXNet是基于mmdetection3d重新進行的。PV-RCNN-LC和Voxel RCNN LC是基于VFF的開源代碼重新進行的。
整體性能。3DmAP@R40基于三個檢測器的比較如表1所示,三個類別和每個難度劃分的總體性能。可以清楚地觀察到,通過引入額外的相機輸入,激光雷達相機方法(LC)優于基于激光雷達的檢測器(L)。通過引入極性采樣,輔助模型(L?)可以在增強的驗證集上獲得令人欽佩的性能(例如超過90%的mAP)。有了高質量特征的輔助監督和提出的深度融合模塊,我們的proposal可以不斷提高檢測精度。例如,與基線(LC)模型相比,我們的proposal可以為中度和hard目標獲得+1.54%和+1.24%的3D mAP改善。此外,還對基于SECOND-LC的nuScenes基準進行了實驗,如表2所示,NDS和mAP分別提高了+2.01%和+1.38%。
class感知改進分析。與基線模型相比,SupFusion和深度融合不僅可以提高整體性能,還可以提高包括Pedestrian在內的每個類別的檢測性能,比較三個類別的平均改善(例如中等情況),可以獲得以下觀察結果:騎自行車的人獲得最大的改善(+2.41%),而行人和汽車分別獲得+1.35%和+0.86%的改善。原因很明顯:(1) 與行人和騎自行車的人相比,汽車更容易被發現,并獲得最佳效果,因此更難改進。(2) 與行人相比,騎自行車的人獲得了更多的改進,因為行人是非網格的,生成的密集目標與騎自行車的相比不那么好,因此獲得的性能改進較低!
原文鏈接:https://mp.weixin.qq.com/s/vWew2p9TrnzK256y-A4UFw