檢測&OCC雙SOTA!Doracamom實現首個LV多模態融合的統一多任務感知算法框架~
寫在前面&筆者的個人理解
自動駕駛技術是現代交通革命的前沿,備受關注。自動駕駛系統通常包括環境感知、軌跡預測和規劃控制等組件,以實現自動駕駛功能。準確的 3D 感知是自動駕駛系統的基礎,主要側重于 3D目標檢測和語義占用預測任務。3D 目標檢測使用 3D 邊界框來定位場景中的前景目標并預測類別和速度等屬性,屬于稀疏場景表示。
相比之下,語義占用使用細粒度體素表示來捕捉場景的幾何和語義特征,這是一種密集場景表示形式。為了完成這些任務,通常使用攝像頭、激光雷達和毫米波雷達等傳感器來收集環境數據作為輸入。在這些傳感器中,LiDAR 采用飛行時間 (TOF) 原理,發射和接收激光束以生成密集點云,提供環境的高精度幾何表示。然而,LiDAR 易受惡劣天氣影響,且成本高昂。相比之下,攝像頭和毫米波雷達更具成本效益,適合大規模部署。攝像頭可以高分辨率捕捉豐富的顏色和紋理信息,但缺乏深度信息,容易受到天氣干擾。
另一方面,毫米波雷達發射電磁波來探測目標距離、多普勒和散射信息,從而能夠抵御天氣條件。4D 成像雷達是傳統毫米波雷達的一項進步,它不僅包含額外的高度信息,而且還提供比傳統 2 + 1D雷達更高分辨率的點云。最近的研究表明,它在各種下游任務中具有相當大的前景。然而,與激光雷達相比,它的點云仍然稀疏且嘈雜。因此,跨模態融合對于有效彌補這些缺點至關重要,強調了整合來自攝像頭和4D雷達的信息的必要性。
近年來,尤其是隨著4D雷達數據集的出現,4D 雷達和攝像機融合研究在感知領域顯示出巨大的潛力。目前,大多數主流融合技術都采用BEV架構,將原始傳感器輸入轉換為 BEV 特征進行融合。對于占用預測任務,大多數研究集中在以視覺為中心或視覺和 LiDAR 融合上,因為占用預測任務需要細粒度的體素表示和語義信息。傳統雷達缺乏高度信息,不適合 3D 占用預測。相比之下,4D 雷達通過訪問高度信息和更高分辨率的點云提供了新的可能性。此外,將3D目標檢測和占用預測作為兩個關鍵感知任務集成在統一的多任務框架內,可以優化計算資源和效率,帶來實質性的效益。
因此,在本文中我們提出了首個將多視角相機和4D雷達點云融合的統一框架Doracamom,同時處理3D目標檢測和語義占用預測任務。在OmniHDScenes、View-of-Delft (VoD) 和 TJ4DRadSet 數據集上進行的大量實驗表明,Doracamom在兩個任務中都取得了最先進的性能,為多模態 3D 感知建立了新的基準。
文章鏈接:https://arxiv.org/abs/2501.15394;
網絡模型結構&技術細節
在詳細介紹了本文提出的算法模型技術細節之前,下圖展示了我們提出的Doracamom算法模型的整體網絡結構,如下圖所示。
整體而言,多視角圖像和 4D 雷達點云被輸入到攝像頭和 4D 雷達編碼器中,分別提取圖像 2D 特征和 4D 雷達 BEV 特征。然后將這些特征傳遞給粗糙體素query生成器,該生成器結合圖像和雷達特征來生成幾何語義感知的粗粒度體素query。體素query編碼器使用交叉視圖注意力通過堆疊的transformer block迭代增強細粒度體素特征。
Camera & 4D Radar Encoders
在特征提取階段,我們采用解耦架構,從兩個輸入模態中獨立提取高維特征。相機編碼器處理多視角圖像,使用共享的ResNet-50 主干網絡和特征金字塔網絡作為Neck結構進行特征提取,從而獲得多尺度特征。為了解決 4D 雷達點云的稀疏性問題并通過消除自車運動效應來獲取其速度,我們實施了結合多幀雷達點云累積和速度補償的預處理流程。該算法使用相應的自車車輛速度來處理每次雷達掃描,并通過雷達到自車的旋轉矩陣將其轉換到雷達坐標系中。為了補償相對徑向速度,根據每個點的方位角和仰角,將速度矢量分解為徑向方向。然后使用旋轉矩陣將補償的速度變換到當前自車坐標系。對于每個點的位置,使用雷達到自車的變換矩陣實現變換。請注意,在累積操作期間會忽略由周圍動態物體的運動引起的點的運動,因為這種運動很少會引入較大的誤差。
4D Radar編碼器處理輸入的點云數據。我們采用RadarPillarNet來編碼輸入的4D毫米波雷達點云數據,進而通過分層特征提取生成偽圖像。編碼后的特征隨后由 SECOND 和SECONDFPN 處理,以生成精細的4D雷達BEV特征。
Coarse Voxel Queries Generator
在雷達特征處理階段,我們首先通過雙線性插值將雷達 BEV 特征轉換為與體素網格對齊,隨后,我們使用 Conv-BN-ReLU進一步優化特征通道。通過應用簡單的unsqueeze操作沿高度維度擴展 2D BEV 特征,我們獲得了雷達 3D 體素特征,可以用數學形式表示為如下的形式
對于圖像特征處理,我們首先根據3D體素query的形狀在自車坐標系內定義 3D 參考點。同時,我們將體素特征初始化為零。然后使用相機的固有矩陣計算從自車坐標系到圖像像素坐標的變換矩陣。
我們將參考點投影到每個圖像平面上,以獲得它們在特征圖上的對應坐標。有效點由兩個標準確定:(x,y)必須位于特征圖邊界內并且z一定是正數。特征采樣過程采用最近鄰插值,并采用“last-update”策略解決重疊的多視圖區域。最終的粗粒度體素查詢是通過元素相加獲得的:
Voxel Queries Encoder
為了增強和細化體素查詢,我們采用基于L層Transformer 的架構進行特征編碼。我們采用可變形注意力進行跨視圖特征聚合,這不僅可以緩解遮擋和歧義問題,還可以通過減少訓練時間來提高效率。在跨視圖注意模塊中,輸入包括體素查詢、相應的 3D 參考點和圖像特征。使用相機參數將 3D 參考點投影到2D 視圖中,并從命中視圖中采樣和加權圖像特征。輸出特征可以表示為如下的形式:
Dual-branch Temporal Encoder
時序信息在感知系統中起著至關重要的作用。現有的相關方法已經證明,利用時序特征可以有效解決遮擋問題,增強場景理解,并提高運動狀態估計的準確性。然而,這些方法僅限于在單個特征空間中進行時間建模,因此很難捕獲全面的時空表示。為了解決這一限制,我們提出了一種新穎的雙分支時序編碼器模塊,該模塊在 BEV 和體素空間中并行處理多模態時間特征,其網絡結構如下圖所示。
具體而言,雷達 BEV 分支擅長捕獲全局幾何特征,而圖像體素分支則專注于保留細粒度的語義信息。這種互補的雙分支設計不僅在特征表達和時序建模方面提供了多樣化的表示能力,而且還實現了計算成本和特征表達能力之間的優化平衡。此外,特征冗余機制顯著增強了感知系統的魯棒性。
在時序特征融合中,一個關鍵挑戰是自車運動和動態物體運動導致的特征錯位。為了解決自車運動引起的特征位移,我們提出了一種基于位姿變換的特征對齊策略,該策略可將歷史特征與當前幀精確對齊。此外,為了進一步減輕動態物體造成的特征錯位問題,我們采用可變形注意來自適應地融合當前幀和歷史幀之間的特征。在體素時序分支當中,我們通過連接對齊的歷史特征并通過簡單的Res3D塊對其進行處理,以實現高效的特征集成過程。
在 BEV 時序分支當中,我們也應用了類似的處理過程。歷史 BEV 特征被concat到一起并通過 Res2D 塊進行處理
Cross-Modal BEV-Voxel Fusion Module
為了有效利用體素和 BEV 空間的時序增強特征,我們提出了一個跨模態 BEV-體素融合模塊,該模塊為下游多任務解碼生成幾何和語義豐富的多模態表示。其整體網絡結構如下圖所示,該模塊通過注意力加權機制自適應地融合異構特征,同時采用輔助任務進一步提高生成特征的質量。
具體來說,該模塊首先通過 3D 反卷積塊對低分辨率體素特征進行上采樣,以獲得高分辨率特征,以便隨后進行融合。對于體素特征增強,首先通過 2D 中的 Conv-BN-ReLU 塊處理雷達 BEV 特征以重塑特征通道,然后進行解壓縮操作,沿高度維度擴展 2D BEV 特征。然后將擴展的特征與體素特征連接起來,并通過卷積塊進行處理以降低通道維度。最后,采用具有注意機制的殘差結構來獲得融合的特征。
實驗結果&評價指標
下表展示了不同方法在 OmniHD-Scenes 測試集上針對 3D 檢測任務的性能比較。與其他基于 4D 雷達、攝像頭或它們融合的方法相比,我們提出的 Doracamom 實現了卓越的整體性能(39.12 mAP 和 46.22 ODS)。具體來說,它比 BEVFusion 好 5.17 mAP 和 3.22 ODS,同時比 RCFusion 好 4.24 mAP 和 4.69 ODS。即使在沒有 DTE 模塊的單幀設置中,我們的模型在 mAP 方面也優于所有其他方法。此外,Doracamom 顯著縮小了與基于 LiDAR 的 PointPillars(46.22 ODS vs. 55.54 ODS)的性能差距,這證明了我們提出的架構的有效性以及低成本傳感器配置在自動駕駛感知系統中的巨大潛力。在 TP 指標方面,我們的方法在 mAOE 和 mAVE 中都取得了最佳性能,分別達到 0.3545 和 0.6151。
下圖所示的可視化結果表明,Doracamom 可以在白天和夜晚場景中提供可靠的性能。它在擁擠和復雜的場景中實現了較高的檢測精度,只有偶爾漏檢遠處被遮擋的物體。
此外,下圖展示了不同方法的 BEV 特征圖。可以觀察到,Doracamom 的特征圖顯示出清晰的物體邊界和高度可區分的特征,并且沒有物體嚴重拉伸或扭曲等重大問題。
下表展示了不同方法在 OmniHDScenes 驗證集上針對占用預測任務的性能比較。與其他方法相比,我們提出的 Doracamom 實現了卓越的整體性能(33.96 SC IoU 和 21.81 mIoU)。當 BEVFormer 使用更大的主干網絡(R101-DCN)和更高分辨率的圖像輸入時,其性能超越了結合攝像頭和 4D 雷達數據的多傳感器融合方法,如 M-CONet。盡管如此,憑借我們精心設計的架構,即使是Doracamom-S 也比BEVFormer-T 的性能高出 +1.72 SC IoU 和 +2.00 mIoU。
此外,下表展示了不同模型在不利條件下的表現,其中 Doracamom算法模型取得了更好的結果,mAP 為 41.86,ODS 為 48.74,持續優于其他方法,并表現出更強的穩健性。
下表展示了不同模型在資源消耗和效率方面的比較。與現有方法相比,我們的 Doracamom 系列模型在性能和效率之間表現出色。在資源消耗方面,Doracamom-S 僅需要 4.71G 內存和 49.63M 參數,比 BEVFusion(約 8G 內存和 57M 參數)和 PanoOcc(5.03G 內存和 51.94M 參數)更輕量。即使包含 2 個幀,Doracamom-2frames 也能保持相對較低的資源使用率(4.72G 內存,52.67M 參數)。在推理效率方面,Doracamom-S 和 Doracamom-2frames 分別達到 4.8FPS 和 4.4FPS,明顯優于 BEVFusion 系列(3.2-3.6FPS)。雖然比 PanoOcc (5.5FPS) 稍慢,但我們的模型表現出了顯著的性能優勢:Doracamom-2frames 在所有評估指標中都實現了最佳性能,大大超越了其他方法。
結論
在本文中,我們提出了 Doracamom算法模型,這是第一個具有多視角相機和 4D 雷達融合的統一多任務感知框架。在 OmniHD-Scenes、VoD 和 TJ4DRadSet 三個數據集上的實驗結果表明,我們的方法在 3D 目標檢測和 3D 語義占用預測任務中都實現了最先進的性能。