GSD-Occ:實時Occ最新開源,速度比SOTA快3倍,mIoU提高1.9!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
01 問題引入
占用預測在自動駕駛中至關重要,因為它提供了精細的幾何感知和通用的對象識別能力。這些能力使得自動駕駛系統能夠準確地感知和理解周圍環境,從而進行安全有效的路徑規劃和決策。然而,現有的方法通常計算成本高,難以滿足自動駕駛對實時性和效率的嚴格要求。為了應對這一挑戰,作者首先評估了大多數公開可用方法的速度和內存使用情況,旨在將關注點從單純追求準確性轉移到提高計算效率和資源利用率方面。
▲圖1|Occ3D-nuScenes基準測試中各占用預測方法的推理速度(FPS)和準確率(mIoU)??【深藍AI】編譯
02 方案提出
實現快速且準確性能的關鍵在于幾何和語義之間的強耦合,為此,作者提出了一種具有混合BEV-體素表示的幾何-語義雙分支網絡(GSDBN)。在BEV分支中,引入了一個BEV級別的時序融合模塊和一個U-Net編碼器以提取密集的語義特征。在體素分支中,提出了一種大核重新參數化的3D卷積,以細化稀疏的3D幾何并減少計算。此外,作者提出了一種新的BEV-體素提升模塊,將BEV特征投射到體素空間,以實現兩個分支的特征融合。
此外,作者還提出了一種幾何-語義解耦學習(GSDL)策略。該策略首先使用準確的幾何真值深度來學習語義,然后逐步混合預測深度以使模型適應預測的幾何。實驗表明,本方法在Occ3D-nuScenes基準測試中表現出色,以39.4 mIoU和20.0 FPS的成績超過了CVPR2023 3D占用預測挑戰賽的冠軍FB-OCC,速度提高了約3倍,mIoU提高了1.9。
▲圖2|幾何語義耦合問題示意圖:(a) 不準確的深度預測會導致2D到3D特征投影的錯誤,需要后續網絡進行細化和糾正;(b) 展示了預測深度和真實深度之間的性能差距,展現了解決該問題的重要性??【深藍AI】編譯
03 方案詳析
■3.1 問題表述
給定傳感器數據(例如相機圖像、點云等)和目標場景的歷史信息,我們的目標是生成高質量的3D占用圖。這些占用圖可以用于多種應用,例如自動駕駛、機器人路徑規劃等。
▲圖3|GSD-Occ的整體架構概覽??【深藍AI】編譯
■3.2 整體框架
幾何-語義解耦占用預測器(GSD-Occ)的流程圖如圖3所示。該方法包括以下幾個主要部分:
●圖像編碼器:用于提取圖像特征。具體來說,給定T時刻的一組環視相機圖像,本文采用預訓練的主干網絡(如ResNet-50)來提取圖像特征,并使用FPN進一步處理。
●2D到3D視圖轉換:該模塊將2D圖像特征轉換為體素表示。由于實時模型的學習能力有限,本文采用了一個顯式視圖轉換模塊,并通過深度監督進行訓練。具體過程是,首先將圖像特征輸入到深度網絡(DepthNet),生成預測的深度分布。然后,利用外積操作將圖像特征和深度分布結合,得到偽點云特征。最后,通過體素池化操作獲得體素特征,并進行2倍下采樣以減少計算復雜度。
●幾何-語義雙分支網絡(見3.3):該網絡通過幾何分支和語義分支高效地保持幾何完整性并提取豐富的語義信息。
●幾何-語義解耦學習策略(見3.4):該策略進一步增強了幾何細化和語義學習的能力。
■3.3 幾何-語義雙分支網絡
為了實現實時的3D占用預測,作者提出了一種幾何-語義雙分支網絡(GSDBN)。該網絡結合了鳥瞰圖(BEV)表示和體素表示,既保證了計算效率又保持了幾何完整性。GSDBN包含兩個主要分支:語義BEV分支和幾何體素分支。
◆語義BEV分支
語義BEV分支旨在從傳感器數據中提取語義信息,并將其映射到鳥瞰圖表示中。這一過程包含以下步驟:
●特征提?。菏褂肦esNet-50作為特征提取器,從輸入圖像中提取高層次特征。
●特征轉換:將提取的特征映射到鳥瞰圖表示中,生成語義鳥瞰圖。
◆幾何體素分支
幾何體素分支專注于從傳感器數據中提取幾何信息,并將其表示為體素。這一過程包括以下步驟:
●體素化:將傳感器數據轉換為體素表示。
●幾何編碼:使用大卷積核的3D卷積對體素進行編碼,捕獲細粒度的幾何信息。
▲圖4|3D幾何編碼器中大核3D卷積重參數化技術示意圖:該技術使用并行的空洞小核3D卷積來增強非空洞大核3D卷積,圖中示例的卷積核大小為 [11, 11, 1]??【深藍AI】編譯
■3.4 幾何-語義解耦學習
為了進一步提高模型性能,作者提出了一種幾何-語義解耦學習策略。該策略將幾何校正和語義知識的學習過程分離開來,采用了一種簡單而有效的學習方法,使得模型在不同的預訓練模型和方法上都能保持一致的準確性提升。
具體來說,在訓練初期將真實深度引入LSS,使模型能夠在準確的真實幾何信息下專注于學習語義信息。隨后,在訓練過程中,逐漸將真實深度與預測深度混合,以適應模型對預測幾何的學習?;旌仙疃韧ㄟ^算術平均得到,使用一個因子α控制真實深度和預測深度的比例。
隨著訓練的進行,α的值逐漸增加,使模型在訓練結束時能夠很好地細化預測的幾何信息,并在推理時不再需要真實深度。通過這種逐步過渡的方法,模型既能利用真實幾何信息進行語義學習,又能在推理階段自適應地處理預測幾何信息,從而提高整體的穩定性和準確性。
04 實驗結果
▲圖5|FB-OCC和本文方法的定性結果比較:結果表明,本文的方法能夠構建更詳細的幾何結構(第1行和第2行)、更準確的語義(第3行)以及在夜間更強的適應性(第4行)??【深藍AI】編譯
▲圖6|GSDL陡度的消融研究??【深藍AI】編譯
▲表1|Occ3D-nuScenes數據集上的3D占用預測性能比較??【深藍AI】編譯
▲表2|Occ3D-nuScenes數據集上的3D占用預測性能比較,使用RayIoU指標??【深藍AI】編譯
▲表3|GSDBN各組件的消融研究結果??【深藍AI】編譯
▲表4|GSDL在不同預訓練模型和方法上的有效性分析??【深藍AI】編譯
▲表5|BVL模塊的有效性分析??【深藍AI】編譯
▲表6|時間融合中不同歷史幀數量的影響分析??【深藍AI】編譯
▲表7|3D編碼器中不同卷積核大小的影響分析??【深藍AI】編譯
05 總結
本研究提出的幾何-語義解耦占用預測器(GSD-Occ)結合鳥瞰圖(BEV)和體素表示,通過幾何-語義雙分支網絡(GSDBN)和幾何-語義解耦學習(GSDL)策略,實現了高效和準確的實時3D占用預測。實驗結果表明,GSD-Occ在保持高質量占用預測的同時,滿足自動駕駛對實時性的要求。
未來的研究將進一步優化GSD-Occ,通過設計更高效的網絡結構以減少計算復雜度,融合激光雷達等多傳感器數據以增強預測的準確性和魯棒性,引入自適應學習機制以提高模型的泛化能力等方式。此外,還需要加強在實際道路和復雜交通環境中的測試,以驗證模型的可靠性和安全性。