Mamba與元學習雙管齊下,打造新的語義補全方案!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
寫在前面 && 筆者理解
傳統的自動駕駛框架下,現有感知而后又規控,所以可以說感知在這套框架下扮演著非常基礎性的工作。然而,動態交通參與者的突發性和可變性,加上靜態對象的較大的范圍和距離,給自動駕駛車輛在感知復雜駕駛場景時帶來了不小的挑戰。而在一眾提高感知能力的方法中,場景語義補全(Scene Semantic Completion,SSC) 作為一種同時推理駕駛場景的幾何形狀和語義的技術脫穎而出。如圖1所示,與傳統的依賴于單個目標檢測和跟蹤的感知任務不同,SSC通過填補部分或遮擋傳感器輸入中缺失的信息,提供了對環境更全面的理解。當傳感器如激光雷達或攝像頭被其他車輛或環境元素遮擋時,這種能力尤其關鍵。
不過,收集和標注大規模真實世界數據集是一個昂貴且勞動密集型的過程,而且能夠收集到多樣的真實世界交通情況也是一件比較有挑戰的事情,比如一些像是車輛故障 or 行人碰撞的等長尾場景。所以,越來越多的研究人員愿意轉向高保真的模擬器,如:CARLA等,來生成一些數據,雖然這些合成的數據與真實世界的數據還是存在一些domain gap。
當前的SSC解決方案通常依賴于 3D CNNs 來編碼點云或RGB-D圖像等輸入數據,這些數據包含了豐富的空間信息。然而,3D CNNs在捕獲細粒度場景表示或建模3D塊之間的長序列關系方面有些許挑戰,而這兩者恰恰對于SSC任務至關重要。缺乏時間建模限制了它們跟蹤環境動態變化的能力。
- 論文鏈接:https://arxiv.org/pdf/2411.03672v1
作者這篇工作旨在解決兩個關鍵gap:
- 需要有效利用模擬數據以快速部署在真實世界場景中
- 開發一種新的骨干網絡,能夠捕獲長序列依賴關系和高分辨率空間信息。
所以,相應的,這篇工作的主要貢獻主要總結如下:
- 雙相訓練與元學習 作者采用雙相訓練策略,通過模型無關的元學習(MAML),在源域(由模擬器生成的數據集)上預訓練模型,并在目標域(真實世界數據集)上進行微調。這種方法通過在微調過程中快速學習特定于域的特征,加速了對真實世界環境的適應。通過跨多個域的泛化,MAML減少了過擬合并提高了模型在新情況下的魯棒性。
- 用于長序列建模的新型骨干網絡 作者引入了一種新的骨干架構,該架構集成了Mamba(一種選擇性的狀態空間模型(SSM)),可變形卷積和大核注意(DLKA)。Mamba提供了一種結構化機制,用于隨時間處理序列數據,確保有效地捕獲3D體素網格內的長距離依賴關系。可變形卷積允許模型動態調整接受域,增強了檢測不同尺度物體的能力。同時,D-LKA增強了網絡的注意力機制,專注于場景的關鍵區域,這提高了空間意識和決策能力。
相關工作
3D semantic scene completion for autonomous driving
SSC 任務就是從不完整的傳感器輸入中,推斷大規模戶外環境的幾何形狀和語義。它提供了對駕駛場景的完整理解,并預測缺失的元素,這對于自動駕駛至關重要。
Roldao 等人提出了 LMSCNet,這是一個多尺度網絡,結合了 2D U-Net 主干和 3D 分割頭。這種設計減少了全 3D 卷積的計算負擔,同時保持了競爭性能。同樣,Yan 等人引入了一個多任務學習框架,其中語義分割(SS)和 SSC 被聯合訓練。通過在兩個任務之間共享特征,模型改進了幾何和語義預測。這些方法使用單目 RGB 攝像頭與 LiDAR 相比,可以降低部署成本。然而,在這種像素到點的轉換過程中,可能會在 3D 空間的未占用區域引入虛假特征,降低模型性能。為了解決這些限制,最近的研究集中在改進像素到點的轉換和提煉特征融合技術。一些方法將深度估計納入 RGB 輸入,而其他方法使用注意力機制來選擇性增強相關特征。
Deformable large kernel attention
學習 SSC 任務中不同體素之間相關性的兩種主要方法:
第一種方法使用大核和堆疊多層的 3D 卷積,使模型能夠捕獲 3D 空間中的長距離依賴。然而,隨著層數的增加,計算成本呈指數增長,大量的參數需要更多的內存和訓練時間。這些限制使其在實時應用中不切實際,尤其是在效率至關重要的自動駕駛場景中。
第二種方法使用自注意力機制,有選擇地關注相關特征。自注意力在模擬遠距離體素之間的關系方面提供了靈活性。然而,自注意力傾向于忽視場景的固有 3D 結構,將輸入數據更多地視為展平的序列而不是結構化的空間信息。此外,自注意力不會動態適應通道維度的變化,限制了其在駕駛環境中表示復雜變換的能力。這些限制,加上基于注意力模型的計算開銷,為在資源受限的系統中部署它們提出了挑戰。
為了解決這些問題,研究人員探索了可變形卷積,它引入了額外的偏移量,允許網絡自適應地重新采樣空間特征。這種方法通過關注輸入最相關的區域來增強模型處理幾何變化的能力,在復雜場景中的魯棒性得到了提高。
Mamba on 3D semantic scene completion
Mamba 的精簡架構減少了通常與 Transformer 相關的計算開銷,使其非常適合需要快速推理的應用。它采用了輕量級設計,用更簡單的線性變換替換了多頭自注意力機制,同時仍然捕獲輸入元素之間的基本關系。
Zhu 等人開發了一個基于 Mamba 的通用視覺主干,用于模擬圖像塊之間的關系,展示了 Mamba 在計算機視覺任務中的潛力。通過有效地編碼圖像區域之間的關系,Mamba 為視覺處理中基于 Transformer 的模型提供了實用的替代方案。此外,Mamba 在 3D 建模任務中可能更加有效,其中 3D 塊的序列比 2D 圖像塊長得多,也復雜得多。這一洞見鼓勵研究人員探索將 Mamba 能力擴展到 2D 應用之外的新方法。
方法論
之前的研究表明,在多任務學習框架中結合語義分割(SS)和場景語義補全(SSC)可以提升兩項任務的性能,其中 SS 提供詳細的語義特征,補充 SSC 捕獲的幾何理解,使得兩個模塊都能從共享的特征提取中受益。同時,一些方法通過使用歷史 LiDAR 掃描作為輔助監督來增加語義標簽的密度。盡管這些方法提高了模型捕獲細粒度語義的能力,但依賴歷史掃描增加了計算開銷,使得這些解決方案難以在實時自動駕駛場景中部署。
作者的方法不同,將 SS 作為預訓練任務來學習 SSC 的元知識。預訓練步驟幫助模型更好地泛化于不同域,準備處理真實世界的復雜性,如遮擋和傳感器噪聲。為了進一步增強監督,作者從附近的 CAV 聚合語義信息,提供更密集的標簽,擴展到更大的距離。這種從多輛車聚合的語義信息解決了單個傳感器的局限性,后者通常受到數據稀疏和遮擋的限制。它允許模型更有效地推理不完整的區域,從而獲得更全面的場景理解。
問題表述
雙相訓練策略
基于 MAML,作者提出的方法,MetaSSC的工作流程如圖 3 所示,包括兩個主要階段:元預訓練和適應。這些階段使得 SSC-MDM 模型能夠將知識從模擬環境轉移到真實世界駕駛場景,提高 3D SSC 任務的性能。
元預訓練階段(圖 3-部分 A)旨在通過從模擬數據中學習,為跨不同任務的泛化做準備。源數據集 OPV2V 和 V2XSIM 提供了一系列 V2V 和 V2X 場景,幫助模型為動態環境開發魯棒特征。任務從這些數據集中采樣,每個任務包括一個支持集和一個查詢集。支持集用于內循環中優化任務特定的參數,而查詢集評估模型的泛化性能。
具體元預訓練的過程可以詳見 Algorithm1:
在適應階段(圖 3-部分 B),元訓練的 SSC MDM 模型被適應到目標真實世界數據集,SemanticKITTI。這個階段微調元學習參數,使其與真實世界條件對齊,解決諸如傳感器噪聲、遮擋和環境變異性等挑戰。允許模型以多種分辨率(1:1、1:2、1:4 和 1:8)生成輸出,使其能夠捕獲駕駛環境的細節和大規模特征。
多尺度輸出對于平衡局部精度和全局場景理解至關重要。例如,像行人這樣的小物體在更細的尺度上被檢測,而像道路和建筑物這樣的大物體在更粗的分辨率上被識別。這種分層輸出結構確保了模型即使在具有挑戰性的真實世界場景中也能提供準確和全面的場景補全。
適應階段利用元學習參數作為一個強大的起點,最小化了對廣泛重新訓練的需求。這種高效的遷移學習框架加速了 SSC-MDM 模型在真實世界設置中的部署,確保了高性能和最小的計算開銷。適應階段的過程被作者總結進 Algorithm2中:
D-LKA-M 架構
D-LKA-M 架構如圖 4 所示,源自 D-LKA 網絡,集成了 Mamba 塊,有效地處理 3D 塊的長序列建模。該設計遵循與 LMSCNet 類似的層次結構,類似于 U-Net 架構。層次結構使模型能夠進行多尺度處理,允許模型捕獲來自 3D 場景的細粒度細節和更廣泛的上下文信息。
模型通過一系列 3D 模塊處理輸入數據,不同階段進行下采樣和上采樣操作。每個下采樣層減少空間維度,壓縮輸入同時保留關鍵信息,每個上采樣層重建更高分辨率的輸出。這種結構使其能夠以多種降低的分辨率輸出結果。這在 SSC 任務中特別有用,因為它在多個尺度上提供預測,提高了 SSC 的準確性。
在輸入階段使用 Patch 嵌入模塊將原始 3D 數據劃分為可管理的部分。嵌入在 D-LKA 模塊中的 Mamba 塊增強了網絡對 3D 體素網格長距離依賴關系的建模能力,這對于理解復雜駕駛環境至關重要。這種集成確保了模型在計算效率和準確性之間取得平衡,使其適合實時應用。
可變形卷積
可變形卷積引入了一個偏移場來自適應調整卷積核,這在自動駕駛中特別重要,因為行人、車輛和障礙物等對象通常不符合固定形狀或位置。傳統的固定核卷積難以有效捕獲這種不規則性,限制了模型準確感知復雜駕駛環境的能力。可變形卷積通過動態修改每個輸入位置的感受野來解決這個問題。該機制可以總結如下:
總之,可變形卷積為自動駕駛提供了顯著優勢,通過提高模型對復雜場景的理解能力,這對于構建在真實世界環境中安全可靠的自動駕駛系統至關重要。
大核注意力
總之,LKA 與可變形卷積的集成構成了作者提出模型的主干。這個模塊在使模型在自動駕駛場景中有效執行中起著至關重要的作用,其中局部細節和大規模上下文都是必需的。
Mamba
與 Vision Mamba不同,作者的方法直接處理來自 D-LKA 塊的特征,并與 Mamba 塊一起處理,以增強 3D 體素網格的長序列建模。這種直接集成使作者的模型能夠有效地捕獲來自 D-LKA 的局部特征和通過 Mamba 塊的長距離依賴關系,從而實現更強大的自動駕駛場景理解。這個過程的數學公式表示為:
總而言之,D-LKA 和 Mamba 模塊的集成使模型能夠有效地執行局部和長序列建模,同時還能確保局部細節和全局背景之間的平衡,從而做出準確的決策。
實驗及結論
作者在 SemanticKITTI上進行了實驗,將數據分割為訓練、驗證和測試集,確保與以前研究的一致性。
與Baseline模型的比較
如表 1 所總結。所提出的 SSC-MDM 模型在場景補全的交并比(IoU)中排名第一,在精確度中排名第二。它還在 SSC 的平均交并比(mIoU)中排名第二,表明其在場景補全和語義場景補全任務中的優越性能。
然而,SSC-MDM 的召回率低于 TS3D,這可以歸因于 TS3D 使用額外的 RGB 輸入。這一差異突出了 RGB 輔助性能與像 SSC-MDM 這樣的純 LiDAR 模型之間的權衡。作者的方法在常見類別如道路和建筑中特別出色,超過了其他模型。然而,對于出現頻率較低的類別,其性能相當或略低,這突顯了解決數據集中類別不平衡問題的必要性。
消融分析
該分析旨在通過比較不同的變體架構,隔離和評估所提出模型的關鍵組件的影響。這四個變體模型,稱為 Multi-scaled、D-LKA、Transfer 和 Mamba,描述如下:
- Multi-scaled:LMSCNet 作為作者分析的基礎模型。這是一個輕量級模型,它在多個分辨率上學習特征,利用多尺度連接捕獲細粒度和廣泛的上下文信息。作者從這個模型開始逐步改進,以測試不同組件對最終性能的貢獻。
- D-LKA:在這個變體中,作者用可變形大核注意力網絡替換了 LMSCNet 主干,以增強特征提取。這一修改旨在提高網絡更準確預測復雜 3D 場景的能力。
- Transfer:這個變體采用了前面討論的雙相訓練策略,以提高模型性能并減少訓練時間。通過在源數據集上預訓練并在目標數據集上微調,"Transfer" 利用來自模擬域的知識來增強真實世界性能,確保更快的收斂和改進的泛化能力。
- Mamba:在這個最終變體中,作者將 Mamba 塊集成到 D-LKA 網絡中,以處理 3D 塊的長序列建模。Mamba 的優勢在于其能夠有效地處理序列依賴性,這進一步增強了模型對 3D 空間結構的理解,以實現 SSC。
消融分析的結果總結在表 2 中。隨著作者從 "Multi-scaled" 進展到 "Mamba",所有指標的性能要么提高要么保持一致,引入 DLKA 時召回率的下降除外。D-LKA 階段召回率的下降可以歸因于模型復雜性和泛化能力之間的權衡,因為 DLKA 專注于學習更豐富的特征,但可能需要更多的數據以獲得最佳的召回率。總體而言,結果證實了作者工作中使用的技術對 SSC 通常是有益的,顯示出在各種性能指標上的一致改進。
此外,作者在圖 6 中可視化了四個模型在 SemanticKITTI 驗證數據集上的 mIoU 訓練周期。"Multi-scaled" 和 "D-LKA" 變體直接在目標數據集上訓練,而 "Transfer" 和 "Mamba" 變體在源數據集上預訓練并在目標數據集上微調。值得注意的是,在微調過程中,僅在第一周期微調輸出層以穩定早期訓練。可視化清楚地表明,雙相訓練策略加速了收斂,并在較少的訓練周期內獲得了更好的性能。這突出了轉移預訓練知識并在較小的目標數據集上微調以有效實現理想結果的有效性。
結論
本研究提出了一個基于元學習的框架,用于解決自動駕駛中的場景語義補全(SSC)任務,重點關注從模擬環境到真實世界應用的知識轉移。通過利用從模擬環境中獲取的元知識,框架減少了對大規模真實世界數據的依賴,顯著降低了部署成本并縮短了開發周期。本框架的關鍵創新在于其集成了大核注意力(LKA)機制和 Mamba 塊到主干模型中。這些組件使模型能夠有效地從 3D 體素網格提供的稀疏和不規則數據中提取多尺度、長序列關系。LKA 機制允許模型通過擴大感受野來捕獲局部細節和全局上下文,而不增加計算復雜性。同時,Mamba 塊提高了模型處理 3D 塊序列依賴性的能力,通過捕獲駕駛場景中的時間空間關系來增強 SSC 任務。
總之,元學習、先進的注意力機制和雙相訓練的結合為自動駕駛中的 SSC 提供了一種可擴展且魯棒的解決方案。所提出的框架不僅提高了模型處理復雜和動態駕駛環境的能力,還降低了部署成本。這些結果為 SSC 的未來進步鋪平了道路,并為構建更安全、更可靠的自動駕駛系統提供了寶貴的見解。