BEV進入定制化時代!清華Hierarchical BEV:創新多模塊學習框架,無痛落地無縫量產!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
論文思路
自動駕駛指通過傳感器計算設備、信息通信、自動控制和人工智能的集成,將車輛轉變為能夠自我導航的實體。環境感知系統是智能車輛獲取外部信息的通道,它的任務是收集、處理和分析與車輛周圍環境有關的數據,作為自動駕駛的先決條件。感知系統作為智能駕駛技術的關鍵要素,為后續模塊如定位、預測、決策、規劃、控制等提供必要的輸入數據。目前,大多數用于車輛實現的感知算法都是基于深度學習實現的,特別是神經網絡,這些算法在帶有標簽的公共數據集上進行訓練,并部署在一系列視覺感知任務中。為了解決感知算法開發過程中存在開發周期長、可復用性差、傳感器設置復雜等問題,論文提出了一種新的分層BEV感知范式,旨在提供一個基本感知模塊庫和用戶友好的圖形界面,從而能夠快速構建定制模型。
挑戰及主要貢獻
挑戰
- 算法在不同和動態設置中的可泛化性:在一種情況下表現出色的模型可能在另一種情況下表現不佳,這強調了適應性強、效率高的感知系統的必要性;
- 開發智能感知算法的傳統過程受到長周期和缺乏模塊化的阻礙:這導致了組件的低可重用性,復雜的配置,增加了工程工作中的冗余,增加了開發成本;
- 在部署過程中缺乏系統的方法來利用公共功能模塊,使得大規模生產感知系統的優化變得復雜,阻礙了對特定任務需求的有效適應。
主要貢獻
為了應對上述的這些挑戰,論文中引入了一種分層感知方案,設計了一個綜合框架來簡化自動駕駛汽車感知算法的開發。通過將基本算法組件組織到一個功能模塊庫中,所提出的感知方案使汽車工程師能夠以更高的效率構建和定制滿足特定操作需求的感知模型。該方案根據感知模型的功能角色對其進行分類,每個模塊提供網絡結構的選擇,這種設計不僅有利于與各種平臺的計算能力保持一致,而且簡化了對自定義數據集的適應,從而提高了開發效率。這些標準化功能模塊的可復用性大大減少了重復的工作,從而縮短了開發時間。另外,考慮到智能汽車平臺的快速發展和對快速功能更新的需求,該模塊化感知系統具有固有的可擴展性。它允許開發人員輕松地引入新模塊或改進現有模塊,確保系統的發展響應新出現的需求和技術進步。
為了提高開發效率,論文還提出了一種將預訓練與微調相結合的范式。通過利用開源數據集,建立一個性能良好的模型的多樣化存儲庫,這些預訓練模型提供了一個堅實的基礎,使得在微調階段需要更少的訓練數據和更少的迭代。這種方法使用戶能夠適應功能和調整參數以匹配自定義數據集,而后通過遷移學習和領域適應等技術在現實場景中實現最佳性能。具體來說,預訓練方案包括對每個潛在模塊組合進行詳盡的訓練,以確保每個感知模塊被賦予與上游和下游功能對應的兼容權重。一旦建立了感知功能模塊庫,那就在預訓練階段引入了一種新的多模塊學習(MML)范式。MML是針對分層解耦的感知系統設計的,它提高了整體的訓練效率,并且可以同時優化多種模型架構以獲得性能提升。在后續的研究中,MML框架已經證明了其有效性。主要貢獻可以概括如下:
模型架構:自動駕駛感知集成方案
分層感知范式
圖1 分層感知方案概述
論文中提出的分層感知系統的技術細節如圖1所示。其核心創新在于提供了一個模塊化且易于操作的BEV感知算法構建過程視圖,該過程分別通過集成功能模塊組件的預訓練算法和微調算法來實現。如表1所示,在集成車輛-云端-道路架構的背景下,封裝了一套39個通用感知功能模塊來表示概念分類。車輛-云端-道路集成感知系統以單個車輛智能感知為基礎,主要包括車輛之間、車輛與基礎設施之間的協同感知。為了構建數字感知功能模塊庫,采用多模塊集成的知識共享訓練方法。首先,在龐大的公共數據集上預訓練感知功能模塊的各種組合,從而創建模塊化組件的存儲庫。隨后,設計一個用戶友好的圖形化軟件界面,通過直觀的拖放操作來促進模型的構建。這種圖形化軟件可以輕松地組裝感知模型,為訓練、推理和微調提供統一的界面。
表1 車輛-云端-道路集成架構感知功能模塊庫
以視覺為中心的三維物體檢測的原型設計
2)圖像視圖轉換
3)時間特征融合:
圖2 兩種不同的時間特征融合方法
4)檢測頭:
圖3 多模塊學習框架
通過采用軟參數共享的方法,MML提供了一種更加靈活的多模型學習體系結構。在軟參數共享的框架下,每個模型都有自己獨立的結構和一組排他的參數,而不是直接共享很大一部分網絡層。這種設計考慮到不同的任務可能需要學習不同的特征表示,因此,賦予每個模型一定程度的排他性能力有助于提高整體性能。然而,為了實現知識遷移和促進通用表示的學習,軟參數共享并沒有完全隔離每個任務的模型參數。相反,它通過施加一定的約束,促使不同任務的模型參數趨于相似,從而在一定程度上實現參數共享。
算法1 平均模塊組裝策略
實驗
實現細節
比較結果
表2 不同模型配置的詳細信息
表3 對不同的集成模型實現了一致的改進
圖4 不同模塊組件的三維探測器在nuScenes數值集上的對比結果圖5 nuScenes驗證集的可視化比較結果
消融實驗
圖6 消融方法
表4 在nuscenes驗證數據集上與1:9分割的性能比較
表5 在nuscenes驗證數據集上與3:7分割的性能比較
討論
圖7 不同權值合并策略的比較,每個子圖顯示了訓練過程中每個模型的mAP指標
圖8 不同權值合并策略的比較,每個子圖顯示了訓練過程中每個模型的NDS指標
表6 8種模型在nuscenes val數據集上的預訓練對比結果
結論
該論文旨在開發模塊化感知系統架構,支持可重用和可重構組件,為下一代汽車計算智能平臺量身定制。提出的框架提供了豐富靈活的基礎算法構建模塊,允許開發者根據具體需求選擇和組合不同的功能模塊,從而促進定制化智能駕駛感知算法的快速開發。該框架可以不斷擴展功能模塊庫,適應不同的用戶需求,并具有持續學習的能力,從而縮短開發周期。