北大王選最新OpenAD！助力自動駕駛邁向開放3D世界

作者：自動駕駛之心 2024-12-04 10:00:00

今天為大家分享北大最新的工作—OpenAD！自動駕駛全面邁向開放3D檢測世界。

寫在前面 & 筆者的個人理解

開放世界自動駕駛包括域泛化和開放詞匯。領域泛化是指自動駕駛系統在不同場景和傳感器參數配置下的能力。開放詞匯是指識別訓練中沒有遇到的各種語義類別的能力。在本文中，我們介紹了OpenAD，這是第一個用于3D目標檢測的現實世界開放世界自動駕駛基準。OpenAD建立在與多模態大型語言模型（MLLM）集成的角案例發現和標注管道之上。所提出的管道以統一的格式為五個具有2000個場景的自動駕駛感知數據集標注corner case目標。此外，我們設計評估方法，評估各種2D和3D開放世界和專業模型。此外，我們提出了一種以視覺為中心的3D開放世界目標檢測基線，并通過融合通用和專用模型進一步引入了一種集成方法，以解決OpenAD基準現有開放世界方法精度較低的問題。

項目鏈接：https://github.com/VDIGPKU/OpenAD

總結來說，本文的主要貢獻如下：

提出了一個開放世界基準，同時評估目標檢測器的領域泛化和開放詞匯表能力。據我們所知，這是3D開放世界物體檢測的第一個現實世界自動駕駛基準。
設計了一個與MLLM集成的標注管道，用于自動識別極端情況場景，并為異常目標提供語義標注。
提出了一種結合二維開放世界模型的三維開放世界感知基線方法。此外，我們分析了開放世界和專業模式的優缺點，并進一步介紹了一種融合方法來利用這兩種優勢。

OpenAD概覽

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

由于現有3D感知數據的規模有限，直接訓練基于視覺的3D開放世界感知模型具有挑戰性。我們利用具有強大泛化能力的現有2D模型來解決這個問題，并為3D開放世界感知提出了一個以視覺為中心的基線。

如圖4所示，最初采用任意現有的二維開放世界目標檢測方法來獲得二維邊界框及其相應的語義標簽。同時，緩存由2D模型的圖像編碼器生成的圖像特征圖。隨后，引入了一個結合了多個特征和一些可訓練參數的2D到3D Bbox轉換器，將2D box轉換為3D box。

具體來說，我們使用現有的深度估計模型，如ZoeDepth、DepthAnything和UniDepth，通過2D框獲得裁剪圖像的深度圖。我們還包括一個可選的分支，該分支利用激光雷達點云和線性擬合函數，通過將點云投影到圖像上來細化深度圖。同時，為了消除2D邊界框內不屬于前景目標的區域，我們利用Segment Anything Model（SAM）以2D框為提示對目標進行分割，從而產生分割掩碼。之后，我們可以使用像素坐標、深度圖和相機參數為分割掩模構建偽點云。我們將偽點云投影到特征圖和深度圖上，并通過插值將特征分配給每個點。然后，我們采用PointNet來提取偽點云的特征fp。同時，2D邊界框內的深度圖和特征圖沿著通道維度連接，其特征fc是通過卷積和全局池化得到的。最后，我們利用MLP來預測具有fp和fc級聯特征的目標的3D邊界框。

在此基線中，2D到3D Bbox Converter中只有少數參數是可訓練的。因此，培訓成本低。此外，在訓練過程中，每個3D目標都充當此基線的數據點，從而可以直接構建多域數據集訓練。

General and Specialized Models Fusion

在實驗中，我們發現現有的開放世界方法或通用模型在處理屬于常見類別的目標方面不如閉集方法或專用模型，但它們表現出更強的領域泛化能力和處理極端情況的能力。也就是說，現有的通用和專用模型是相輔相成的。因此，我們利用它們的優勢，通過結合兩種模型的預測結果，提出了一個融合基線。具體來說，我們將兩種模型的置信度得分對齊，并使用雙閾值（即IoU和語義相似性）執行非最大抑制（NMS），以過濾重復項。

實驗結果

結論

在本文中，我們介紹了OpenAD，這是第一個用于3D目標檢測的開放世界自動駕駛基準。OpenAD建立在與多模態大型語言模型集成的角案例發現和注釋管道之上。該管道以格式對齊五個自動駕駛感知數據集，并為2000個場景注釋角案例目標。此外，我們還設計了評估方法，并分析了現有開放世界感知模型和自動駕駛專業模型的優缺點。此外，為了應對訓練3D開放世界模型的挑戰，我們提出了一種結合2D開放世界模型進行3D開放世界感知的基線方法。此外，我們引入了一種融合基線方法，以利用開放世界模型和專用模型的優勢。

通過對OpenAD進行的評估，我們觀察到現有的開放世界模型在域內上下文中仍然不如專門的模型，但它們表現出更強的域泛化和開放詞匯能力。值得注意的是，某些模型在域內基準測試上的改進是以犧牲其開放世界能力為代價的，而其他模型則不是這樣。這種區別不能僅僅通過測試域內基準來揭示。

我們希望OpenAD可以幫助開發超越專業模型的開放世界感知模型，無論是在同一領域還是跨領域，無論是對于可見還是未知的語義類別。

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛 3D 檢測

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大王選最新OpenAD！助力自動駕駛邁向開放3D世界

寫在前面 & 筆者的個人理解

相關工作回顧

Benchmark for Open-world Object Detection

2D Open-world Object Detection Methods

3D Open-world Object Detection Methods

OpenAD概覽

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

General and Specialized Models Fusion

實驗結果

結論