成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

稀疏檢測的神!SparseDet:特征聚合玩明白了,爆拉VoxelNeXt!

人工智能 智能汽車
今天為大家分享北京交通大學&清華&地平線等最新的工作SparseDet!大幅超越了VoxelNeXt,簡單來說四個字:又快又好。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

基于激光雷達的稀疏3D目標檢測因其計算效率優勢在自動駕駛應用中起著至關重要的作用?,F有的方法要么使用單個中心體素的特征作為目標代理,要么將前景點的聚合視為目標agent。然而,前者缺乏聚合上下文信息的能力,導致目標代理中的信息表達不足。后者依賴于多級流水線和輔助任務,降低了推理速度。為了在充分聚合上下文信息的同時保持稀疏框架的效率,在這項工作中,我們提出了SparseDet,它將稀疏查詢設計為目標代理。它引入了兩個關鍵模塊,即局部多尺度特征聚合(LMFA)模塊和全局特征聚合(GFA)模塊,旨在充分捕獲上下文信息,從而增強代理表示目標的能力。其中LMFA子模塊通過坐標變換和使用最近鄰關系來捕獲目標級細節和局部上下文信息,實現稀疏關鍵體素在不同尺度上的特征融合,GFA子模塊使用self-att來選擇性地聚合整個場景中關鍵體素的特征,以捕獲場景級上下文信息。在nuScenes和KITTI上的實驗證明了我們方法的有效性。具體來說,在nuScene上,SparseDet以13.5 FPS的幀率超越VoxelNeXt 2.2% mAP,在KITTI上,它以17.9 FPS的幀率超越VoxelNelXt 1.12% AP3D。

圖片

為了在稀疏框架中有效地聚合上下文信息的同時實現高效的檢測,在這項研究中,我們提出了一種簡單有效的全稀疏3D目標檢測框架SparseDet。SparseDet使用3D稀疏卷積網絡從點云中提取特征,并將其轉換為2D稀疏特征,以便通過檢測n頭進行進一步預測。如圖2(c)所示,SparseDet將稀疏查詢設計為目標代理,允許靈活和選擇性地聚合點云以獲得場景中的目標代理。與之前的稀疏聚合范式相比,首先,SparseDet將局部上下文信息的聚合擴展到多尺度特征空間,從而獲得更豐富的局部信息。此外,與僅關注聚合前景點特征的現有方法相比,SparseDet可以聚合每個實例的場景級上下文,以促進場景和實例特征之間的潛在協作。最后,SparseDet不需要任何額外的輔助任務。

圖片

相關工作回顧

LiDAR-based Dense Detectors

盡管點云數據與2D圖像數據相比表現出不同的稀疏特性,但3D目標檢測器通常是通過參考2D檢測器來設計的。大多數工作都使用了2D dense檢測頭來解決3D檢測問題。這些方法通常被稱為基于激光雷達的dense detectors。

作為先驅,VoxelNet將點云劃分為規則網格,并使用3D骨干網絡進行特征提取。然后,它應用dense head進行預測。基于VoxelNet,SECOND實現了稀疏卷積和子流形卷積算子的高效計算,通過構建哈希表來獲得快速的推理速度。然而,SECOND仍然需要dense的鳥瞰圖(BEV)特征圖和dense的檢測頭進行檢測。在SECOND的影響下,大多數后續網絡都遵循利用3D稀疏骨干與2D dense檢測頭相結合的范式。

盡管基于激光雷達的dense detectors在多個基準數據集上表現出了出色的性能,但它們對dense的鳥瞰圖(BEV)特征圖和dense的探測頭的依賴使其難以擴展到long-range檢測。這是因為dense BEV特征圖的計算成本隨著檢測距離的增加呈二次方增長。這一缺點嚴重限制了基于激光雷達的dense detectors在現實世界場景中的實際應用。

LiDAR-based Sparse Detectors

目前,稀疏檢測器包括基于點的方法和基于部分體素的方法?;邳c的方法使用點云中的關鍵點進行特征聚合和檢測。這些方法不需要在整個空間內進行dense的采樣和計算,使其具有固有的稀疏檢測器。FSD和FSDV2是這一系列方法的代表。FSD通過對分割的前景點進行聚類來表示單個目標。然后,它將PointNet提取的特征輸入檢測頭進行校準和預測。在FSDv2中,實例聚類步驟被虛擬體素化模塊所取代,該模塊旨在消除手動構建的實例級表示所引入的固有偏差。盡管充分聚合了前景信息,但對額外輔助任務和眾多超參數的依賴導致推理速度差。

在基于體素的稀疏方法中,VoxelNeXt引入了額外的下采樣層,將體素放置在目標中心附近,隨后對關鍵體素進行特征擴散,將特征傳播到目標中心。SAFDNet通過提出自適應特征擴散策略來解決缺失中心特征的問題。盡管SAFDNet和VoxelNeXt取得了令人印象深刻的效率,但它們僅依賴單中心體素特征進行檢測,這大大削弱了目標代理的信息表示能力,最終導致模型性能下降。如前所述,僅將中心體素特征視為目標代理會導致圖2(a)所示的同一實例中的一些點云信息丟失。在這項工作中,我們使用稀疏查詢和注意力機制通過LMFA和GFA模塊獲取目標代理,從而能夠動態捕獲不同粒度的上下文信息。這促進了場景級和實例級特征之間的協作,從而使模型能夠獲得更豐富、更準確的目標表示。

SPARSEDET詳解

圖片

在本節中,我們提出了一種簡單高效的基于激光雷達的稀疏檢測框架SparseDet。圖3展示了其結構,該結構遵循完全稀疏網絡VoxelNeXt的流水線。但不同的是,為了充分聚合點云中的上下文信息以增強稀疏目標代理的信息表達能力,我們設計了兩個子模塊,LMFA(局部多尺度特征聚合)模塊和GFA(全局特征聚合)模型。這兩個模塊旨在自適應地聚合點云上的多級上下文信息,并使SparseDet能夠強烈增強目標代理的信息表示能力,從而以較低的計算成本提高3D檢測的性能。

Local Multi-scale Feature Aggregation

大多數基于激光雷達的稀疏檢測方法利用中心體素特征作為檢測的目標代理。雖然使用中心特征作為目標代理可以提供準確的位置信息,但單個中心體素特征不足以完全捕獲目標的全部信息。這嚴重削弱了目標代理的表達能力。因此,我們提出了LMFA模塊來彌補這些缺點。在LMFA模塊中,我們專注于學習目標周圍的局部上下文信息,這有助于理解目標目標的形狀、大小和相對位置等細節。如圖4所示,我們通過K個最近鄰(KNN)位置關系動態聚合關鍵體素的鄰域信息,以增強其特征表示能力。然后,聚合的關鍵體素特征將用于初始化稀疏目標查詢。值得注意的是,考慮到3D目標尺度的分布差異,我們將LMFA擴展到多尺度空間。因此,LMFA主要由兩個步驟組成,稀疏關鍵體素選擇和不同尺度體素特征的融合。

圖片

1)稀疏關鍵體素選擇:首先,我們將點云體素化,并將其輸入到3D稀疏卷積骨干網絡中。參考VoxelNeXt,我們在3D稀疏骨干網絡中添加了兩個額外的下采樣層。這一步有兩個關鍵目的。首先,它通過額外的下采樣過程構建多尺度特征空間,以促進LMFA模塊中的后續特征聚合。其次,通過額外的采樣和高度壓縮操作,我們可以將體素特征放置在空白的目標中心,以更準確地構建鄰域關系。通過上述操作,原始稀疏3D卷積骨干從{Fs1、Fs2、Fs3、Fs4}轉換為{Fs1,Fs2,Fs3,Fs4,Fs5{Fs6},特征步長為{1,2,4,8,16,32}。然后,我們將Fs5和Fs6變換到Fs4的特征空間,并將Fs4、Fs5和Fs 6連接在一起以獲得FF融合。然后,我們對FFusion、Fs4、Fs5和Fs6進行高壓縮,以獲得。具體來說,遵循VoxelNeXt,我們替換地平面上的所有體素特征,并在相同的位置對其進行求和。

為了選擇關鍵體素,我們使用heatmap操作,該操作基于稀疏體素特征F2D預測Cls類的體素得分Score。我們將最靠近目標中心的體素指定為陽性樣本,并使用Focal Loss進行監督。這意味著得分較高的體素屬于前景的概率較高。隨后,我們將top-分數操作應用于,以獲得Nkey稀疏體素候選。這里,被設置為默認值500。

2)不同尺度體素特征的融合:在本節中,我們構建了一個K近鄰圖,以獲取不同尺度下稀疏候選體素的鄰域信息,從而獲得更全面的局部上下文,解決了稀疏特征信息表示能力不足的問題。

在稀疏關鍵體素選擇之后,我們得到了稀疏體素的特征,記為。相應的坐標位置索引被定義為Ikey,形狀為(,2),表示2D位置索引。我們首先將體素在S4尺度上的位置坐標(表示為Is4)分別除以2和4,將其轉換為{S5,S6}的低分辨率體素空間。然后,我們將相應的空間坐標索引保存為Is5、Is6。給定Nkey稀疏體素在不同尺度空間中的位置坐標信息,我們的目標是為每個關鍵體素找到K個最近的體素。的值隨著縮放空間的變化而減半,這可以使用以下公式確定。

圖片

為了提高LMFA的效率,我們采用KD樹算法來獲得特定尺度Si下每個關鍵體素的鄰居的索引。環視的鄰域體素具有特征。然后,利用MLP來聚合相鄰體素特征的特征,這是通過以下公式實現:

圖片

給定稀疏體素的編碼多尺度特征,一種樸素的融合方法是將多尺度特征連接起來形成一個特征。然而,我們觀察到,一些目標檢測更多地依賴于來自特定尺度的信息,而不是來自所有尺度的信息。例如,低分辨率特征映射了關于小目標的漆信息。因此,與小目標相關的關鍵體素應該更有效地僅從高分辨率特征圖中收集信息。

我們建議使用可學習的比例權重來自動選擇每個關鍵體素Fkey的比例,如下所示

圖片

通過這種比例選擇機制,與每個關鍵體素最相關的比例被柔和地選擇,而來自其他比例的視覺特征被抑制。然后,我們根據Fkey的位置索引將Fkey放入中,得到增強的。我們的自適應融合的整個過程如圖5所示。

圖片

Global Feature Aggregation

LMFA模塊旨在通過使用最近鄰位置關系動態聚合關鍵體素的鄰域信息來學習目標周圍的局部上下文信息。

盡管鄰域體素特征的融合增強了前景稀疏體素特征表達能力,但LMFA模塊在處理稀疏檢測場景時仍然存在局限性。1)對于大目標,使用單個聚合稀疏體素作為目標檢測的代理仍然會丟失信息,因為目標代理應該包含整個目標的信息,而不僅僅是局部區域的信息。2)LMFA忽略了整個場景和實例特征之間的潛在協作。例如,場景中的假陰性目標可以通過與共享相似語義信息的實例交互來增強其特征,從而得到潛在的糾正。因此,我們提出了GFA(全局特征聚合)模塊,通過學習整個場景的全局結構和語義信息,進一步解決了LMFA模塊的局限性。這使得SparseDet能夠以局部和全局的方式利用目標的上下文信息來消除歧義,從而提高檢測精度。

圖片

實驗

圖片圖片

1)LMFA和GFA模塊的影響:本節討論了在基線detectorsVoxelNeXt上進行的消融實驗的結果,以評估SparseDet中每個組件的性能。表VI和表VII分別報告了KITTI和nuScenes 14子集的結果。表VI顯示了KITTI上AP3D和APBEV的初始AP評分,分別為78.44%和87.10%。如表六所示,LMFA和GFA模塊顯著提高了硬級KITTI任務的性能,AP3D和APBEV分別提高了4.27%和3.35%。所有的改進都沒有顯著增加模型的參數或降低推理速度。

如表七所示,當使用LMFA模塊時,SparseDet實現了出色的性能提升,這表明有效地聚合上下文信息可以更好地增強稀疏特征的表示能力,從而提高稀疏3D目標檢測器的性能。這促進了場景和實例特征之間的協作,從而產生了更豐富、更準確的目標表示。當LMFA和GFA結合時,這種增強效果進一步增強,導致mAP改善2.4%,NDS改善1.3%??傊?,我們的消融實驗表明,SparseDet在具有挑戰性的數據集上有效地提高了基線的性能。研究結果強調了上下文信息聚合在稀疏檢測框架中的重要性,并為設計有效的聚合策略提供了寶貴的見解。

圖片

2)M數量的影響:選擇相鄰體素特征,以增強關鍵位置的特征表示,是LMFA模塊的關鍵組成部分。在本節中,我們將討論相鄰體素數量M的選擇及其相應的有效性。因此,我們為超參數M(相鄰體素的數量)配置了不同的值,包括4、8、16和32。如表八所示,M值的變化對模型的性能沒有顯著影響。值得注意的是,當M設置為8時,我們的SparseDet模型達到了最高的mAP,而將M設置為16則可獲得最佳的NDS性能??紤]到整體模型性能、推理時間、訓練記憶和模型參數,我們最終將M設置為8作為默認值。

3)Nkey數量的影響:如表IX所示,我們對nuScenes驗證數據集中LMFA模塊內關鍵體素Nkey的數量進行了消融研究。我們在500、1000、1500和2000之間配置超參數Nkey的值。綜上所述,隨著Nkey值的增加,SparseDet的性能相應有不同程度的提高。從表中可以看出,模型的性能對Nkey的變化沒有表現出很強的敏感性。雖然簡單地增加Nkey的值可以提高模型的性能,但這是以降低推理速度為代價的。在權衡了模型的準確性和推理延遲后,我們最終選擇500作為Nkey的默認值。

圖片

4)數量的影響:如表X所示,我們對nuScenes驗證集GFA模塊中的超參數NK,V進行了消融研究。我們在6000、8000、10000和12000之間配置超參數的值。值得注意的是,當的值設置為12000時,SparseDet的mAP和NDS得分最高,但推理速度最低。在權衡了模型的準確性和推理延遲后,我們最終將NK,V設置為10000作為默認值。

5)模型在不同距離下的性能:與dense檢測器相比,稀疏檢測器的一個關鍵優勢是它們能夠擴展模型的遠程檢測能力,而不會顯著增加推理延遲。因此,對遠距離目標的穩定檢測是評估稀疏檢測器性能的關鍵指標。為了更好地了解我們的SparseDet在長距離下的卓越性能,我們在表XI和表XII中提供了不同距離范圍的性能指標。具體來說,與VoxelNeXt相比,我們的指標顯示出更顯著的改善,特別是在20-40m和40m-inf的距離范圍內。例如,在KITTI 40m-inf下的3D檢測中,我們的SparseDet將AP3D提高了9.28%。在40m-inf的BEV檢測中,我們的SparseDet將APBEV提高了9.40%。在nuScenes數據集上,在40m-inf的檢測中,我們的SparseDet在mAP和NDS上分別提高了4.1%和3.6%。這些結果清楚地反映了我們的SparseDet模型在遠程檢測方面的優勢。

圖片

在圖6中,與VoxelNeXt相比,我們以KITTI中汽車類0-70.4m的檢測范圍為例,說明了我們的SparseDet在遠程/遠距離目標檢測方面的優越性。根據該圖,我們的SparseDet有一個假陽性結果,但沒有遺漏實例。其中,VoxelNeXt存在遠距離目標丟失的問題。這可以歸因于Our SparseDet充分利用了點云中的多尺度上下文語義信息,這對于稀疏點云中的遠程目標至關重要,因為這些目標通常因缺乏信息而較弱??傮w而言,我們的方法在遠程目標檢測的精度方面有了顯著提高。

圖片

結論

在這項工作中,我們提出了SparseDet,這是一個簡單有效的全稀疏3D目標檢測框架。具體來說,基于VoxelNeXt,我們設計了一個高效的稀疏檢測框架,更合理地使用實例級和場景級點云上下文信息。這顯著增強了目標代理的表達能力,從而大大提高了稀疏檢測器的檢測性能。綜合實驗結果表明,與KITTI和nuScenes數據集上的基線相比,SparseDet顯著提高了性能。我們希望我們的工作能夠為自動駕駛的稀疏檢測器提供新的見解。

目前,稀疏3D檢測器的研究工作還不足以滿足多模態3D檢測等其他方向的需求。這使得3D稀疏框架的比較方法受到限制。然而,對于現實世界的應用程序,模型的延遲非常重要。因此,對全稀疏快速detectors的研究需要更多的關注和重點。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-02-26 18:46:35

機器學習數據集算法

2022-04-28 13:58:41

Redis6客戶端服務端

2011-08-31 14:41:37

憤怒的小鳥小游戲android游戲

2021-07-26 05:00:16

算法DfsBfs

2013-06-09 13:24:00

程序員Bug

2023-02-07 14:10:19

目標檢測

2020-11-12 07:49:18

MySQL

2015-08-31 15:08:08

智慧教育展

2022-12-31 08:17:02

2024-05-17 09:30:29

2014-06-11 09:35:14

應用匯

2022-03-27 20:32:28

Knative容器事件模型

2021-06-13 12:03:46

SaaS軟件即服務

2021-10-09 00:02:04

DevOps敏捷開發

2019-12-31 09:37:28

物聯網物聯網安全IoT

2021-09-26 15:58:05

MySQL SQL 語句數據庫

2022-05-01 22:09:27

數據模型大數據

2021-09-14 18:27:08

Spark

2025-03-31 07:30:00

圖像生成AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美成人a | 正在播放国产精品 | 久久久av | 九色在线视频 | 亚洲乱码一区二区三区在线观看 | 精品毛片| 日韩精品在线免费观看视频 | 国产伦精品一区二区三区照片91 | 久久一日本道色综合久久 | 日韩二区三区 | 国精久久 | 午夜精品影院 | 亚洲福利在线观看 | 亚洲 精品 综合 精品 自拍 | 日操夜操 | 高清人人天天夜夜曰狠狠狠狠 | 好好的日在线视频 | 国产91在线精品 | 久久久久久国产 | 日本黄色一级视频 | 午夜爽爽爽男女免费观看 | 国产精品毛片久久久久久久 | 97超级碰碰 | 国产黄色麻豆视频 | 国产精品自产拍在线观看蜜 | 欧美激情精品久久久久久变态 | 色爱区综合 | 亚洲一区二区三区高清 | 国产在线精品一区二区 | 中文字幕精品一区二区三区精品 | 欧美日韩综合视频 | 中国三级黄色录像 | 91精品国产91久久久久久不卞 | 欧美精品久久久 | 国产精品一区二区无线 | 中文字幕在线一区二区三区 | 欧美激情亚洲天堂 | 美女福利视频 | 亚洲精品久久嫩草网站秘色 | 日韩在线视频一区二区三区 | 黄色av免费网站 |