成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Mamba再下一城,殺入Occupancy!更快更強的MambaOcc來了(中科院&美團)

人工智能 新聞
今天為大家分享中科院&美團最新的占用網(wǎng)絡(luò)工作—MambaOcc!基于Mamba框架的新型占用率預測方法!

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

寫在前面&筆者的個人理解

在自動駕駛系統(tǒng)當中,感知作為自動駕駛車輛檢測周圍靜態(tài)和動態(tài)障礙物的重要途徑,其準確性和穩(wěn)定性的重要程度不言而喻。然而,當自動駕駛汽車在開放場景中行駛時,準確和穩(wěn)定的感知模塊變得尤其具有挑戰(zhàn)性,因為它們必須檢測看不見的或不規(guī)則的物體。

最近,由于占用預測具有更加細粒度的通用感知能力,它在自動駕駛系統(tǒng)的感知和規(guī)劃流程中引起了越來越廣泛的關(guān)注。雖然占用預測網(wǎng)絡(luò)相比于原有的3D障礙物感知算法具有更加細粒度和通用的感知能力,但是占用預測網(wǎng)絡(luò)需要確定當前感知的3D場景中每個體素的狀態(tài),這會導致感知模型開發(fā)過程中對計算和內(nèi)存的需求很高。

基于柵格預測的相關(guān)優(yōu)勢以及現(xiàn)有存在的諸多不足,我們的核心思路是提高基于BEV空間的占用預測的性能,同時減少參數(shù)數(shù)量和計算成本??紤]到先前的研究工作中強調(diào)了Transformers算法模型在長距離建模方面的優(yōu)勢,但它們的計算負擔也非常的大。最近,狀態(tài)空間模型 (SSM)(例如 Mamba)已成為長距離建模的更有效解決方案。這一發(fā)展促使我們探索狀態(tài)空間模型在改進占用預測任務(wù)方面的潛力。

因此,本文提出了一種基于Mamba框架的新型占用率預測方法,旨在實現(xiàn)輕量級,同時提供高效的遠距離信息建模,我們稱之為MambaOcc算法模型。

論文鏈接:https://arxiv.org/pdf/2408.11464

網(wǎng)絡(luò)模型的整體架構(gòu)&細節(jié)梳理

在詳細介紹本文提出的MambaOcc算法模型的技術(shù)細節(jié)之前,下圖展示了我們提出的MambaOcc算法的整體網(wǎng)絡(luò)結(jié)構(gòu)。通過下圖可以看出,MambaOcc算法模型主要包括四個模塊,分別是基于Mamba的圖像主干網(wǎng)絡(luò)用于圖像特征的提取,用于獲取BEV形式特征和聚合多幀特征的視角轉(zhuǎn)換模塊以及時間融合模塊,帶有自適應(yīng)局部重排模塊LAR-SS2S混合BEV編碼器模塊以及占用預測頭模塊。

圖片MambaOcc算法模型的整體網(wǎng)絡(luò)結(jié)構(gòu)

整體而言,我們采用四種方向的視覺Mamba來提取圖像特征。同時為了減輕與3D體素相關(guān)的高計算負擔,我們使用BEV特征作為占用預測的中間特征表示,并設(shè)計了結(jié)合卷積層和Mamba層的混合BEV編碼器??紤]到Mamba架構(gòu)在特征提取過程中對標記排序的敏感性,我們引入了一個利用可變形卷積層的局部自適應(yīng)重新排序模塊。該模塊旨在動態(tài)更新每個位置的上下文信息,使模型能夠更好地捕獲和利用數(shù)據(jù)中的局部依賴關(guān)系。這種方法不僅可以緩解標記序列相關(guān)的問題,還可以通過確保在提取過程中優(yōu)先考慮相關(guān)的上下文信息來提高占用預測的整體準確性。

VM-Backbone(視覺Mamba主干網(wǎng)絡(luò))

View Transformation and Temporal Fusion(視角轉(zhuǎn)換以及時序融合)

在MambaOcc算法模型中,我們采用LSS算法模型實現(xiàn)從圖像平面到BEV平面的空間視圖變換。首先,將圖像主干網(wǎng)絡(luò)的輸出特征組織成2D格式的地圖。然后通過深度預測網(wǎng)絡(luò)生成每個像素的一系列離散深度。最后,使用體素池化在預定義的BEV平面上聚合每個網(wǎng)格內(nèi)的深度預測。

在使用了時間域融合的情況下,視角轉(zhuǎn)換模塊提供了一種方便的方式融合來自不同視角以及不同時間戳的圖像特征。利用來自前幾幀的 BEV空間特征,首先基于自車運動信息進行特征轉(zhuǎn)換操作。然后,應(yīng)用采樣和插值操作來生成與當前幀BEV空間特征圖對齊的特征。最后,將對齊的特征合并到一起來實現(xiàn)融合時序的上下文特征信息。

LAR-SS2D Hybrid BEV Encoder(LAR-SS2D混合BEV編碼器)

在BEV空間特征的提取方面,我們首先設(shè)計了基于Mamba網(wǎng)絡(luò)模型的架構(gòu),該架構(gòu)由三個塊組成,其中每個塊包含兩個SS2D組。考慮到 SSM層對序列中token的順序很敏感,我們進一步探索局部自適應(yīng)偽重排序機制來優(yōu)化上下文信息的嵌入。然后使用LAR組替換每個塊中的一個SS2D組。

通過上述的修改,我們建立了一個靈活的局部偽重排序機制。此外,所提出的重排序過程可以通過可變形卷積算子高效實現(xiàn),從而確保較高的計算效率并保持較快的處理速度。

Occupancy預測頭(Occupancy Prediction Head)

我們采用了FlashOcc算法當中的實現(xiàn)思路,我們同樣使用了channel-to-height操作從生成的BEV特征圖的通道維度當中恢復出高度信息。這個過程允許我們在整個網(wǎng)絡(luò)的最后來獲得3D占用的特征表達。隨后,我們使用線性層來預測3D空間中每個位置的類別,從而提供整個3D空間中詳細完整的占用預測信息。

實驗結(jié)果&評價指標

與其它SOTA算法的對比試驗

為了驗證我們提出的MambaOcc算法模型的有效性,我們在Occ3D-nuScenes數(shù)據(jù)集上進行了相關(guān)實驗,相關(guān)的實驗結(jié)果如下表所示。

圖片不同算法模型在Occ3D-nuScenes數(shù)據(jù)集上的結(jié)果匯總

通過實驗結(jié)果可以看出,與最先進的方法相比,我們提出的MambaOcc算法模型在計算效率和參數(shù)數(shù)量方面具有更加顯著的優(yōu)勢。與以Swin-Transformer為主干網(wǎng)絡(luò)的FlashOcc算法模型相比,MambaOcc取得了更好的性能,同時減少了42%的參數(shù)和39%的計算成本。此外,MambaOcc-Large比FlashOcc高出了0.77的mIoU,減少了14%的參數(shù)和32%的計算成本。與以ResNet-101為主干網(wǎng)絡(luò)的PanoOcc算法相比,MambaOcc的性能高出1.23 mIoU,同時減少了19%的參數(shù)。這些結(jié)果均表明,與基于CNN和Transformer的方法相比,所提出的Mamba框架在參數(shù)量、計算效率和感知能力方面具有顯著優(yōu)勢。

此外,為了更加直觀的展示我們提出的MambaOcc算法模型的有效性,下圖可視化了MambaOcc算法模型占用預測的結(jié)果。如圖所示,MambaOcc可以為人類和車輛等典型物體提供精確的感知結(jié)果,同時還能有效檢測電線桿、交通燈和路錐等結(jié)構(gòu)不規(guī)則的物體。

圖片

MambaOcc算法模型的占用預測結(jié)果可視化

此外,為了直觀的展示我們提出的MambaOcc和FlashOcc預測占用的效果對比,我們也對兩個模型的結(jié)果進行了可視化,如下圖所示。

圖片MambaOcc與FlashOcc結(jié)果可視化對比

通過可視化兩個模型的預測結(jié)果對比可以看出,MambaOcc算法模型在長距離平面感知方面的卓越性能,能夠提供更全面的地面預測,而FlashOcc算法模型通常會將這些區(qū)域預測為空。

消融對比實驗

為了清楚地展示提出的MambaOcc算法模型中每個組件的貢獻,我們在下表中展示了我們進行的消融研究結(jié)果,以強調(diào)每個模塊的有效性。

圖片

通過匯總的消融實驗結(jié)果可以看出,用Mamba網(wǎng)絡(luò)結(jié)構(gòu)替換CNN網(wǎng)絡(luò)架構(gòu),可使mIoU顯著增加3.96,凸顯了Mamba網(wǎng)絡(luò)架構(gòu)的有效性。此外,我們提出的LAR-SS2D BEV編碼器模塊比基于CNN的編碼器額外增加了1.12的mIoU。此外,通過結(jié)合位置編碼,可以進一步提高模型的預測性能。

此外,我們也進行了相關(guān)實驗來驗證不同的圖像主干網(wǎng)絡(luò)初始化方法對于網(wǎng)絡(luò)模型占用預測的影響效果,相關(guān)的實驗結(jié)果如下表所示。

圖片

通過實驗結(jié)果可以明顯的看出,良好的參數(shù)初始化方法會顯著影響性能。使用ImageNet分類預訓練初始化占用預測網(wǎng)絡(luò)與隨機初始化相比,對于Mamba和卷積網(wǎng)絡(luò),效果明顯更好。例如與使用隨機值初始化的相比,使用ImageNet預訓練的VM-Backbone的MambaOcc在mIoU方面的性能高出10.01。

我們也對不同的BEV編碼器對于占用預測任務(wù)的影響進行了相關(guān)的實驗,實驗結(jié)果匯總在下表所示。

圖片

如上表所示,BEV編碼器的結(jié)構(gòu)顯著影響了占用預測性能。純SS2D優(yōu)于純CNN,mIoU指標提高了0.56?;旌螩NN-SS2D網(wǎng)絡(luò)架構(gòu)的性能優(yōu)于純CNN和純SS2D的網(wǎng)絡(luò)架構(gòu),mIoU分別提高了0.77和0.21。所提出的LAR-SS2D混合架構(gòu)取得了最佳效果,比CNN-SS2D混合架構(gòu)高出0.48 mIoU。

除此之外,我們比較了LAR層中不同映射方法的效果。對于多對一映射,我們使用不同的條目數(shù)3×3和5×5進行了實驗,其中原始序列中多個位置的信息在映射到新序列中的相同位置之前進行加權(quán)和融合。相關(guān)的實驗結(jié)果匯總在下表中。

圖片

通過表格結(jié)果可以看出,多對一映射方法優(yōu)于一對一方法。具體而言,與一對一方法相比,5×5和3×3配置分別將性能提高了0.07和0.32 mIoU,表明多對一映射可以成為提高性能的有效策略。

為了更全面地了解映射模式,我們對每個LAR層應(yīng)用了四種不同的映射模式,并在分組特征通道中執(zhí)行這些模式。相關(guān)的結(jié)果分別可視化在下圖。

圖片

Group0 & 1的可視化結(jié)果

圖片

Group 2 & 3的可視化結(jié)果

我們觀察到,不同群體之間的映射模式存在顯著差異,這表明這種多樣性可能有助于模型在元素之間建立更全面的聯(lián)系。

結(jié)論

在本文中,我們提出了首個基于Mamba的占用預測網(wǎng)絡(luò)模型,我們命名為MambaOcc。與基于Transformer網(wǎng)絡(luò)模型的方法相比,MambaOcc超越了基于CNN的方法,并且實現(xiàn)了更好的檢測效率。

責任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2016-01-12 17:28:50

百城百行智慧城市臨汾

2021-06-11 10:32:44

黑市網(wǎng)絡(luò)犯罪

2016-12-01 11:14:38

2024-09-09 10:00:00

模型訓練

2017-05-15 15:07:36

納米材料農(nóng)藥

2014-03-18 15:04:32

ARM架構(gòu)Xen

2024-09-14 09:29:37

2019-01-16 15:21:12

中科院大數(shù)據(jù)數(shù)據(jù)庫

2009-09-18 09:40:57

浪潮中科院合肥

2017-05-27 15:09:26

軟件 生態(tài)

2013-09-02 10:21:31

曙光核高基中科院

2016-04-19 12:51:26

2009-10-11 01:04:43

曙光中科院計算中心

2010-05-14 10:09:21

中科院LED無線上網(wǎng)

2020-01-16 15:20:48

編程語言PythonJava

2009-07-21 09:47:59

龍芯中科院

2015-03-10 12:03:19

優(yōu)酷路由寶京東

2016-11-18 13:24:14

網(wǎng)絡(luò)升級銳捷

2022-02-19 08:21:21

中科院量子計算編程軟件

2023-06-27 17:35:39

FastSAM模型SAM
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91久久国产综合久久 | 91精品国产综合久久久久 | 久久精品一区 | 久久久www| 91福利电影在线观看 | 亚洲欧美日韩国产综合 | 国产精品一区一区 | 久久久久久99 | 成人av观看 | 91精品国产91久久久久久密臀 | 国产精品久久久久永久免费观看 | 亚洲a在线观看 | 精品一区二区久久 | 四虎影音| 成人av在线播放 | 亚洲综合无码一区二区 | 成人在线h| 麻豆精品一区二区三区在线观看 | 91精品国模一区二区三区 | 午夜码电影 | 黄一级| 国产95在线 | 黄色网址在线免费观看 | 欧美一区二不卡视频 | 精品久久亚洲 | 欧美亚洲一区二区三区 | 亚洲国产一区视频 | 福利网站在线观看 | 九七午夜剧场福利写真 | 国产欧美精品 | 九九久久国产 | 91欧美精品成人综合在线观看 | 国产xxxx搡xxxxx搡麻豆 | 在线观看中文字幕 | 国产偷录视频叫床高潮对白 | 欧美福利专区 | 黄色av网站在线观看 | 日本不卡一区二区三区在线观看 | 亚洲精品视频免费 | 久久伦理中文字幕 | 亚洲成网 |