成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態3D再進化!DeepInteraction++:融合感知算法新SOTA(復旦)

人工智能 新聞
今天為大家分享復旦大學最新的多模態3D檢測工作—DeepInteraction!

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

目前隨著自動駕駛技術的快速發展,安全的自動駕駛車輛需要依賴可靠和準確的場景感知,其中3D目標檢測是非常核心的一項任務。自動駕駛中的感知模塊通過定位和識別周圍3D世界中的決策敏感物體,從而為下游的規控模塊做出準確的決策提供保障。

自動駕駛車輛為了輸出準確和可靠的感知結果,通常均會配備激光雷達、相機、毫米波雷達以及超聲波雷達等多種傳感器采集設備。為了增強自動駕駛車輛的感知能力,目前大多數自動駕駛汽車都同時部署了激光雷達和攝像頭傳感器,分別提供3D點云和RGB圖像。由于兩種傳感器的感知特性不同,它們自然表現出強烈的互補效應。點云涉及必要的目標定位和幾何信息,具有稀疏表示的特性,而2D圖像則以高分辨率的形式提供豐富的目標外觀和語義信息。因此,跨模態的專用信息融合對于強大的場景感知尤為重要。

目前常用的多模態3D目標檢測方法通常采用如下圖(a)圖的融合策略,將各個模態的表示組合成混合的特征。然而,這種融合方法在結構上受到限制,由于信息融合到統一表示的過程中存在很大程度上的不完善,所以可能會丟失很大一部分特定模態的表示信息。

針對上述提到的相關問題,并為了克服上述提到的相關挑戰,我們提出了一種新穎的模態交互策略,稱之為DeepInteraction++,相關的融合結構如下圖的(b)圖所示。

圖片

各類不同的多模態融合感知算法架構對比

我們工作的核心思路是學習和維護多種特定模態的特征表示,而不是得出單一模態的融合表示。我們提出的方法實現了模態間的交互,允許自發交換信息并保留特定模態的信息優勢,同時最小化不同模態之間的干擾。具體來說,我們首先使用兩個獨立的特征提取主干網絡,以并行的方式將3D空間的點云數據和2D平面的多視圖圖像映射到多尺度的LiDAR BEV特征和相機全景特征中。隨后,我們使用編碼器以雙邊方式交互異構特征來進行漸進式表示學習和集成。為了充分利用每個模態的特征表達,我們設計了一個解碼器以級聯方式進行多模態預測交互,以產生更準確的感知結果。大量實驗證明了我們提出的DeepInteraction++框架在3D目標檢測和端到端自動駕駛任務上均具有卓越的性能。

論文鏈接:https://www.arxiv.org/pdf/2408.05075

代碼鏈接:https://github.com/fudan-zvg/DeepInteraction

網絡模型的整體架構和細節梳理

在詳細介紹本文提出的DeepInteraction++算法模型之前,下圖整體展示了提出的DeepInteraction++算法模型的網絡結構。

圖片

提出DeepInteraction算法模型的整體框架圖

與現有技術相比,本文提出的算法模型在整個檢測流程中為激光雷達點云和相機圖像模態保留兩種不同的特征表示,同時通過多模態的交互策略實現了不同模態信息交換和聚合,而不是創建單一的模態融合表示。通過上圖的網絡結構可以看出,提出的DeepInteraction++由兩個主要模塊組成:具有多模態表征交互的編碼器模塊和具有多模態預測交互的解碼器模塊。編碼器實現模態之間的信息交換和集成,同時通過多模態表征交互保持每個模態的單獨場景表達。解碼器從單獨的模態特定表示中聚合信息,并以統一的模態無關方式迭代細化檢測結果。

編碼器:實現多模態的表達交互

與通常將多個模態的輸入特征聚合到一個混合特征圖的傳統模態融合策略不同,我們設計的編碼器模塊采用了多輸入多輸出的結構,通過多模態表達交互的方式來維護和增強單個模態的特征,其編碼器的網絡結構如上圖中的(a)圖所示。整體而言,編碼器模塊將激光雷達和圖像主干獨立提取的兩個特定模態場景表示特征作為輸入,并產生兩個精修的特征表達作為輸出。具體而言,編碼器模塊由堆疊多個多模態表征交互編碼器層組成。在每一層中,來自不同模態的特征參與多模態表征交互和模態內表征學習,以實現模態間和模態內的交互過程。

雙流Transformer的交互編碼器模塊

在之前DeepInteraction算法模型的基礎上,為了進一步推動更高的可擴展性和降低計算開銷,我們通過將原始編碼器層替換為一對自定義的注意交互機制的Transformer層來實現。此外,多模態表達交互模塊中的并行模態內和模態間表征學習現在用作重構架構中的自注意和交叉注意操作。這里,我們以激光雷達分支為例,每個Transformer層內的計算可以表示為如下的情況:

其中公式中的FFN表示前饋網絡層,LN表示層歸一化,SA和CA分別為表示多模表達交互和模態內表征學習。圖像分支中的Transformer 層遵循類似的設計。

多模態表達交互

模態內表征學習

除了直接合并來自異構模態的信息之外,模態內推理還有助于更全面地整合這些表征。因此,在編碼器的每一層中,我們進行與多模態交互互補的模態內表征學習。在本文中,我們利用可變形注意力進行模態內表征學習。同時,考慮到透視投影引入的尺度差異,相比于固定局部鄰域內的交叉注意力,具有更靈活感受野的交互操作更為合理,從而在保持原有高效局部計算的同時,實現了更靈活的感受野,并促進了多尺度的信息交互。

分組稀疏注意力實現高效交互

考慮到激光雷達點云固有的稀疏性,激光雷達點的數量在Pillar內會根據其位置而變化,并且單個Pillar內的點最多只能被兩個攝像頭看到。因此,為了在圖像到激光雷達的表示交互期間充分利用GPU的并行計算能力,我們仔細檢查每個Pillar中有效圖像標記數量的分布,并將這些Pillar劃分為幾個區間,然后,我們通過將鍵和值的數量填充到間隔的上限來批量處理每個間隔內的支柱,以進行注意力計算。通過仔細選擇間隔邊界,可顯著減少內存消耗,而對并行性的影響可忽略不計。

解碼器:多模態預測交互

除了考慮表示層面的多模態交互之外,我們還引入了具有多模態預測交互的解碼器來進行預測,其網絡結構如下圖所示。

圖片多模態預測交互模塊網絡結構圖

通過上圖的(a)圖可以看出,我們的核心思想是增強一種模態在另一種模態條件下的3D目標檢測。具體來說,解碼器是通過堆疊多個多模態預測交互層來構建的,其中部署預測交互以通過交替聚合來自增強圖像表示和增強BEV表示的信息來逐步細化預測過程。

端到端的自動駕駛

為了進一步證明我們提出的DeepInteraction++的可擴展性和優越性,我們將DeepInteraction++擴展為端到端多任務框架,同時解決場景感知、運動預測和規劃任務。具體而言,在使用了現有的檢測頭之外,我們還使用了額外的任務頭來形成端到端框架,包括用于地圖分割的分割頭、用于估計被檢測物體運動狀態的預測頭和用于為自我車輛提供最終行動計劃的規劃頭??紤]到來自BEV和周圍視圖的特征圖用于深度交互式解碼,我們做了一些修改以利用這一優勢。首先,與激光雷達點云相比,圖像上下文對于地圖表示更具辨別性,而大量的點云信息可能會反過來造成混淆。因此,我們通過LSS將周圍視圖特征投影到BEV上,然后將它們傳播到地圖分割頭中。隨后,預測和規劃頭將檢測和分割生成的結果作為輸入,并使用標準Transformer解碼器對其進行處理,從而實現端到端的自動駕駛任務。

實驗

為了驗證我們提出算法模型的有效性,我們在nuScenes的驗證集和測試集上與其它SOTA算法模型進行了對比,相關的實驗結果如下圖所示。

圖片

不同算法模型在nuScenes數據集上的精度對比

通過上述的實驗結果可以看出,我們提出的DeepInteraction++算法模型實現了SOTA的感知性能。此外,為了進一步直觀的展現我們提出算法模型的效果,我們將模型的檢測結果進行了可視化,如下圖所示。

圖片算法模型的可視化結果

此外,為了展現我們提出的DeepInteraction++框架在端到端任務上的性能,我們也在nuScenes的驗證集上比較了SOTA算法模型的端到端的規劃性能,具體的性能指標如下圖所示。

圖片

不同算法模型的planning性能

上述的實驗結果表明我們提出的算法框架在大多數評估指標上顯著超越了現有的面向規劃的方法。除了提供更準確的規劃軌跡外,DeepInteraction++ 還可以通過對交通參與者進行更精確、更全面的感知和預測來實現更低的碰撞率。為了更加直觀的展現我們模型的planning性能,我們也將相關的結果進行了可視化,如下圖所示。

圖片端到端planning任務的性能對比情況

通過上圖的可視化結果可以看出,通過整合多模態信息并采用有意義的融合策略,我們提出的方法可以全面理解和分析駕駛場景,從而即使在復雜而錯綜復雜的駕駛環境中也能做出更合理的規劃行為。此外,由于上游的精準感知,DeepInteraction++能夠有效避免因累積誤差而導致的錯誤動作,如上圖中的第三行所示。

結論

在本文中,我們提出了一種新穎的多模態交互方法DeepInteraction++,用于探索自動駕駛任務中內在的多模態互補性及其各自模態的特性。大量的實驗結果表明,我們提出的方法在nuScenes數據集上的3D目標檢測以及端到端任務上取得了最先進的性能。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-04-17 09:56:24

算法模型

2025-01-07 09:11:07

2024-04-19 12:38:20

3D檢測

2025-02-12 10:20:00

2023-06-02 10:33:35

2023-11-22 09:53:02

自動駕駛算法

2023-06-20 16:19:00

機器3D

2024-01-15 10:38:24

3D框架

2022-07-13 10:20:14

自動駕駛3D算法

2023-09-25 14:53:55

3D檢測

2024-04-24 11:23:11

3D檢測雷達

2022-01-20 11:17:27

自動駕駛智能汽車

2024-09-30 09:52:39

2023-10-07 09:29:09

2025-06-17 02:25:00

工業異常檢測

2025-01-26 11:00:00

2025-03-10 08:25:00

機器人AI模型

2025-05-06 08:40:00

2022-12-14 10:21:25

目標檢測框架
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 草草草影院 | 成人在线视频网 | 欧美日韩在线一区 | 荷兰欧美一级毛片 | 在线观看中文字幕 | 欧美 日韩 国产 成人 在线 | 欧美成人精品激情在线观看 | 久久不卡区 | 凹凸日日摸日日碰夜夜 | 午夜免费| 久久亚洲一区 | 黄视频网址 | 欧美一卡二卡在线 | 欧美日韩一区二区电影 | 欧洲一区二区在线 | 日韩一区二区av | 国产精品中文字幕在线 | 久久精品一区二区 | 成人福利片 | 成人午夜影院 | 免费观看一级特黄欧美大片 | 午夜视频精品 | 欧美偷偷 | 日日干夜夜操天天操 | 一本在线| 国产精品色 | 久草综合在线 | 黄色网址免费看 | 欧美高清视频一区 | 午夜免费视频 | 久久视频精品 | 精品国产18久久久久久二百 | 四虎最新地址 | 天天狠狠 | 国产精品久久久久久久久久久久久 | 国产在线拍偷自揄拍视频 | 国产成人在线观看免费 | 欧美在线一区二区视频 | av色噜噜 | 美国a级毛片免费视频 | 成人亚洲综合 |