成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="q48sm"></kbd>

<ul id="q48sm"></ul>

<strike id="q48sm"><s id="q48sm"></s></strike>

<strike id="q48sm"></strike>

<kbd id="q48sm"></kbd>

<samp id="q48sm"><optgroup id="q48sm"></optgroup></samp>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

一文詳解自動駕駛中的多模態融合感知算法

作者：汽車人 2023-11-22 09:53:02

人工智能智能汽車

本文全面調研了現有多模態自動駕駛感知算法，傳感器包括LiDAR和相機，聚焦于目標檢測和語義分割，分析超過50篇文獻。同傳統融合算法分類方法不同，本文從融合階段的不同將該領域分類兩大類、四小類。此外，本文分析了當前領域存在的問題，對未來的研究方向提供參考。

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

1 簡介

多模態傳感器融合意味著信息互補、穩定和安全，長期以來都是自動駕駛感知的重要一環。然而信息利用的不充分、原始數據的噪聲及各個傳感器間的錯位（如時間戳不同步），這些因素都導致融合性能一直受限。本文全面調研了現有多模態自動駕駛感知算法，傳感器包括LiDAR和相機，聚焦于目標檢測和語義分割，分析超過50篇文獻。同傳統融合算法分類方法不同，本文從融合階段的不同將該領域分類兩大類、四小類。此外，本文分析了當前領域存在的問題，對未來的研究方向提供參考。

2 為什么需要多模態？

這是因為單模態的感知算法存在固有的缺陷。舉個例子，一般激光雷達的架設位置是高于相機的，在復雜的現實駕駛場景中，物體在前視攝像頭中可能被遮擋，此時利用激光雷達就有可能捕獲缺失的目標。但是由于機械結構的限制，LiDAR在不同的距離有不同的分辨率，而且容易受到極端惡劣天氣的影響，如暴雨等。雖然兩種傳感器單獨使用都可以做的很出色，但從未來的角度出發，LiDAR和相機的信息互補將會使得自動駕駛在感知層面上更安全。

近期，自動駕駛多模態感知算法獲得了長足的進步，從跨模態的特征表示、更可靠的模態傳感器，到更復雜、更穩定的多模態融合算法和技術。然而，只有少數的綜述[15, 81]聚焦于多模態融合的方法論本身，并且大多數文獻都遵循傳統分類規則，即分為前融合、深度（特征）融合和后融合三大類，重點關注算法中特征融合的階段，無論是數據級、特征級還是提議級。這種分類規則存在兩個問題：首先，沒有明確定義每個級別的特征表示；其次，它從對稱的角度處理激光雷達和相機這兩個分支，進而模糊了LiDAR分支中提級級特征融合和相機分支中數據級特征融合的情況?？偨Y來說，傳統分類法雖然直觀，但已經不適用于現階段多模態融合算法的發展，一定程度上阻礙了研究人員從系統的角度進行研究和分析。

3 任務和公開比賽

常見的感知任務包括目標檢測、語義分割、深度補全和預測等。本文重點關注檢測和分割，如障礙物、交通信號燈、交通標志的檢測和車道線、freespace的分割等。自動駕駛感知任務如下圖所示：

常用的公開數據集主要包含KITTI、Waymo和nuScenes，下圖匯總了自動駕駛感知相關的數據集及其特點。

4 融合方法

多模態融合離不開數據表達形式，圖像分支的數據表示較簡單，一般均指RGB格式或灰度圖，但激光雷達分支對數據格式的依賴度較高，不同的數據格式衍生出完全不同的下游模型設計，總結來說包含三個大方向：基于點、基于體素和基于二維映射的點云表示。

傳統分類方法將多模態融合分為以下三種：

前融合（數據級融合）指通過空間對齊直接融合不同模態的原始傳感器數據。
深度融合（特征級融合）指通過級聯或者元素相乘在特征空間中融合跨模態數據。
后融合（目標級融合）指將各模態模型的預測結果進行融合，做出最終決策。

本文則采用下圖的分類方式，整體分為強融合和若融合，強融合進一步細分為：前融合、深度融合、不對稱融合和后融合。

本文使用KITTI的3D檢測任務和BEV檢測任務橫向對比各個多模態融合算法的性能，下圖是BEV檢測測試集的結果：

下圖是3D檢測測試集的結果：

5 強融合

根據激光雷達和相機數據表示的不同組合階段，本文將強融合細分為：前融合、深度融合、不對稱融合和后融合。如上圖所示可以看出，強融合的每個子模塊都高度依賴于激光雷達點云，而不是相機數據。

前融合

與傳統的數據級融合定義不同，后者是一種在原始數據級別通過空間對齊和投影直接融合每種模態數據的方法，早期融合在數據級別融合LiDAR 數據和數據級別的相機數據或特征級。早期融合的一個例子可以是圖4中的模型。

與傳統分類方法定義的前融合不同，本文定義的前融合是指在原始數據級別通過空間對齊和投影直接融合各個模態數據的方法，前融合在數據級指的是融合激光雷達數據，在數據級或特征級融合圖像數據，示意圖如下：

在LiDAR分支，點云具有多種表達形式，如反射圖、體素化張量、前視圖/距離視圖/BEV視圖以及偽點云等等。雖然這些數據結合不同主干網絡都有不同的內在特征，但是除了偽點云之外[79]，大多數數據都是通過一定的規則處理生成。此外，相比于特征空間嵌入，LiDAR的這些數據都有很強的可解釋性，均可以直接可視化。

在圖像分支，嚴格意義上的數據級定義應該是RGB或灰度圖，但是這種定義缺乏通用性和合理性。因此本文擴展了前融合階段的圖像數據的數據級定義，包含數據級和特征級數據。值得一提的是，本文將語義分割預測結果也作為前融合的一種（圖像特征級），一是因為有利于3D目標檢測，二是因為語義分割的“目標級”特征與整個任務的最終目標級提議不同。

深度融合

深度融合，也稱特征級融合，是指在激光雷達分支的特征級融合多模態數據，但在圖像分支的數據集和特征級進行融合。例如一些方法使用特征提舉起分別獲取LiDAR點云和圖像的嵌入表示，并通過一系列下游模塊融合兩種模態的特征。然而，與其他強融合不同的是，深度融合有時會以級聯方式融合特征，這兩者都利用了原始和高級語義信息。示意圖如下：

后融合

后融合，也可叫作目標級融合，指的是對多個模態的預測結果（或proposal）進行融合。例如，一些后融合方法利用LiDAR點云和圖像的輸出進行融合[55]。兩個分支的proposal的數據格式應與最終結果一致，但是質量、數量和精度存在一定差異。后融合可以看作是一種多模態信息優化最終proposal的集成方法，示意圖如下所示：

不對稱融合

強融合的最后一種是不對稱融合，指的是融合一個分支的目標級信息和其他分支的數據級或特征級信息。上述三種融合方法將多模態的各個分支平等對待，不對稱融合則強調至少有一個分支占據主導地位，其他分支則提供輔助信息預測最終結果。下圖是不對稱融合的示意圖，在proposal階段，不對稱融合只有一個分支的proposal，而后融合則是所有分支的proposal。

6 弱融合

與強融合的區別在于，弱融合方法不直接從多模態分支中融合數據、特征或者目標，而是以其他形式處理數據。下圖展示了弱融合算法的基本框架。基于弱融合的方法通常使用基于一定規則的方法來利用一種模態的數據作為監督信號，以指導另一種模態的交互。例如，圖像分支中來自CNN的2D proposal可能會導致原始LiDAR點云中出現截斷，弱融合直接將原始LiDAR 點云輸入到 LiDAR 主干中以輸出最終的proposal。

7 其他方式融合

還有一些工作不屬于上述任何一種范式，因為它們在模型設計的框架中使用了多種融合方式，例如[39]結合了深度融合和后融合，[77]則結合了前融合。這些方法不是融合算法設計的主流方式，本文統一歸為其他融合方式。

8 多模態融合的機遇

近年來，用于自動駕駛感知任務的多模態融合方法取得了快速進展，從更高級的特征表示到更復雜的深度學習模型。然而，還有一些懸而未決的問題有待解決，本文總結了如下幾個未來可能的改進方向。

更先進的融合方法

當前的融合模型存在錯位和信息丟失的問題[13,67,98]。此外，平融合（flat fusion）操作也阻礙了感知任務性能的進一步提高?？偨Y如下：

錯位和信息丟失：相機和LiDAR的內外在差異很大，兩種模態的數據需要進行坐標對齊。傳統的前融合和深度融合方法利用標定信息將所有LiDAR點直接投影到相機坐標系，反之亦然。然而由于架設位置、傳感器噪聲，這種逐像素的對齊是不夠準確的。因此，一些工作利用周圍信息進行補充以獲取更好的性能。此外，在輸入和特征空間的轉換過程中，還存在一些其他信息的丟失。通常，降維操作的投影不可避免地會導致大量信息丟失，如將3D LiDAR點云映射為2D BEV圖像中則損失了高度信息。因此，可以考慮將多模態數據映射到另一種專為融合設計的高維空間，進而有效的利用原始數據，減少信息損失。
更合理的融合操作：當前許多方法使用級聯或者元素相乘的方式進行融合。這些簡單的操作可能無法融合分布差異較大的數據，因此難以擬合兩個模態間的語義紅狗。一些工作試圖使用更復雜的級聯結構來融合數據并提高性能。在未來的研究中，雙線性映射等機制可以融合具有不同特點的特征，也是可以考慮的方向。

多源信息利用

前視單幀圖像是自動駕駛感知任務的典型場景。然而，大多數框架只能利用有限的信息，并未詳細設計輔助任務來促進駕駛場景的理解?？偨Y如下：

采用更多的潛在信息：現有方法缺乏對個維度和來源的信息的有效利用。大多數都將精力放在前視圖中的單幀多模態數據上。這就導致其他有意義的數據并未被充分利用，例如語義、空間和場景上下文信息。一些工作嘗試使用語義分割結果輔助任務，而其他模型則有可能利用CNN主干的中間層特征。在自動駕駛場景中，許多具有顯式語義信息的下游任務可能會極大的提高目標檢測性能，例如車道線、交通燈和交通標志的檢測。未來的研究可以結合下游任務，共同構建一個完整的城市場景的語義理解框架，來提升感知性能。此外，[63]結合了幀間信息提升性能。時間序列信息包含序列化的監控信號，與單幀方法相比，它可以提供更穩定的結果。因此，未來的工作可以考慮更深入地利用時間、上下文和空間信息來實現性能突破。
自監督表征學習：互相監督的信號自然存在于從同一個真實世界場景但不同角度采樣的跨模態數據中。然而，由于缺乏對數據的深入理解，目前的方法還無法挖掘各個模態間的相互關系。未來的研究可以集中在如何利用多模態數據進行自監督學習，包括預訓練、微調或者對比學習。通過這些最先進的機制，融合算法將加深模型對數據更深層次的理解，同時取得更好的性能。

傳感器固有問題

域偏差和分辨率與現實世界的場景和傳感器高度相關。這些缺陷阻礙了自動駕駛深度學習模型的大規模訓練和實時。

域偏差：在自動駕駛感知場景中，不同傳感器提取的原始數據伴隨著嚴重的領域相關特征。不同的攝像頭有不同的光學特性，而LiDAR可能會從機械結構到固態結構而有所不同。更重要的是，數據本身會存在域偏差，例如天氣、季節或地理位置，即使它是由相同的傳感器捕獲的。這就導致檢測模型的泛化性受到影響，無法有效適應新場景。這類缺陷阻礙了大規模數據集的收集和原始訓練數據的復用性。因此，未來可以聚焦于尋找一種消除域偏差并自適應集成不同數據源的方法。
分辨率沖突：不同的傳感器通常有不同的分辨率。例如，LiDAR的空間密度明顯低于圖像的空間密度。無論采用哪種投影方式，都會因為找不到對應關系而導致信息損失。這可能會導致模型被一種特定模態的數據所主導，無論是特征向量的分辨率不同還是原始信息的不平衡。因此，未來的工作可以探索一種與不同空間分辨率傳感器兼容的新數據表示系統。

9參考

[1] https://zhuanlan.zhihu.com/p/470588787
[2] Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

原文鏈接：https://mp.weixin.qq.com/s/usAQRL18vww9YwMXRvEwLw

責任編輯：張燕妮來源：自動駕駛之心

自動駕駛算法

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美一区二区大片 | 亚洲精品久久久一区二区三区 | 97精品一区二区 | 911精品美国片911久久久 | 日韩在线看片 | 在线视频一区二区三区 | 国产精品一区三区 | 成人国产精品免费观看视频 | 在线视频国产一区 | 久久精品欧美一区二区三区麻豆 | 成人在线中文字幕 | 亚洲午夜精品一区二区三区他趣 | 中文在线a在线 | 天天操欧美 | 免费三级黄 | 特一级毛片 | 久久久精彩视频 | 九九热在线观看 | 亚洲精品www | 日韩视频免费 | 国产精品久久影院 | 久久久精品视频免费 | 日日夜夜天天干 | 91精品国产色综合久久 | 欧美a在线看 | 国产免费让你躁在线视频 | 午夜一区二区三区视频 | 成人免费观看男女羞羞视频 | 成人免费观看男女羞羞视频 | 午夜视频精品 | 国产激情视频在线 | 亚洲成av人片在线观看无码 | 国产美女在线免费观看 | 亚洲欧美激情精品一区二区 | 影视一区| 精品不卡 | 欧美成人免费 | 国产久| 亚洲国产精品一区二区三区 | 久草免费在线视频 | 99精品欧美一区二区三区综合在线 |

<kbd id="aaisk"></kbd>