多模態卷進車路協同 | V2VFormer++:首個多模態V2V框架問世!
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
筆者的個人理解
最近出現的多車輛協作感知旨在促進聯網自動車輛(CAV)的遠距離和大規模感知能力。 盡管如此,人們付出了巨大的努力將協同感知制定為僅 LiDAR 的 3D 檢測范例,而忽略了密集圖像的重要性和補充。 在這項工作中,我們構建了第一個多模態車對車協同感知框架,稱為 V2VFormer++,其中單個攝像頭-LiDAR 表示與鳥瞰 (BEV) 空間的動態通道融合 (DCF) 相結合,并且來自相鄰車輛的以自我為中心的 BEV 地圖由全局-局部transformer模塊聚合。 具體來說,開發了采用 MLP 設計的通道token混合器 (CTM),以捕獲相鄰 CAV 之間的全局響應,并且位置感知融合 (PAF) 進一步從局部角度研究每個自我網絡地圖之間的空間相關性。 通過這種方式,我們可以戰略性地確定哪些 CAV 適合協同以及如何從它們中聚合最重要的信息。 在公開的 OPV2V 和 V2X-Sim2.0 基準上進行了定量和定性實驗,我們提出的 V2VFormer++ 得到了最先進的協同感知性能,展示了其有效性和先進性。 此外,消融研究和可視化分析進一步表明,其對現實場景中的各種干擾具有很強的魯棒性。
V2VFormer++的主要思路是什么?
作為前沿技術,自動駕駛被視為智能交通系統(ITS)的發展趨勢,為解決交通擁堵、碰撞和排放污染等棘手問題提供了一種有前景的解決方案。 隨著深度學習和計算機視覺的發展,環境感知作為自動駕駛系統的重要組成部分,在物體檢測和分割任務方面也取得了長足的進步。在準確性和效率方面都獲得了顯著的性能改進。 由于復雜的交通場景和變化的物理條件,單純依靠自車視角信息很難保證魯棒性和安全的傳感性能。 因此,如何挖掘和聚合多源信息來增強感知能力是學術界和工業界的熱點問題。
最近出現了基于信息融合和數據共享的車車(V2V)協同感知,它通過低延遲車輛通信戰略性地整合來自鄰近聯網自動車輛(CAV)的多視圖環境。 這樣,可以顯著緩解各種駕駛場景中出現的盲點、超視距、遮擋等感知挑戰,同時使自動駕駛汽車具備遠距離、大范圍的感知能力 如圖1所示。根據不同的協同策略,當前的工作關于多智能體感知可以分為三個層次。 一方面,早期融合將來自每輛車的原始傳感器數據傳輸到目標車輛,然而,由于難以承受的計算開銷和通信帶寬,它無法滿足實時系統的要求。 另一方面,后期融合通過數學運算(即求和和平均)或注意力機制直接對各個檢測進行重新加權,大大提高了運行速度。 然而,不同車輛的誤報可能會以這種方式被放大,累積的空間位移會逐步損害多智能體的協同性能。 中間特征協同由于其在準確性和速度之間更好的權衡而越來越受歡迎,將 CAV 緊湊的特征的表示(例如 BEV 地圖)轉換為統一坐標,以便在全局視圖中全面了解交通場景。 給定多個 BEV 特征,基于圖的方法創建一個加權協同圖,其中每個節點表示單個車輛及其實時姿態信息,成對邊緣通過空間權重矩陣定義相鄰車輛之間的關系。 此外,基于 Transformer 的算法對編碼序列執行自注意力或交叉注意力操作,以捕獲 CAV 之間的局部和全局依賴性。 作為替代方案,通過最遠點采樣(FPS)有效地選擇關鍵點表示來突出顯示重要點,只有當它存在于候選提案中時才會被進一步保留。 總之,這些工作的流程是在自我坐標上結合車輛間表示來增強特征,但由于激光雷達點的稀疏性和不均勻性,很容易出現特征模糊和語義缺陷。 更重要的是,以前的協同策略在投影到參考坐標后顯式地構建空間特征關系,但研究全局中 CAV 之間的通道交互并非易事。
在本文中,我們將感知轉化為3D目標檢測任務,并開發了多模態車車協同感知框架,稱為V2VFormer++。 對于每個 CAV,提出了一種相機-LiDAR 范例來克服僅 LiDAR 檢測的缺點,它用密集的上下文(即紋理、輪廓等)補償精確的幾何形狀,以實現多功能的環境描述。為了獲得統一平面上的表達表示,我們通過視圖變換將兩種異構模態投影到鳥瞰圖(BEV)空間中,并進一步設計了一種簡單而高效的多模態融合模塊動態通道融合(DCF)像素 -以自適應方式進行點對應聚合。 通過這種方式,可以通過邊際計算預算充分利用每個以自我為中心的視角的豐富語義屬性。對于車輛到車輛的感知,提出了一種新穎的全局-局部變換策略來聚合 CAV 的中間特征。 具體來說,我們首先采用MLP設計的通道token混合器(CTM)來計算不同車輛之間的全局響應,從而根據相關性得分來匹配每個自我網絡對。 為了更多地關注感興趣區域(RoI),引入了位置感知融合(PAF)來關注所有車輛的信息區域,并且還使用自注意力transformer探索了局部的像素級特征語義。 最后,我們對 OPV2V 和 V2X-Sim 2.0數據集進行了全面的實證研究,提出的 V2VFormer++ 實現了最先進的協作感知精度,對比同行(例如,多 車輛單模式和多車輛多模式)大幅提高。 此外,對不同配置和場景的消融分析進一步表明其針對現實世界中斷的魯棒性和通用性。
綜上所述,這項工作的貢獻主要描述如下:
- 我們提出了 V2VFormer++,這是第一個多模態車輛間協同感知框架,它使用來自單獨車輛的異構模態來增強多智能體協作性能。
- 動態通道融合(DCF)模塊旨在以自適應方式從相機和 LiDAR BEV 視圖進行對應聚合。
- 全局-局部transformer協同是一種中間融合策略,其中開發通道token混合器(CTM)用于捕獲CAV之間的全局響應,并利用位置感知融合(PAF)模塊從局部角度探索空間語義 。
- 沒有花里胡哨的東西,我們的 V2VFormer++ 報告了 OPV2V和V2X-Sim 2.0基準測試中最先進的協同檢測性能,其性能顯著優于所有替代方案。 此外,消融研究和可視化結果進一步證明了其針對現實場景中各種干擾的魯棒性。
領域目前的工作
本節旨在回顧基于 LiDAR 和攝像頭 LiDAR 3D 目標檢測以及車車協同感知的相關研究。
A. 基于 LiDAR 的 3D 檢測
根據不同的數據格式,基于LiDAR的3D檢測可大致分為三類:基于點、基于體素和混合表示。 基于點的算法直接使用PointNet 和PointNet ++架構的原始LiDAR數據來進行可靠的幾何特征提取,前者采用集合抽象(SA)運算符來聚合逐點表示并利用變換網絡(T-Net)用于輸入和特征級別的特征對齊,而后者通過分層采樣方法進一步從點云學習局部和全局上下文。 對于3D檢測任務,3DSSD同時引入距離(D-)和特征(F-)最遠點采樣(FPS)策略來處理點表示的稀疏性,并通過SSD(單級)進行目標定位和分類 探測器)類似的架構。 為了更好地區分前景點和背景,CenterPoint 提取關鍵點特征以從目標的中心點預測 3D 邊界框,而 IA-SSD利用 SSD 架構的實例感知特征進行 3D 目標檢測。 基于體素的檢測器是一種有效的范例,其中 3D 點空間首先被離散化為規則網格,然后引入卷積網絡來處理每個體素內編碼的細粒度特征。 作為開創性工作,VoxelNet設計了堆疊體素特征編碼(VFE)層來進行逐點信息提取,然后利用 3D 卷積進行局部中間特征聚合。 為了加快推理速度,SECOND 開發了 3D 稀疏卷積來進行高效體素特征編碼,而 PointPillars將點云折疊為 2D 表示并使用稀疏卷積主干。 受 2D Faster RCNN 思想的啟發,Deng et al.提出了一種名為 Voxel RCNN 的兩階段 3D 檢測框架,在精度和效率之間具有更好的權衡,首先生成粗略的 3D 候選推薦,并在第二階段通過體素 RoI 池化層執行框細化。 此外,CAGroup3D探索全卷積3D池化來增強每個推薦框內的主干特征,追求最終的檢測性能。 將逐點特征與體素特征結合起來進行 3D 目標檢測的研究最近成為一個熱點問題。 STD遵循稀疏到密集的檢測范式,該范式通過新穎的球形錨從原始點獲得準確的推薦,并通過點池化從稀疏點表達生成緊湊的表示。 PV-RCNN使用體素集抽象模塊將3D場景概括為一組關鍵點,并通過RoI網格池化將特定于推薦的特征抽象為密集網格。 此外,PV-RCNN++引入了位置敏感融合模塊,用于點云和體素網格上的特征增強。 Part-A2 Net由部分感知和部分聚合階段組成,前者旨在生成具有目標內部分位置的高質量推薦,而后者在池化后根據空間位置關系進行框細化。 SE-SSD采用一對teacher和student檢測器,采用有效的基于 IoU 的匹配策略和一致性 ODIoU 損失來提高性能。 此外,Noh et al.提出了一種新的 HVPR 架構,它將基于點和基于體素的特征集成到單個 3D 表示中,并設計了細心的多尺度特征模塊,以從稀疏和不規則的點模式中學習尺度感知信息。 在本文中,我們采用 PointPillars 作為單車 LiDAR 骨干網,以實現效率和精度之間的權衡。
B. 相機-LiDAR 3D 物體檢測
相機-LiDAR融合感知最近展示了其優越性并引起了3D檢測的廣泛關注,它彌補了僅激光雷達方法的稀疏性、不確定性和語義碎片化。 在沒有復雜的偽激光雷達生成過程的情況下,Pointpainting設計了一種基于順序的融合機制,首先用圖像分割網絡產生的像素級語義得分來修飾原始點云,然后將它們放入任何僅激光雷達流程中。 3D-CVF將密集的相機體素投影到 BEV 平面上,并通過自適應門控注意力圖連接每個模態。 此外,Chen et al.通過可學習的透視對齊而不是固有的投影矩陣建立像素-體素視圖關聯,靈活地實現異構表示的一致性。最近,Transfusion首次嘗試將transformer引入相機 LiDAR 3D檢測中,因為它在遠程依賴建模方面具有優越性。它應用兩個順序解碼器層將目標查詢與 BEV 平面上的粗略 LiDAR 和精細增益圖像特征軟關聯,逐步增強感知性能。 類似地,UVTR通過基于transformer的解碼器和概率深度分布將圖像特定空間擴展到體素,并進一步通過知識遷移進行交叉注意特征交互。 BEVFusion將多模態流轉換為規范坐標,并采用動態融合策略來防止 LiDAR 故障造成的故障情況。 在本文中,我們的目標是一種簡單而優雅的像素點融合范式,其中異構特征可以轉換為統一的表示,并且兩個 BEV 圖以自適應聚合的方式投影到與高度無關的自車平面上。
C. 車與車協同感知
車輛對車輛(V2V)協同感知最近隨著先進的車輛通信和信息融合而出現,從而為緩解單智能體檢測帶來的超視距和盲點挑戰提供了有效的解決方案。 總體而言,該流程將來自聯網自動車輛(CAV)的多視圖周圍感知數據與以自車為中心的觀察相結合,以促進全局感知能力,并且根據不同的合作階段,先前的工作可主要分為早期、 中期和后期協同。 Cooper主要共享多分辨率 LiDAR 點,并將自己的稀疏表示投影到緊湊的空間中,然后使用稀疏點云目標檢測(SPOD)網絡來適應低密度點云。 然而,它在早期融合方式中導致了難以承受的計算開銷。 相反,后期融合方法結合了來自不同車輛的獨立預測,并進行推薦細化以產生最終結果。 Hurl et al.引入了用于安全消息選擇的信任機制,并集成了一種新穎的 TruPercept 根據一致性得分重新加權輸出。 然而,由于過度依賴個體預測,這種方法很容易出現不令人滿意的結果。 為了在感知精度和推理延遲之間進行權衡,相鄰車輛之間的中間特征融合已被廣泛探索,以追求良好的性能增益。 Wang et al. 提出了一種基于圖的方法,通過卷積門控循環單元(ConvGRU)迭代捕獲和更新每輛車的地理信息。 為了強調代理的重要性,DiscoNet通過邊緣權重矩陣丟棄車輛之間高度相似的像素,并通過知識蒸餾構建整體幾何拓撲。 為了模擬現實世界中傳輸延遲的影響,Liu et al.提出了一個三步握手通信協議,包括請求、匹配和連接,確定與哪個協同者交互。 此外,Liu et al.考慮了一種可學習的自我注意機制來推斷自我代理是否進行額外的通信以獲得更多信息。 Hu et al.開發了一種新穎的稀疏置信圖來掩蓋特征壓縮的無關緊要元素。 作為車載攝像頭的細粒度和密集預測,Xu et al.研究了 BEV 平面下的僅相機地圖預測框架,該框架利用新穎的融合軸向(FAX)注意來重建地平面上的動態場景。 盡管上述算法取得了顯著的性能,但它們主要關注局部區域中 CAV 之間的空間相關性,而沒有用于重疊語義細化的全局特征交互。 在這項工作中,我們嘗試設計一種名為 V2VFormer++ 的新型中間特征協作,它顯式地捕獲每輛車之間的全局響應,并且自我網絡對利用基于變壓器的操作以位置方式關注局部判別特征。
圖1 協同感知的優勢。 左邊。 汽車在路口行駛時未能提前感知公共車輛(PV)的潛在威脅。 借助聯網自動車輛(CAV),可以將整體視圖信息傳輸到自車(Ego),以規避盲點區域的交通沖突。 右邊。 檢測結果在鳥瞰(BEV)空間中可視化。
圖2. V2VFormer++架構圖。 對于每輛車,采用具有特定模態backbone的雙流網絡在 BEV 平面中進行相機-LiDAR 特征提取(使用稀疏交叉注意 SCA 模塊進行相機-視圖變換),并設計動態通道融合(DCF)以實現精細 - 粒度像素點聚合。 給定多模態BEV圖,進行數據壓縮和共享以生成一組在自車-坐標處的特征圖。 隨后,提出了全局-局部transformer協同策略,用于相鄰 CAV 之間的通道語義探索和空間相關建模。 最后,將多車輛融合圖 輸入到預測頭中以進行目標分類和定位回歸。
方法的整體設計
在本節中,我們將介紹所提出的多模態車對車協同感知框架V2VFormer++。 如圖2所示,整體架構主要包含四個部分:(1)用于多視圖相機和LiDAR點特征提取的模態特定backbone; (2)像素點融合模塊,用于自適應地聚合語義和幾何信息; (3)具有自注意力機制的信息區域的全局局部transformer; (4)用于產生目標定位和分類分數的預測頭。
圖3 根據相機特征生成BEV地圖的示意圖。 BEV 地圖 由一組從世界坐標采樣的 X-Y 網格初始化。 同時,利用滑動窗口采樣方法將BEV和多尺度相機圖 劃分為更小的比例。 線性投影后,查詢()、鍵()和值()嵌入被輸入稀疏交叉注意(SCA)模塊以進行迭代 BEV 映射更新。
圖4 動態信道融合(DCF)示意圖。 給定相機-LiDAR BEV 地圖 和 ,DCF 以元素方式將它們連接起來,并采用 3 × 3 卷積來探索有價值的語義和幾何信息。 經過全局平均池化算子和 MLP(由 1 × 1 卷積實現)后,sigmoid 函數 δ(·) 產生通道特征重新加權的激活概率。 結果,從每個單視圖編碼器模塊生成多模態融合圖
A. 特定模態的backbone
為了促進不同模態的有效特征學習,我們采用特定于模態的backbone來進行相機和激光雷達特征提取。 對于單個車輛,給定一組環視圖像 ,ResNet 風格的backbone網絡被用于從相機圖像中進行全面的特征學習,其中包含幾個strided的 3 × 3 卷積層,后面是批歸一化(BN)和修正線性單元(ReLU)。 此外,shortcut連接也是用1×1卷積構建的,從而實現穩定的梯度傳播和信息傳遞。 這樣,相機分支產生多尺度特征圖 ,其中 表示不同分辨率下特征圖的高度、寬度和通道數,n是特征尺度的數量。
先前關于從透視到鳥瞰(BEV)空間的空間投影的工作明確地通過相機內在和外在參數進行深度估計,然而,特征模糊和不準確的對應反而不可避免地損害了最終的性能。 在這項工作中,我們主要從世界坐標中采樣一組X-Y平面上的網格,然后將它們投影到圖像平面上,形成感知范圍內的BEV圖,如圖3所示。 為了利用深度信息 根據各種相機設置,采用新穎的稀疏交叉注意(SC A)模塊來實現正面圖像和 BEV 表示之間的特征交互。 具體來說,首先利用自適應滑動窗口采樣策略將多尺度特征 和 BEV 映射的分辨率劃分為較小的比例,并具有可承受的計算開銷。 給定窗口大小 和 ,得到的特征塊和 BEV 網格分別表示為 和 。 通過獨立的線性投影,我們進一步從兩個分區序列生成查詢 Qbev、鍵 Kcam 和值 Vcam,然后通過位置嵌入來突出顯示空間信息。 因此,稀疏交叉注意過程可以在數學上描述為等式1-4:
其中Linear(·)是具有全連接層的線性投影,Multi Head(·)是多頭自注意力層,Concate[·]是逐元素特征連接,σ(·)是softmax函數 ,h 是頭數,F F N(·) 定義了用多層感知機實現的前饋網絡,L N(·) 是層歸一化[55]。我們進行了三個 SCA 塊以進行分層特征聚合和空間相關性 建模,最終圖像BEV圖可表示為。
對于 LiDAR 分支,我們采用 PointPillars [27] backbone進行點特征提取。 將原始點云表示為 ,其中 和 分別代表空間坐標、反射率和點的數量,形成具有相應索引的堆疊柱張量,并且我們利用簡單的 PointNet [21] 架構進行柱特征提取。 為了生成偽 BEV 圖像,這些特征被進一步分散回 X-Y 平面,并引入 2D CNN backbone,用于將多分辨率圖合并為密集 LiDAR BEV 特征 。
B. 像素點融合模塊
給定與模態無關的 BEV 表示 和 ,一個直觀的想法是將它們連接在一起以進行多模態特征增強。 盡管如此,由于固有的異構性,它很容易遭受空間錯位,直接串聯或求和運算通常會導致粗略的信息融合,而沒有完全的目標語義監督。 為此,我們設計了一個動態通道融合(DCF)模塊,以通道方式利用圖像和 LiDAR 上下文信息,如圖 4 所示。更具體地說,我們根據索引連接每對像素點特征 ,并采用3×3卷積來探索有價值的語義和幾何線索,從而得到重新組織的特征。 為了突出目標的可辨別性,將全局平均池算子 G AP(·) 應用于特征通道,并進一步利用具有 sigmoid 函數 δ(·) 的多層感知器(MLP)來產生通道激活概率。 最后,我們將其與卷積特征 Fconv 相乘,生成每輛車的聯合特征圖 。 整個過程可以表述為等式 5:
總的來說,DCF 提供了一種有效的解決方案,可以在統一的自上而下平面中利用兩種模態的通道語義,并且由于其高效的設計,這個簡單的模塊不會降低推理速度。
圖5 全局-局部transformer示意圖。 給定一組以自車為中心的特征圖,通道token混合器(CTM)通過池化算子生成“補丁×通道”表,經過MLP模塊后,softmax函數σ(·)輸出全局響應值,形成通道 -混合映射。 在位置感知注意融合(PAF)中,進行標記化以將嵌入劃分為一系列固定大小的窗口特征,并進一步采用多頭自注意(MHSA)來探索每個聯網自車的空間相關性。請注意,附加的相對偏差 B 負責每個查詢鍵對的上下文關系編碼。
C. 全局-局部Transformer
對于每輛聯網車輛,我們開發了一種編碼器-解碼器架構,其中融合圖 被輸入到堆疊的 1 × 1 卷積中以進行漸進式數據壓縮,并相應地執行幾次反卷積以進行特征恢復,稱為 。 為了補償時空異步,我們還采用仿射變換 將不同的 CAV 特征投影到以自車為中心的視圖中,其中 表示使用傳感器校準矩陣的扭曲函數,k 是附近汽車的數量。 結果,我們在通信范圍內的自車坐標處獲得一組特征圖,其中表示目標車輛。
以前的工作通常通過既不接收附近 CAV 的所有表示也不丟棄低相關性協同者提供的整個消息來增強單個特征圖,前者不可避免地會導致重疊區域中的特征冗余,而后者可能會導致車輛之間的信息交互不足。 為此,我們提出了一種新穎的全局局部transformer,其中包括用于通道語義過濾和在整體視圖中跨車輛間補丁進行混合的通道token混合器(CTM),以及用于局部區域的空間相關性建模。 圖5說明了全局-局部transformer的整體結構。
1)通道token混合器(CTM)
兩階段轉換可以參考token化和混合過程。 給定 CAV 特征圖 ,我們主要利用 3D 特征池算子(即全局最大池化 (GM P(·)) 和全局平均池化 ( G AP(·)) 分別反映通道信息的特殊性和共性。然后,通過將它們連接并扁平化 (flatten(·)) 為圖像標記序列來進行特征向量化,形成“patches×channels”表 。整個過程可以描述為等式 6:
隨后,Mixer 通過兩層 MLP 將線性特征投影到隱藏空間,然后進行層歸一化和高斯誤差線性單元(GE LU(·))。 它作用于表 T 的行,映射 ,并在所有行之間共享信息,從而促進通道通信。 最后,將 sofxmax 函數應用于通道重要性評估,并以元素方式將其與 CAV 圖相乘,如等式 7 所示:
其中表示線性投影的權重,N是矩陣乘法,?表示特征通道上的算子,是隱藏層中的可調通道數,表示 通道混合特征圖。 受益于 MLP 的強大功能,CTM 能夠動態過濾不相關的表征(即重疊信號),同時捕獲分散在每個位置圖中的全局響應。 更重要的是,它巧妙性地跨通道執行特征混合,以增強有價值的信息表達,并顯著節省內存。
2)位置感知注意力融合(PAF)
為了進一步捕獲車輛之間的遠程依賴性,基于transformer的架構被廣泛應用,并使用自注意機制來探索每個自車網絡圖的空間關系。 盡管如此,它需要更長的訓練周期才能收斂,并且密集的點積運算帶來了難以承受的計算預算。 在這項工作中,我們設計了一個位置感知注意力融合(PAF)模塊,該模塊由基于稀疏窗口的標記化和自注意力機制組成,具有針對所有位置的局部特征交互的相對偏移量。 形式上,通道混合映射 被線性投影到高維空間,以生成三個特征嵌入 (為了簡化,e = 1, 2, 3 和 ) 。 隨后,我們將它們分割成一系列大小分別為N×N的3D不重疊窗口,形成,和,它們的維度相同。 值得注意的是,窗口級劃分比逐像素圖上的密集計算可以達到有效的標記化。 因此,每個標記被展平以生成查詢(Q)、鍵(K)和值(V)的序列,并且我們進一步引入具有相對偏差的多頭自注意力(M H S A(·))層來探索車輛內和車輛間的空間相關性。 與位置嵌入(PE)類似, 是一個固定大小的窗口索引,負責從每個查詢鍵對中學習上下文關系。 從數學上講,PAF 過程可以描述為等式8-11:
其中 Window[·] 表示窗口級patch分區。 我們利用兩層自注意力操作來利用細粒度的位置信息,多車輛融合圖可以稱為 。 利用窗口級注意力的優勢,PAF模塊不僅對位姿估計和偏移誤差具有魯棒性,而且輪廓感知屬性(例如邊緣和邊界)也可以提高難物體的檢測性能。
D. 預測頭
正如通常所做的那樣,聯合特征圖 被送到分類和回歸頭中,分別用于目標類別和定位預測。 值得注意的是,采用非極大值抑制(NMS)的后處理來去除冗余建議。
模型訓練時,損失函數包含分類和回歸部分。 給定真實框 θ,其中 表示目標中心, 定義 3D 框尺寸, θ是航向,我們采用焦點損失[56](F L(·))來平衡背景-前景樣本,并利用平滑的函數來監督3D框大小。 詳細信息可以參考等式12-14:
其中β和β是權重參數,α和γ是焦點損失的超參數,是估計的softmax概率。 請注意,在平滑 計算之前,航向方向 θ由正弦函數(即 θθ ))編碼,其中 θ和 θ 分別表示真實角度和預測角度。
實驗對比一覽
在本節中,我們對車輛間感知基準進行定量和定性實驗,以研究我們提出的框架及其組件的有效性。 詳細信息(即數據集、實施、消融研究等)將描述如下。
A 數據集
OPV2V是一個大規模的車車協同感知數據集,它建立在OpenCDA平臺和CARLA模擬器之上。 一般來說,它包含由四個車載攝像頭和一個64通道LiDAR傳感器生成的12k幀3D點云和RGB圖像,230k個3D框注釋覆蓋了完整的360°視圖。 在我們的實驗中,沿 x、y 和 z 軸的檢測范圍分別設置為 [-64,64] m、[-40,40] m 和 [-3,1] m。 該模型使用 6765 個和 1980 個樣本進行了訓練和驗證,我們在 2170 個 Default 和 550 個 Culver City 分割上測試了最終的協同性能。
V2X-Sim 2.0 是用于車輛到一切(V2X)感知評估的綜合多模態基準,由 CARLA 和微交通模擬器 SUMO 聯合仿真。 它由 3 個 CARLA 城鎮交叉口的 20 秒交通流中的 100 個場景組成,包含 37.2k 訓練數據、5k 驗證數據和 5k 測試數據。 每個場景有 2-5 個 CAV,配備 6 個攝像頭和 1 個 32 通道 LiDAR,以及 GPU 和 IMU 傳感器。 同樣,在我們的研究中,感知區域被限制為[-32,32]m×[-32,32]m×[-3,2]m。
B 實現細節
實驗平臺基于8塊NVIDIA Tesla V100 GPU,我們默認定義通信范圍為70m。 對于 OPV2V,我們引入課程學習策略來模仿人類認知機制:模型在 sim 模式下訓練 35 個 epoch,并在真實設置(例如,定位誤差、異步開銷等)下訓練另外 10 個 epoch。由 Adam優化,初始學習率為 0.0002,權重衰減為 0.02,余弦學習率調度器。 此外,還采用了一些技巧(即預熱和提前停止)來保證訓練穩定性,并將 NMS 后處理的分數和 IoU 閾值分別設置為 0.6 和 0.15。 對于V2X-Sim 2.0,我們遵循DiscoNet設置。 NMS 過程的分數和 IoU 閾值設置為 0.6 和 0.15。
將分辨率為520×520像素裁剪的圖像輸入ResNet-34編碼器進行多尺度特征提取,生成的BEV網格為0.25m。 我們在分層 SCA 模塊中采用四個注意力頭 (h = 4),窗口大小 D = (8,8,16) 和 G = (16,16,32)。 此外,體素大小沿 x-y-z 軸設置為 (0.25, 0.25, 4),在全局局部變換器中,窗口大小 N 為 4。除非另有說明,我們報告 3D 檢測平均精度 (AP) 為 0.5, 0.7 IoU 閾值進行公平比較。
C 定量結果
表 I 說明了我們提出的 V2VFormer++ 和四個對應方案在 OPV2V Default 和Culver City上的協同感知結果。 一方面,我們從每個單視圖模塊中刪除相機流,并評估僅 LiDAR 的檢測性能,稱為 V2VFormer++-L。 據觀察,我們提出的方法在 Default 和 Culver City 集上優于 CoBEVT 和Where2comm方法,性能提升了 2.3% ~ 7.5% 和 2.0% ~ 2.8% AP@0.7,這表明了其有效性 和優越感。 另一方面,我們將相同的相機流附加到僅 LiDAR 的協同檢測器(即 V2VNet、CoBEVT、Where2comm)中,并評估多模態檢測精度。 我們提出的 V2VFormer++ 給出了最佳的協同感知性能:它在默認 IoU 閾值 0.5 和 0.7 下實現了 93.5% 和 89.5% AP,比三種替代方案高出 0.3% ~ 0.9% AP@0.5 和 0.1% ~ 1.7% AP@ 0.7。 此外,V2VFormer++在Culver City上與第一梯隊Where2comm相當(僅落后0.2% AP),展示了其競爭力和適應性。
表1:COBEVT [48]、WHERE2COMM [16]、V2VNET [14] 和 V2VFORMER++ 在 OPV2V 測試分割上取得的檢測結果,我們用粗體字體突出顯示 0.5 和 0.7 IOU 閾值時的最佳精度
表2:WHEN2COM、WHO2COM、V2VNET、DISCONET 和 V2VFORMER++ 在 V2X-SIM 2.0 測試集上取得的檢測結果。 此外,我們列出了上界和下界性能,并且還用粗體突出顯示了 0.5 和 0.7 IOU 閾值時的最佳精度
同時,V2X-Sim 2.0測試集上的協同檢測結果也列于表II中,我們基于DiscoNet重現了不同的融合策略(例如早期、中期和后期)。 我們的 V2VFormer++ 實現了最先進的協同檢測精度,分別為 72.7% AP@0.5 和 65.5 AP@0.7。 與其他中間對應部分(例如 DiscoNet)相比,V2VFormer++ 在兩個 IoU 閾值下都獲得了超過 10% 的 AP 提升,這意味著所提出的特征協同的進步。 此外,它的表現比上限高出 9.4% AP@0.5 和 5.3% AP@0.7 。 我們認為,由于原始點云噪聲較大,該模型無法利用相鄰 CAV 的有意義信息,而我們的中間表示提供了豐富的目標語義和幾何信息,以合理地促進協同感知性能。
D 消融研究
為簡單起見,將對 OPV2V Default 和 Culver City 進行消融研究,以衡量我們提出的框架的有效性和穩健性。
1)組件的有效性:為了澄清,我們選擇 V2VNet作為基準,在Default上達到 85.0% AP@0.5 和 72.0% AP@0.7%,在Culver City上達到 80.9% AP@0.5 和 64.0% AP@0.7, 分別如表III所示。 當附加具有動態通道融合(DCF)的相機分支時,它在 0.5 和 0.7 IoU 閾值下提供 7.6% ~ 19.0% 的精度增益。 此外,我們用全局局部transformer取代了 V2VNet 提出的空間感知圖神經網絡(GNN),以衡量其對協同感知的貢獻。 同樣,它在默認情況下提供 10.0% AP@0.7 收益。 最后,V2VFormer++將具有全局局部transformer的DCF納入基線,并觀察到最佳性能,證明了每個組件的有效性。
為了進一步研究單車視圖下的異構數據融合,我們用相機流擴展了僅 LiDAR 的檢測器(例如,V2VNet、CoBEVT 和Where2comm),并采用兩種相機-LiDAR 聚合方法 進行比較。 如表IV所示,動態通道融合(DCF)在不同協作框架之間提供了比串聯(Concate)更好的多模態特征組合:盡管性能略有下降,但它穩定地在Default 和 Culver City上提供0.4%~1.0%AP@0.5和0.4% ~ 4.0% AP@0.7。 受益于通道池化和重新加權操作,DCF能夠充分利用來自各種模態的語義和幾何信息,并且富有表現力的多模態表示有利于協同性能的增強。
表3 各個組件對 OPV2V 測試分割的有效性的消融研究。 準確度的提升/下降分別在括號中用不同的顏色突出顯示
表4 多模態融合方法對 OPV2V 測試分割的性能貢獻的消融研究。 準確度的提升/下降分別在括號中用不同的顏色突出顯示
2)魯棒性測試:為了分析協同感知的魯棒性,我們首先對幾種多模態感知框架進行課程學習,并列出了OPV2V Default集在不同模式配置下的協同結果,如表五所示。 Sim/Real 定義了不帶/帶數據壓縮的理想/現實世界傳輸,而Perfect/Noisy 條件代表不帶/帶定位誤差(例如高斯噪聲)和通信延遲(超過 200ms 的均勻分布)的理想/損壞環境。
顯然,所提出的 V2VFormer++ 顯示了針對不同損壞的強大魯棒性:它在 Sim+Noisy 級別上實現了 84.9% AP@0.5 和 58.5% AP@0.7 的良好檢測精度,并在 Sim+Noisy 級別上提供了 6.0% 和 16.9% AP 增益。 當在真實環境中從 Perfect 轉換到 Noisy 時,所有協同的準確度都會大幅下降,例如,V2VNet 中的 AP@0.5 為 6.3%,AP0.7 為 10.9%。 我們的 V2VFormer++ 報告可接受的性能下降為 2.1% AP@0.5 和 9.6% AP@0.7,表明具有良好的穩定性和通用性。
我們進一步添加高斯噪聲和均勻分布來模擬不同的真實干擾,并驗證了抗位置誤差、航向誤差和通信延遲的能力,如圖6所示。顯然,在具有標準偏差 (std) σ 的高斯分布上的定位偏移量,我們提出的方法在對抗干擾方面表現出了顯著且有利的性能, 而對應算法(例如 CoBEVT [48])隨著偏移值的增加而出現明顯的性能下降。 此外,它不易受到 std σ 變化航向噪聲的影響,并且在 [0, 400]ms 時延下也能保持良好的 AP 結果。 總體而言,表明V2VFormer++在面對嚴酷的實際場景時具有突出的魯棒性和抗干擾能力。 由于課程學習策略,該模型可以逐步探索固有的重要信息,我們認為這些知識將有助于保持相當大的感知性能。 更重要的是,全局-局部transformer協同策略將以自車為中心的視角與多視圖表示有機地結合在一起,這有助于在遮擋和超線區域中進行硬采樣感知。
表5 針對 OPV2V 默認分割上各種模式配置的模型魯棒性消融研究。 準確度增益分別在括號中突出顯示
圖 6. 穩健性測試的消融研究。 值得注意的是,所有實驗都是在 OPV2V 默認分割上進行的。 左邊。 IoU閾值0.7時位置誤差與AP結果的關系; 中間。 IoU閾值0.7時航向誤差與AP結果的關系; 右邊。 時間延遲和AP結果之間的關系在0.7 IoU閾值下。
圖7.動態通道融合(DCF)模塊激活的注意力圖的可視化結果。 從左到右隨機選擇四種常見場景(即直線、合并、曲線和交叉),并在每列中相應列出一對激光雷達真值(GT)和注意力圖。 注意到激活值較大的點意味著該區域發生目標的可能性較高。
圖8.全局-局部transformer協同策略激活的注意力圖的可視化結果。 從左到右隨機選擇四種常見場景(即直線、合并、曲線和交叉),并在每列中相應列出一對激光雷達地面實況(GT)和注意圖。 注意到激活值較大的點意味著該區域發生目標的可能性較高。
圖 9. OPV2V 測試分割中的檢測可視化。 從上到下,我們列出了原始相機圖像、LiDAR 真值(GT)以及 CoBEVT [48]、Where2comm [16] 和 V2VFormer++ 實現的感知結果。 注意到GT和預測框分別用紅色和綠色繪制,我們還用藍色圓圈突出了V2VFormer++的優越性和先進性。 顯然,與其他方法相比,我們提出的方法顯示出更準確、更魯棒的協同檢測性能,即使在嚴重遮擋、盲點和超線區域也是如此。
E 定性結果
最后通過定性實驗深入分析fuison模塊的效果。 我們還展示了協同檢測結果,以反映我們提出的 V2VFormer++ 的優勢。
1)注意力圖:如圖7和圖8所示,我們在直線、合并、曲線、交叉點處分別展示了一對LiDAR真值(GT)和DCF在全局局部transformer協同后的激活圖評價。 得益于有效的 DCF 設計,激活點可以大致對應 LiDAR GT 中的目標區域,從而使模型能夠聚焦于物體的高電位或感興趣區域 (RoI)。 DCF 以動態逐點方式探索特征通道語義,因此可以從相機和 LiDAR 模式中充分利用有價值的信息。 類似地,全局-局部transformer通過通道方式和位置感知重要性使用來自相鄰 CAV 的多視圖表示。 它將提供更廣泛和更長的探測范圍,并且突出顯示的點可以引導模型檢測被遮擋或很少看到的物體。
2)檢測可視化:如圖 9 所示,我們顯示了 V2VFormer++ 與 CoBEVT [48] 和Where2comm [16] 方法的比較可視化結果。 通常,我們提出的算法始終保持非常精確和穩健的檢測結果,特別是在具有挑戰性和模糊性的場景中。 它在其他同類技術無法做到的難樣本(即遮擋、盲點和超線區域)中仍然表現出出色的感知能力,表明了其優越性和先進性。
V2VFormer++的潛力與優勢
在本文中,我們首次嘗試了具有多模態表示的車車協同框架,稱為V2VFormer++。 對于單個車輛,提出了具有稀疏交叉注意(SCA)變換和動態通道融合(DCF)的雙流架構,用于統一鳥瞰(BEV)空間下的相機-LiDAR特征聚合,從而利用語義 和完整的幾何信息。 為了更好地利用相鄰 CAV 的車輛間相關性,我們設計了一種兩階段全局-局部transformer協同策略,其中通道token混合器 (CTM) 捕獲分散在每個位置地圖和位置感知融合 (PAF) 中的全局響應并從局部角度探索每個自車網絡對的空間關系。 在 OPV2V [19] 和 V2X-Sim 2.0 [20] 基準上進行了實證實驗,結果證明我們提出的 V2VFormer++ 我們的方案以大幅優勢領先于所有同類方案,表明了其有效性和優越性。 此外,消融研究和可視化分析進一步揭示了其對現實場景中各種干擾的強大魯棒性。
未來的工作將繼續研究不利因素如何影響多智能體感知算法,例如延遲、有損包等。此外,如何優化推理效率對于實際部署也相對重要。
原文鏈接:https://mp.weixin.qq.com/s/43PcnUS3DerA6WbKEAsmRQ