擴散一切？3DifFusionDet：擴散模型殺進LV融合3D目標(biāo)檢測！

作者：Xinhao Xiang 2023-12-07 13:07:59

3DifFusionDet框架將3D目標(biāo)檢測表示為從有噪聲的3D框到目標(biāo)框的去噪擴散過程。在這個框架中，真值框以隨機分布擴散進行訓(xùn)練，模型學(xué)習(xí)反向噪聲過程。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

筆者的個人理解

近年來，擴散模型在生成任務(wù)上非常成功，自然而然被擴展到目標(biāo)檢測任務(wù)上，它將目標(biāo)檢測建模為從噪聲框(noisy boxes)到目標(biāo)框(object boxes)的去噪擴散過程。在訓(xùn)練階段，目標(biāo)框從真值框(ground-truth boxes)擴散到隨機分布，模型學(xué)習(xí)如何逆轉(zhuǎn)這種向真值標(biāo)注框添加噪聲過程。在推理階段，模型以漸進的方式將一組隨機生成的目標(biāo)框細(xì)化為輸出結(jié)果。與傳統(tǒng)目標(biāo)檢測方法相比，傳統(tǒng)目標(biāo)檢測依賴于一組固定的可學(xué)習(xí)查詢，3DifFusionDet不需要可學(xué)習(xí)的查詢就能進行目標(biāo)檢測。

3DifFusionDet的主要思路

3DifFusionDet框架將3D目標(biāo)檢測表示為從有噪聲的3D框到目標(biāo)框的去噪擴散過程。在這個框架中，真值框以隨機分布擴散進行訓(xùn)練，模型學(xué)習(xí)反向噪聲過程。在推理過程中，模型逐漸細(xì)化了一組隨機生成的框。在特征對齊策略下，漸進細(xì)化方法可以對激光雷達(dá)-Camera融合做出重要貢獻。迭代細(xì)化過程還可以通過將該框架應(yīng)用于需要不同級別的精度和速度的各種檢測環(huán)境，從而顯示出極大的適應(yīng)性。KITTI是一個真實交通目標(biāo)識別的基準(zhǔn)，在KITTI上進行了大量的實驗表明，與早期的檢測器相比，在KITTI能夠取得良好的性能。

3DifFusionDet主要貢獻如下：

將3D目標(biāo)檢測表示為生成式去噪過程，并提出了 3DifFusionDet，這是第一個將diffusion模型應(yīng)用于 3D目標(biāo)檢測的研究。
研究了生成去噪過程框架下的最佳Camera-LiDAR 融合對齊策略，并提出了 2 個分支融合對齊策略以利用兩種模態(tài)提供的互補信息。
在 KITTI 基準(zhǔn)測試上進行了大量的實驗。與現(xiàn)有精心設(shè)計的方法相比，3DifFusionDet 取得了有競爭力的結(jié)果，展示了diffusion模型在 3D目標(biāo)檢測任務(wù)中的前景。

使用 LiDAR-Camera融合進行 3D 目標(biāo)檢測

對于 3D 目標(biāo)檢測，Camera和 LiDAR 是兩種互補的傳感器類型。LiDAR 傳感器專注于 3D 定位，并提供有關(guān) 3D 結(jié)構(gòu)的豐富信息，而Camera則提供顏色信息，從中可以導(dǎo)出豐富的語義特征。為了通過融合來自攝像機和 LiDAR 的數(shù)據(jù)來準(zhǔn)確檢測 3D 目標(biāo)，人們做出了許多努力。最先進的方法主要基于 LiDAR 基于 3D 目標(biāo)檢測器，并努力將圖像信息納入 LiDAR 檢測流程的各個階段，因為基于 LiDAR 的檢測方法的性能明顯優(yōu)于基于Camera的方法。由于基于激光雷達(dá)和基于Camera的檢測系統(tǒng)的復(fù)雜性，將兩種模式結(jié)合起來必然會增加計算成本和推理時間延遲。因此，有效融合多種模式信息的問題仍然存在。

擴散模型

擴散模型是一種生成模型，它通過引入噪聲來逐漸解構(gòu)觀察到的數(shù)據(jù)，并通過反轉(zhuǎn)該過程來恢復(fù)原始數(shù)據(jù)。擴散模型和去噪分?jǐn)?shù)匹配通過去噪擴散概率模型連接起來（Ho、Jain 和 Abbeel 2020a），該模型最近引發(fā)了人們對計算機視覺應(yīng)用的興趣。已被多個領(lǐng)域應(yīng)用，例如圖生成、語言理解、魯棒學(xué)習(xí)和時態(tài)數(shù)據(jù)建模等。
擴散模型在圖像生成和合成方面取得了巨大成功。一些先驅(qū)作品采用擴散模型進行圖像分割任務(wù)。與這些領(lǐng)域相比，它們在目標(biāo)檢測方面的潛力尚未得到充分開發(fā)。以前使用擴散模型進行對象檢測的方法僅限于 2D 邊界框。與 2D 檢測相比，3D 檢測提供了更豐富的目標(biāo)空間信息，可以實現(xiàn)準(zhǔn)確的深度感知和體積理解，這對于自動駕駛等應(yīng)用至關(guān)重要，在自動駕駛等應(yīng)用中，識別周圍車輛的精確距離和方向是自動駕駛等應(yīng)用的重要方面。

3DifFusionDet的網(wǎng)絡(luò)設(shè)計

圖 1 顯示了 3DifFusionDet 的整體架構(gòu)。其接受多模式輸入，包括 RGB 圖像和點云。將整個模型分為特征提取和特征解碼部分，與 DiffusionDet相同，在每個迭代步驟中直接應(yīng)用于原始 3D 特征會很困難。特征提取部分僅運行一次，以從原始輸入 X 中提取深層特征表示，而特征解碼組件將此深層特征作為條件并訓(xùn)練以逐步從噪聲框中繪制框預(yù)測。

為了充分利用兩種模態(tài)提供的互補信息，將每種模態(tài)的編碼器和解碼器分開。此外，使用擴散模型分別生成噪聲框和，分別訓(xùn)練圖像解碼器和點云解碼器以細(xì)化 2D 和 3D 特征。至于這兩個特征分支的連接，簡單地連接它們會導(dǎo)致信息剪切，從而導(dǎo)致性能下降。為此，引入了多頭交叉注意機制來深度對齊這些特征。這些對齊的特征被輸入到檢測頭以預(yù)測最終的真值，而不會產(chǎn)生噪聲。

對于點云編碼器，使用基于體素的方法進行提取，并采用基于稀疏的方法進行處理。基于體素的方法將 LiDAR 點轉(zhuǎn)換為體素。與其他系列的點特征提取方法（例如基于點的方法）相比，這些方法將點云離散為等間距的 3D 網(wǎng)格，在盡可能保留原始 3D 形狀信息的同時減少內(nèi)存需求。基于稀疏性的處理方法進一步幫助網(wǎng)絡(luò)提高計算效率。這些好處平衡了擴散模型相對較高的計算要求。

與 2D 特征相比，3D 特征包含額外的維度，使得學(xué)習(xí)更具挑戰(zhàn)性。考慮到這一點，除了從原始模態(tài)提取特征之外，還添加了一條融合路徑，將提取的圖像特征添加為點編碼器的另一個輸入，促進信息交換并利用來自更多樣化來源的學(xué)習(xí)。采用PointFusion 策略，其中來自 LiDAR 傳感器的點被投影到圖像平面上。然后，圖像特征和對應(yīng)點的串聯(lián)由 VoxelNet 架構(gòu)聯(lián)合處理。

特征解碼器。提取的圖像特征和提取的點特征用作相應(yīng)圖像和點解碼器的輸入。每個解碼器還結(jié)合了來自獨特創(chuàng)建的噪聲框或的輸入，除了相應(yīng)的提取特征之外，還可以學(xué)習(xí)分別細(xì)化 2D 和 3D 特征。

圖像解碼器受到 Sparse RCNN的啟發(fā)，接收來自 2D 提議框集合的輸入，以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。點解碼器接收來自 3D 提議框集合的輸入，以從圖像編碼器創(chuàng)建的特征圖中裁剪 RoI 特征。對于點解碼器，輸入是一組 3D 提議框，用于從點編碼器生成的特征圖中裁剪 3D RoI 特征。

交叉注意力模塊。在對兩個特征分支進行解碼之后，需要一種將它們組合起來的方法。一種直接的方法是通過連接這兩個功能分支來簡單地連接它們。這種方式顯得過于粗糙，可能會導(dǎo)致模型遭受信息剪切，導(dǎo)致性能下降。因此，引入了多頭交叉注意機制來深度對齊和細(xì)化這些特征，如圖 1 所示。具體來說，點解碼器的輸出被視為 k 和 v 的源，而圖像解碼器的輸出被投影到 q 上。

實驗結(jié)果

在 KITTI 3D 目標(biāo)檢測基準(zhǔn)上進行實驗。遵循用于測量檢測性能的標(biāo)準(zhǔn) KITTI 評估協(xié)議 (IoU = 0.7)，表 1 顯示了 3DifFusionDet 方法與 KITTI 驗證集上最先進的方法相比的平均精度 (mAP) 分?jǐn)?shù)。報告了的性能，遵循 [diffusionDet, difficileist] 并粗體顯示每個任務(wù)的兩個性能最佳的模型。

根據(jù)表 1，與基線相比，本文的方法顯示出顯著的性能改進。當(dāng) D = 4 時，它能夠以相對較短的推理時間超越大多數(shù)基線。通過進一步增加 D 使得 D = 8，考慮到更長的推理時間，在所有模型中實現(xiàn)了最佳性能。這種靈活性揭示了廣泛的潛在用途。

消融實驗 首先，展示了保持圖像 RoI 對齊分支和編碼器特征融合的必要性。要使用擴散模型從Camera和激光雷達(dá)設(shè)計 3D 目標(biāo)檢測器，最直接的方法應(yīng)該是直接應(yīng)用生成的噪聲 3D 框作為融合 3D 特征的輸入。然而，這種方式可能會受到信息剪切的影響，從而導(dǎo)致性能下降，如表2所示。利用它，除了將點云RoIAlign放在編碼的3D特征下之外，我們還創(chuàng)建了第二個分支，使圖像RoIAlign 在編碼的 2D 特征下。顯著提高的性能表明可以更好地利用兩種模式提供的補充信息。

然后分析使用不同融合策略的影響：給定學(xué)習(xí)的 2D 和 3D 表示特征，如何更有效地組合。與 2D 特征相比，3D 特征包含一個額外的維度，這使得它們學(xué)習(xí)起來更具挑戰(zhàn)性。通過附加投影來自 LiDAR 傳感器的點，使用圖像特征和要聯(lián)合處理的對應(yīng)點的串聯(lián)，添加從圖像特征到點特征的信息流路徑 VoxelNet 架構(gòu)。表 3 顯示了其對檢測精度的好處。

需要融合的另一部分是解碼后兩個特征分支的連接。在這里，應(yīng)用了多頭交叉注意機制來深度對齊和細(xì)化這些特征。除此之外，還研究了更直接的方法，例如使用串聯(lián)運算、求和運算、直接乘積運算以及使用多層感知器（MLP）。結(jié)果如表4所示。其中，交叉注意力機制表現(xiàn)出最好的性能，訓(xùn)練和推理速度幾乎相同。

研究準(zhǔn)確性和推理速度的權(quán)衡。通過比較 3D 檢測精度和每秒幀數(shù) (FPS)，展示了選擇不同提案框以及 D 的影響。提案框的數(shù)量從 100、300 中選擇，而 D 從 1, 4, 8 中選擇. 運行時間是在批量大小為 1 的單個 NVIDIA RTX A6000 GPU 上進行評估的。結(jié)果發(fā)現(xiàn)，將提案框的數(shù)量從 100 增加到 300 可顯著提高準(zhǔn)確性增益，而延遲成本可以忽略不計（1.3 FPS 與 1.2 FPS）。另一方面，更好的檢測精度會導(dǎo)致更長的推理時間。當(dāng)將 D 從 1 更改為 8 時，3D 檢測精度從急劇（Easy：87.1 mAP 到 90.5 mAP）增加到相對緩慢（Easy：90.5 AP 到 91.3 mAP），而 FPS 不斷下降。

Case研究和未來的工作基于其獨特的屬性，本文討論了 3DifFusionDet 的潛在用途。一般來說，準(zhǔn)確、魯棒和實時的推斷是目標(biāo)檢測任務(wù)的三個要求。在自動駕駛汽車的感知領(lǐng)域，考慮到高速行駛的汽車由于慣性需要花費額外的時間和距離來減速或改變方向，因此感知模型對實時性要求特別敏感。更重要的是，為了保證舒適的乘坐體驗，汽車應(yīng)該在安全的前提下，以最小的加速度絕對值盡可能平穩(wěn)地行駛。與其他同類自動駕駛汽車產(chǎn)品相比，其主要優(yōu)勢之一就是擁有更流暢的乘坐體驗。為此，無論是加速、減速還是轉(zhuǎn)彎，自動駕駛汽車都應(yīng)該開始快速做出反應(yīng)。汽車響應(yīng)越快，為后續(xù)操作和調(diào)整贏得的空間就越大。這比首先獲得最精確的檢測到的目標(biāo)的分類或位置更重要：當(dāng)汽車開始響應(yīng)時，仍然有時間和距離來調(diào)整其行為方式，可以利用這些時間和距離以更精確的方式做出進一步的推斷，其結(jié)果隨后微調(diào)汽車的駕駛操作。

本文的 3DifFusionDet 自然滿足了需求。如表4所示，當(dāng)推理步長較小時，模型可以快速做出推理，并得到大致較高準(zhǔn)確度的結(jié)果。這種最初的感知足夠精確，足以讓自動駕駛汽車開始新的響應(yīng)。隨著推理步驟的增長，會生成更準(zhǔn)確的檢測目標(biāo)，從而進一步微調(diào)其響應(yīng)。這種漸進式檢測方式非常適合這項任務(wù)。此外，由于本文的模型可以在參考過程中改變提案框的數(shù)量，因此從小步驟獲得的先驗信息可以反過來用于優(yōu)化實時提案框的數(shù)量。如表 4 所示，不同先驗提案框下的性能有所不同。因此，開發(fā)這種自適應(yīng)探測器是一項前景光明的工作。

除了自動駕駛汽車之外，本文的模型本質(zhì)上匹配任何在連續(xù)反應(yīng)空間中需要短推斷時間的現(xiàn)實場景，特別是在檢測器根據(jù)檢測結(jié)果移動的場景中。受益于擴散模型的性質(zhì)，3DifFusionDet 可以快速找到幾乎準(zhǔn)確的真實空間感興趣區(qū)域，觸發(fā)機器開始進行新的操作和自我優(yōu)化。接下來的更高精度的感知機進一步微調(diào)機器的操作。為了將模型部署到這些移動探測器中，一個懸而未決的問題是結(jié)合較大步驟的早期推斷和較小步驟的最新推斷之間的推斷信息的策略，這是另一個懸而未決的問題。

總結(jié)

本文介紹了 3DifFusionDet，這是一種具有強大 LiDAR 和Camera融合功能的新型 3D 目標(biāo)檢測器。將 3D 目標(biāo)檢測表述為生成式去噪過程，這是第一個將擴散模型應(yīng)用于 3D 目標(biāo)檢測的工作。這項工作在生成去噪過程框架的背景下研究了最有效的Camera激光雷達(dá)融合對準(zhǔn)策略，并提出了融合對準(zhǔn)策略以充分利用兩種模式提供的補充信息。與成熟的檢測器相比，3DifFusionDet 取得了良好的性能，展示了擴散模型在目標(biāo)檢測任務(wù)中的廣闊前景。強大的學(xué)習(xí)結(jié)果和靈活的推理模式使其具有廣闊的潛在用途。

原文鏈接：https://mp.weixin.qq.com/s/0Fya4RYelNUU5OdAQp9DVA

責(zé)任編輯：張燕妮來源：自動駕駛之心

3D 模型訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看