ECCV'24 | RayDN：即插即用的難例采樣，超越StreamPETR！

作者：Feng Liu等 2024-07-17 09:38:26

人工智能新聞

今天為大家分享ECCV2024的Ray Denoising！用于環(huán)視3D目標(biāo)檢測的depth-aware難例采樣，超越StreamPETR！

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

原標(biāo)題：Ray Denoising: Depth-aware Hard Negative Sampling for Multi-view 3D Object Detection

論文鏈接：https://arxiv.org/pdf/2402.03634

代碼鏈接：https://github.com/LiewFeng/RayDN

作者單位：中國科學(xué)院大學(xué) Mach Drive

論文思路：

多視角3D目標(biāo)檢測系統(tǒng)由于圖像深度估計的挑戰(zhàn)，常常難以生成精確的預(yù)測，導(dǎo)致冗余和錯誤檢測的增加。本文提出了一種創(chuàng)新方法— Ray Denoising ，通過沿著相機(jī)射線進(jìn)行戰(zhàn)略性采樣來構(gòu)建困難負(fù)樣本，從而提高檢測精度。這些負(fù)樣本在視覺上難以與真正的正樣本區(qū)分，使模型被迫學(xué)習(xí)深度感知特征，從而增強(qiáng)其區(qū)分真陽性和假陽性的能力。Ray Denoising 設(shè)計為一個即插即用的模塊，兼容于任何DETR風(fēng)格的多視角3D檢測器，并且只在訓(xùn)練時增加了極少的計算成本，而不影響推理速度。本文的綜合實驗，包括詳細(xì)的消融研究，一致表明 Ray Denoising 在多個數(shù)據(jù)集上均優(yōu)于強(qiáng)基線方法。在NuScenes數(shù)據(jù)集上，相較于最先進(jìn)的StreamPETR方法，它在 mAP 上提升了1.9%。在Argoverse 2數(shù)據(jù)集上也顯示出顯著的性能提升，突顯了其良好的泛化能力。

主要貢獻(xiàn)：

本文識別了沿同一射線的誤檢這一持續(xù)存在的挑戰(zhàn)，這成為多視角3D目標(biāo)檢測器性能的瓶頸。

本文引入了 Ray Denoising ，這是一種新穎的去噪方法，利用Beta分布在射線方向上創(chuàng)建深度感知的困難負(fù)樣本。該方法明確考慮了場景的3D結(jié)構(gòu)，提供了一種靈活的解決方案，兼容任何DETR風(fēng)格的多視角3D檢測器，以解決沿射線的重復(fù)預(yù)測問題。

本文的方法在NuScenes數(shù)據(jù)集 [2] 上達(dá)到了最先進(jìn)的結(jié)果，顯著提升了多視角3D目標(biāo)檢測器的性能。具體來說，本文在 mAP 上相較于當(dāng)前最先進(jìn)的方法StreamPETR提升了1.9%，從而證明了 Ray Denoising 的有效性。

論文設(shè)計：

3D目標(biāo)檢測是自動駕駛系統(tǒng)中的關(guān)鍵組件，因而引起了計算機(jī)視覺領(lǐng)域的廣泛關(guān)注。相比于基于LiDAR的解決方案，基于圖像的3D目標(biāo)檢測由于其成本效益正經(jīng)歷著研究熱潮 [9, 10, 13, 14, 37, 38]。在依賴于周圍相機(jī)圖像的多視角3D目標(biāo)檢測中，一個主要挑戰(zhàn)是從圖像中估計深度的難度，這會導(dǎo)致重復(fù)預(yù)測，如圖1所示。

盡管在方法上有所改進(jìn)，多視角3D目標(biāo)檢測器在減少由深度模糊引起的誤檢方面仍面臨困難。近期的幾項研究 [8, 15, 17, 19, 22, 26, 34, 41, 46] 試圖通過引入時間信息來解決這一問題。然而，這些方法并未明確考慮場景的3D結(jié)構(gòu)，從而限制了其進(jìn)一步提升的潛力。

此外，先前的研究還探索了應(yīng)用諸如非極大值抑制（Non-Maximum Suppression, NMS）和 Focal Loss 等通用技術(shù)來緩解重復(fù)預(yù)測問題。NMS作為一種后處理技術(shù)，主要針對具有高交并比（IoU）的誤檢，但當(dāng)這些預(yù)測沿射線分散且IoU較低時，其效果不佳。Focal Loss 作為一種旨在減少高置信度誤檢的損失函數(shù)也被應(yīng)用。然而，觀察發(fā)現(xiàn)，使用 Focal Loss 的多視角3D目標(biāo)檢測器在有效解決沿同一射線的誤檢問題時仍然面臨挑戰(zhàn)。

本文的定量分析強(qiáng)調(diào)了解決與真實值（Ground Truth）沿同一射線的誤檢的重要性。通過利用真實值目標(biāo)的精確位置數(shù)據(jù)，本文能夠在最先進(jìn)的StreamPETR方法 [34] 中識別并消除這些冗余預(yù)測。這一過程顯著提升了 mAP 5.4%，突顯了模型提升深度估計能力的關(guān)鍵需求。這一顯著的改進(jìn)表明，通過優(yōu)化深度估計來抑制這些誤檢，能夠顯著提升整體檢測性能的潛力。

本文的關(guān)鍵觀察是，由于傳統(tǒng)多視角目標(biāo)檢測器的固有限制，誤檢常常沿著相機(jī)射線發(fā)生。由于每個像素的深度信息未能準(zhǔn)確估計，位置嵌入只能編碼射線方向。因此，同一射線上的查詢將始終與圖像中的相同視覺特征交互，導(dǎo)致沿該射線出現(xiàn)大量重復(fù)預(yù)測（誤檢）。這一情形突顯了模型學(xué)習(xí)深度感知特征的需求，以便在視覺特征相同的情況下區(qū)分深度上的目標(biāo)。本文提出了一種新方法，稱為 Ray Denoising （簡稱RayDN）。該框架本質(zhì)上具有靈活性，不限制用于采樣深度感知困難負(fù)樣本的分布選擇。根據(jù)本文的消融研究，本文選擇了Beta分布，因為它在捕捉模型可能生成的誤檢的空間分布方面表現(xiàn)出色。此選擇使 Ray Denoising 能夠創(chuàng)建用于去噪的深度感知困難負(fù)樣本，從而增強(qiáng)模型學(xué)習(xí)更健壯特征和表征以區(qū)分沿射線的誤檢的能力，如圖2所示。Ray Denoising 在訓(xùn)練階段僅引入了極少的計算成本增加，而不會影響推理速度。

圖1：在多視角3D目標(biāo)檢測中，從圖像中估計深度的挑戰(zhàn)導(dǎo)致沿相機(jī)射線的重復(fù)預(yù)測和誤檢。

圖2：提出的 Ray Denoising 方法（右圖）有效減少了在先前最先進(jìn)方法StreamPETR [34]（左圖）中沿射線的誤檢（紅色矩形高亮部分）。

圖3：Ray Denoising 方法的整體框架，這是一種即插即用的訓(xùn)練技術(shù)，適用于DETR風(fēng)格的多視角3D目標(biāo)檢測器，重點在于提升模型區(qū)分深度中真陽性和假陽性的能力。通過投射射線和采樣深度感知的去噪查詢，有效解決了由于視覺深度估計固有困難而產(chǎn)生的誤檢問題，從而在檢測性能上相較于強(qiáng)基線方法取得了顯著提升。

討論：

本文的 Ray Denoising （Ray Denoising）方法基于一個關(guān)鍵觀察，即基于圖像的3D檢測系統(tǒng)往往難以區(qū)分沿相機(jī)射線的真陽性和假陽性。DETR風(fēng)格的多視角3D目標(biāo)檢測器通過真實值監(jiān)督隱式地學(xué)習(xí)深度估計。然而，可學(xué)習(xí)查詢的隨機(jī)分布參考點并未充分利用可用的真實值信息。盡管這些參考點在訓(xùn)練過程中會更新，但它們未能為每個場景中的每個目標(biāo)提供足夠的困難負(fù)樣本。為了增強(qiáng)對真實值信息的利用，傳統(tǒng)的去噪技術(shù)在訓(xùn)練期間引入了均勻分布在真實值目標(biāo)周圍的額外參考點。這些特定實例的參考點提高了檢測性能 [19,22,34]。然而，它們忽視了多視角3D目標(biāo)檢測固有的深度模糊問題。由于每個像素缺乏精確的深度信息，位置嵌入只能編碼射線方向，而不能編碼深度。這導(dǎo)致同一射線上的查詢與相同的圖像特征交互，產(chǎn)生冗余預(yù)測。Ray Denoising 不同于傳統(tǒng)技術(shù)，通過沿從相機(jī)到目標(biāo)的射線戰(zhàn)略性地生成參考點。這種方法明確考慮了場景中每個目標(biāo)的3D結(jié)構(gòu)，提供了足夠數(shù)量的困難負(fù)樣本。在訓(xùn)練過程中，這些 Ray Queries 在自注意力層中進(jìn)行交互，有效引導(dǎo)模型抑制深度模糊的空間困難負(fù)樣本。這種交互增強(qiáng)了檢測器區(qū)分真陽性預(yù)測（目標(biāo)）和假陽性預(yù)測（重復(fù)檢測）的能力，從而提高了檢測精度。

實驗結(jié)果：

圖4：(a) 分布比較顯示，Beta分布在-1到1之間有界，而Laplace分布和高斯分布則是無界的。(b) Beta分布族，通過使用變換將 x 范圍從調(diào)整到。

圖5：(a) 不同距離閾值下的精確度-召回率（precision-recall）曲線可視化。Ray Denoising 在幾乎所有召回率水平上均提升了精確度，有效抑制了誤檢。(b) 按類別的平均精度（AP）比較。Ray Denoising 在所有目標(biāo)類別上均優(yōu)于最先進(jìn)的StreamPETR。

圖6：本文在nuScenes驗證集上的檢測結(jié)果可視化。Ray Denoising 在有效減少重復(fù)誤檢的同時，保持了檢測同一射線上的高度遮擋目標(biāo)的能力。

總結(jié)：

本文引入了 Ray Denoising （Ray Denoising），這是一種旨在克服多視角3D目標(biāo)檢測中深度估計不準(zhǔn)確這一關(guān)鍵挑戰(zhàn)的方法。Ray Denoising 解決了沿相機(jī)射線發(fā)生的誤檢問題，這些誤檢是由于圖像深度信息不精確直接導(dǎo)致的。通過利用場景的3D結(jié)構(gòu)， Ray Denoising 促使模型學(xué)習(xí)深度感知特征，從而在不增加額外推理成本的情況下，提高了沿同一射線區(qū)分真陽性和假陽性的能力。本文在NuScenes和Argoverse 2數(shù)據(jù)集上的綜合實驗表明， Ray Denoising 始終顯著優(yōu)于強(qiáng)基線方法，在多視角3D目標(biāo)檢測中實現(xiàn)了新的最先進(jìn)性能。

責(zé)任編輯：張燕妮來源：自動駕駛之心

3D 目標(biāo)檢測

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看