MonoDETRNext：下一代準確高效的單目3D檢測方法！

作者：汽車人 2024-05-30 11:53:26

本文介紹了一種新的基于單目視覺的3D目標檢測方法。利用2D檢測領域的進步，我們提出了高效而精確的MonoDETRNext。

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

寫在前面&筆者的個人理解

基于單目視覺的3D目標檢測在各個領域都至關重要，但現有方法在準確性和計算效率方面面臨著重大挑戰。在2D檢測和深度估計的成功策略的基礎上，本文提出了MonoDETRNext，它尋求在精度和處理速度之間取得最佳平衡。我們的方法包括開發高效的混合視覺編碼器，增強深度預測機制，以及引入創新的查詢生成策略，并通過高級深度預測器進行增強。在MonoDETR的基礎上，MonoDETRNext引入了兩種變體：強調速度的MonoDETRNext-F和注重精度的MonoDETRNext-A。我們認為MonoDETRNext為單目3D物體檢測建立了一個新的基準，并為未來的研究開辟了道路。我們進行了詳盡的評估，證明了該模型相對于現有解決方案的優越性能。值得注意的是，與MonoDETR相比，MonoDETRNext-A在KITTI測試基準上的AP3D指標提高了4.60%，而MonoDETRNext-F提高了2.21%。此外，MonoDETRNext-F的計算效率略高于其前身。

總結來說，本文的主要貢獻如下：

提出了兩種新的單目3D物體檢測模型，即MonoDETRNext-F和MonoDETRNext-A，前者充分平衡了速度和精度，而后者強調了以精度為中心的目標。
構建用于3D目標檢測的混合視覺編碼器，精通對單目3D目標檢測任務至關重要的特征的有效提取，以及集成精細但輕便的深度估計模塊，可視化以提高檢測精度。
利用迄今為止在2D目標檢測范式中根深蒂固的方法，我們提出了一種有說服力的目標查詢生成策略，該策略以精心設計的訓練策略為基礎，旨在有效優化模型性能，以適應單目3D目標檢測的需求。

方法

Efficient Hybrid Vision Encoder

根據[36]中的研究結果，可變形DETR將其49%的計算工作量分配給編碼器，但該組件僅對平均精度（AP）指標貢獻11%。

受RT-DETR架構的啟發，我們設計了一種創新的高效混合視覺編碼器，專門為3D目標檢測任務量身定制。該編碼器的特點是減少了計算占用，同時保持了特征提取的效率。如圖2所示，我們提出的編碼器包括兩個集成元件：奇異編碼器層和基于CNN的跨尺度特征集成模塊（CFIM）。如圖3所示，CFIM起著融合單元的作用，將形容詞特征融合成新穎的表征。該融合過程如以下公式：

Accurate Depth Predictor

The Sequential Dilated Convolution （SDC）模塊，利用膨脹卷積提取多尺度局部特征。與lite-mono類似，我們采用了一種分階段的方法，通過插入具有不同膨脹率的多個連續膨脹卷積來有效地聚合多尺度上下文。

The Regional-Global Feature Interaction (RGFI)的操作如下：給定輸入特征圖X，它被線性投影到查詢、鍵和值中。交叉協方差注意力用于增強輸入X：

Effective Query Generation and Overall Loss

實驗結果

結論和限制

結論：本文介紹了一種新的基于單目視覺的3D目標檢測方法。利用2D檢測領域的進步，我們提出了高效而精確的MonoDETRNext。在MonoDETR奠定的基礎上，我們引入了兩種變體：MonoDETRNext-F優先考慮速度，MonoDETRNext-A強調準確性。我們的方法包括開發高效的混合視覺編碼器、增強深度預測機制以及改進目標查詢生成。通過綜合性能評估，我們確定了我們的模型相對于現有方法的優勢。通過優化精度和計算效率，MonoDETRNext在單目3D目標檢測方面樹立了一個新的基準，促進了未來在各種現實世界場景中的研究和應用。

局限性：盡管MonoDETRNext在提高單目3D物體檢測的準確性和計算效率方面取得了實質性進展，但仍存在某些局限性。由于單目視覺方法的固有限制，與采用多視圖方法或傳感器融合技術（如激光雷達與相機的集成）的方法相比，在精度和性能方面仍然存在顯著差異。

責任編輯：張燕妮來源：自動駕駛之心

3D 目標檢測

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

MonoDETRNext：下一代準確高效的單目3D檢測方法！

寫在前面&筆者的個人理解

相關工作回顧

MonoDETR and other monocular 3D detection

Multi-view 3D object detection

LiDAR and multi-source information fusion 3D object detection

方法

Efficient Hybrid Vision Encoder

Accurate Depth Predictor

Effective Query Generation and Overall Loss

實驗結果

結論和限制