Sparse4D v3來了!推進端到端3D檢測和跟蹤
原標題:Sparse4D v3 Advancing End-to-End 3D Detection and Tracking
論文鏈接:https://arxiv.org/pdf/2311.11722.pdf
代碼鏈接:https://github.com/linxuewu/Sparse4D
作者單位:地平線
論文思路:
在自動駕駛感知系統中,3D檢測和跟蹤是兩項基本任務。本文基于 Sparse4D 框架更深入地研究了該領域。本文引入了兩個輔助訓練任務(時序實例去噪-Temporal Instance Denoising和質量估計-Quality Estimation),并提出解耦注意力(decoupled attention)來進行結構改進,從而顯著提高檢測性能。此外,本文使用一種簡單的方法將檢測器擴展到跟蹤器,該方法在推理過程中分配實例 ID,進一步突出了 query-based 算法的優勢。在 nuScenes 基準上進行的大量實驗驗證了所提出的改進的有效性。以ResNet50為骨干,mAP、NDS和AMOTA分別提高了3.0%、2.2%和7.6%,分別達到46.9%、56.1%和49.0%。本文最好的模型在 nuScenes 測試集上實現了 71.9% NDS 和 67.7% AMOTA。
主要貢獻:
本文提出了 Sparse4D-v3,這是一個強大的 3D 感知框架,具有三種有效的策略:時序實例去噪、質量估計和解耦注意力。
本文將 Sparse4D 擴展為端到端跟蹤模型。
本文展示了 nuScenes 改進的有效性,在檢測和跟蹤任務中實現了最先進的性能。
網絡設計:
首先,本文觀察到與 dense-based 算法相比,sparse-based 算法在收斂方面遇到了更大的挑戰,最終影響了它們的最終性能。這個問題已經在 2D 檢測領域得到了徹底的研究[17,48,53],并且主要歸因于一對一正樣本匹配的使用。這種匹配方式在訓練初期不穩定,而且與一對多匹配相比,正樣本數量有限,從而降低了解碼器訓練的效率。此外,Sparse4D 使用稀疏特征采樣而不是全局交叉注意力,由于正樣本稀缺,這進一步阻礙了編碼器收斂。在 Sparse4Dv2 [27] 中,引入了密集深度監督(dense depth supervision)來部分緩解圖像編碼器面臨的這些收斂問題。本文主要旨在通過關注解碼器訓練的穩定性來增強模型性能。本文將去噪任務作為輔助監督,并將去噪技術(denoising techniques)從 2D 單幀檢測擴展到 3D 時序檢測。不僅保證了穩定的正樣本匹配,而且顯著增加了正樣本的數量。此外,本文引入了質量評估(quality estimation)任務作為輔助監督。這使得輸出的置信度分數更加合理,提高了檢測結果排名的準確性,從而獲得更高的評估指標。此外,本文增強了Sparse4D中實例自注意力(instance self-attention)和時序交叉注意力模塊(temporal cross-attention modules)的結構,引入了一種解耦注意力機制(decoupled attention mechanism),旨在減少注意力權重計算過程中的特征干擾。如圖 3 所示,當添加 anchor embedding 和實例特征作為注意力計算的輸入時,所得注意力權重中存在異常值的實例。這無法準確反映目標特征之間的相互關聯,導致無法聚合正確的特征。通過用 concatenation 代替 attention,本文顯著減少了這種錯誤現象的發生。此增強功能與 Conditional DETR [33] 具有相似之處。然而,關鍵的區別在于本文強調 queries 之間的注意力,與 Conditional DETR 不同,其專注于 queries 和圖像特征之間的交叉注意力。此外,本文的方法涉及獨特的編碼方法。
最后,為了提高感知系統的端到端能力,本文探索將3D多目標跟蹤任務集成到Sparse4D框架中,從而能夠直接輸出目標運動軌跡。與 tracking-by-detection 方法不同,本文消除了數據關聯和過濾的需要,將所有跟蹤功能集成到檢測器中。此外,與現有的聯合檢測和跟蹤方法不同,本文的跟蹤器不需要修改訓練過程或損失函數。它不需要提供 ground truth IDs,但可以實現預定義的 instance-to-tracking 回歸。本文的跟蹤實現最大限度地集成了檢測器和跟蹤器,不需要修改檢測器的訓練過程,也不需要額外的微調。
圖1:Sparse4D框架概述,輸入多視圖視頻并輸出所有幀的感知結果。
圖 2:不同算法的 nuScenes 驗證數據集上的推理效率 (FPS) - 感知性能 (mAP)。
圖 3:實例自注意力中的注意力權重的可視化:1)第一行顯示了普通自注意力中的注意力權重,其中紅色圓圈中的行人顯示出與目標車輛(綠色框)的意外相關性。2)第二行顯示了解耦注意力中的注意力權重,有效解決了該問題。
圖 4:時序實例去噪的圖示。(a) 在訓練階段,實例包含兩個組成部分:可學習的和噪聲的。噪聲實例由時間和非時間元素組成。對于噪聲實例,本文采用預匹配方法來分配正樣本和負樣本——將 anchors 與 ground truth 進行匹配,而可學習實例與預測和 ground truth 進行匹配。在測試階段,僅保留圖中的綠色塊。(b) 采用 Attention mask 來防止 groups 之間的特征傳播,其中灰色表示 queries 和 keys 之間沒有注意力,綠色表示相反。
圖 5:anchor encoder 和注意力的架構。本文獨立地對 anchor 的多個組件進行高維特征編碼,然后將它們連接起來。與原始 Sparse4D 相比,這種方法可以降低計算和參數開銷。E 和 F 分別表示 anchor embedding 和實例特征。
實驗結果:
總結:
本文首先提出了增強 Sparse4D 檢測性能的方法。這一增強主要包括三個方面:時序實例去噪、質量估計和解耦注意力。隨后,本文說明了將 Sparse4D 擴展為端到端跟蹤模型的過程。本文在 nuScenes 上的實驗表明,這些增強功能顯著提高了性能,使 Sparse4Dv3 處于該領域的前沿。
引用:
Lin, X., Pei, Z., Lin, T., Huang, L., & Su, Z. (2023). Sparse4D v3: Advancing End-to-End 3D Detection and Tracking. ArXiv. /abs/2311.11722