DetZero：Waymo 3D檢測榜單第一，媲美人工標注！

作者：馬濤楊雪夢 2023-12-04 09:41:49

本文主要介紹由香港中文大學MMLab和上海人工智能實驗室等機構合作的離線3D物體檢測算法DetZero，已被ICCV2023收錄！如果您有相關工作需要分享，請在文末聯系我們！

本文經自動駕駛之心公眾號授權轉載，轉載請聯系出處。

本文提出了一套離線3D物體檢測算法框架DetZero，通過在 Waymo 公開數據集上進行全面的研究和評估，DetZero可生成連續且完整的物體軌跡序列，并充分利用長時序點云特征顯著提升感知結果的質量。同時以 85.15 mAPH (L2) 的性能在 WOD 3D 物體檢測排行榜上取得排名第一。此外，DetZero可以為在線模型的訓練提供高質量的自動標簽，其結果已經達到甚至高于人工標簽的水平。

論文：https://arxiv.org/abs/2306.06023

代碼：https://github.com/PJLab-ADG/DetZero

主頁：https://superkoma.github.io/detzero-page

1 引言

現有的自動駕駛感知模型的發展依賴于數據驅動的迭代模式，然而標注數據的昂貴成本和參差不一的后處理效率促使我們探索更為高效的解決方案。此前Waymo提出離線3D物體檢測方法3DAL[]來緩解數據標注過程中的資源和人力成本，它主要分為四個模塊：

目標檢測（Detection）：輸入少量連續的點云幀數據，輸出每一幀中3D物體的邊界框和類別信息；
多目標跟蹤（Tracking）：將每一幀檢測到的物體進行關聯，形成物體序列，并分配唯一的物體ID；
運動狀態分類（Motion Classification）：基于物體軌跡特征，確定物體的運動狀態（靜止或運動）；
物體為中心的優化（Object-centric Refining）：根據前一模塊預測的運動狀態，分別提取靜止和運動物體的時序點云特征，以預測準確的邊界框。最終，通過姿態矩陣將優化后的3D邊界框轉移回該物體所在的每一幀坐標系中。

然而許多主流的在線3D目標檢測方器通過利用點云的時序上下文特征，取得了比現有的離線3D檢測方法更好的效果。我們意識到其未能有效地利用到長序列點云的特征：

目前的目標檢測和跟蹤算法主要關注邊界框層面（box-level）的性能指標，將在線的3D檢測算法經過TTA和多模型融合之后所產生的大量冗余框作為跟蹤算法的輸入，通常很容易引發嚴重的軌跡分段、ID切換以及錯誤關聯等問題，無法保證連續、完整的物體序列的生成，進而妨礙利用物體對應的長時序點云特征。如下圖所示，原本一個物體的軌跡被分割成多個子序列（T1, T2, T3），導致擁有更多信息的T1片段的特征無法共享到T2和T3中；T4片段中經過優化的框也無法召回已經丟失掉的片段；T5片段中經過優化的框在轉移到原先是FP的位置后依然是FP。

物體序列的質量會對下游的優化模型產生很大的影響

基于運動狀態分類的優化模型沒有充分利用到物體的時序特征。例如，剛性物體的尺寸大小隨時間保持一致，通過從不同角度捕捉數據可以實現更準確的尺寸估計；物體的運動軌跡應當遵循一定的運動學約束，表現為軌跡的平滑性。如下圖(a)所示，對于動態物體來說，基于滑動窗口的優化機制未考慮物體幾何形狀的一致性，僅通過鄰近幾幀的時序點云信息對邊界框進行更新，導致預測的幾何尺寸出現偏差。而在(b)的例子中，通過把該物體的點云全部聚合在一起，可獲得稠密的時序點云特征，為每一幀都預測出邊界框的準確的幾何尺寸。

基于運動狀態的優化模型預測物體的尺寸(a)，幾何優化模型將不同視角的點云全部聚合后預測物體的尺寸(b)

2 方法

本文提出了一種新的離線3D物體檢測算法框架DetZero：（1）使用多幀 3D 檢測器和離線跟蹤器作為上游模塊，提供足夠準確和完整的物體跟蹤，主要強調物體序列的高召回率（track-level recall）；（2）下游模塊包含基于注意力機制的優化模型，利用長時序點云特征分別學習預測物體的不同屬性，包括精細化幾何尺寸、平滑其運動軌跡位置、更新置信度分數。

2.1 生成完整的物體序列

我們選取已公開的CenterPoint[]作為基礎檢測器，為了盡可能提供足夠多的檢測候選框，我們在三個方面對其進行了加強：（1）不同幀點云的組合作為輸入，在不出現性能衰減的前提下進行性能最大化；（2）利用點云密度信息進行原始點云特征和體素特征融合的二階段模塊，對一階段邊界結果進行初步優化；（3）使用推理階段數據增強（TTA）、多模型結果融合（Ensemble）等技術來提升模型對于復雜環境的適應能力。

離線跟蹤模塊中引入了兩階段關聯策略以減少錯誤匹配，根據置信度將框分為高分組和低分組，對高分組進行關聯更新現有軌跡，未更新的軌跡與低分組關聯。同時，物體軌跡的長度可持續至序列終止，避免ID切換問題。此外，我們會反向執行跟蹤算法生成另一組軌跡，并通過位置相似性關聯，最后用WBF策略融合匹配成功的軌跡，進一步提升序列首尾的完整性。最后，對于區分好的物體序列，提取出其對應的每一幀點云進行保存；而未更新的冗余框和一些較短的序列和會直接合并至最終的輸出，無需下游優化。

2.2 基于屬性預測的物體優化模塊

之前的物體為中心的優化模型忽略了不同運動狀態下物體之間的相關性，如幾何形狀的一致性、物體運動狀態在相鄰時刻的一致性。基于這些觀察，我們將傳統的邊界框回歸任務分解為三個模塊：分別預測物體的幾何形狀、位置和置信度屬性。

多視角幾何交互：通過拼接多個視角的物體點云，可以補全物體的外觀和形狀。首先進行局部坐標變換，將物體點云與不同位置的局部框對齊，并計算出每個點到邊界框6個表面的投影距離，加強邊界框的信息表征，隨后直接合并不同幀的所有點云作為多視角幾何特征的key和value，同時從物體序列中隨機選擇t個樣本作為單視角幾何特征的query。幾何query會被送入自注意力層來查看彼此之間的差異性，隨后被送入交叉注意力層來補充所需要視角的特征，并預測出精確的幾何尺寸。
局部與全局位置的交互：隨機選擇物體序列中的任意框作為原點，將所有其他框和對應的物體點云轉移到此坐標系下，并計算出每個點到各自邊界框中心點和8個角點的距離，作為全局位置特征的key和value。物體序列中的每一個樣本都會作為位置query，送入自注意力層來判斷當前位置與其他位置的相對距離，隨后輸入交叉注意力層模擬局部到全局位置的上下文關系，并預測出此坐標系下每個初始中心點與真值中心點之間的偏移量，以及航向角差異。
置信度優化：分類分支用于分類該物體是TP還是FP，IoU回歸分支預測出一個物體在被幾何模型和位置模型優化后，與真值框之間的IoU大小。最終的置信度得分就是這兩個分支的幾何平均值。

3 實驗

3.1 主要性能

如下表所示，本文方法在Waymo 3D檢測排行榜上以85.15 mAPH (L2)取得了最好的成績，無論是與處理長時序點云的方法相比，還是與最先進的多模態融合3D檢測器相比，DetZero都有很大的性能優勢。

Waymo 3D檢測排行榜結果，所有結果均使用TTA或ensemble技術，?指離線模型，?指點云圖像融合模型，*表示匿名提交結果

同樣，得益于檢測框的準確性和物體跟蹤序列的完整性，我們以75.05 MOTA（L2）取得了Waymo 3D跟蹤排行榜上的性能第一。

Waymo 3D跟蹤排行榜，*表示匿名提交結果

3.2 消融實驗

為更好地驗證我們所提出每個模塊的作用，我們在Waymo驗證集上進行了消融實驗，并使用更嚴格的IoU閾值來衡量。

在Waymo驗證集上對Vehicle和Pedestrian進行，IoU閾值分別選取標準值（0.7 & 0.5）和嚴格值（0.8 & 0.6）

同時，對于同一組檢測結果，我們分別選擇3DAL中的跟蹤器和優化模型與DetZero進行交叉組合驗證，結果進一步證明DetZero的跟蹤器和優化器性能更好，且二者組合在一起后發揮出更大的優勢。

不同上下游模塊組合的交叉驗證實驗，下角標1和2分別代表3DAL和DetZero，指標是3D APH

我們的離線跟蹤器更注重物體序列的完整性，雖然二者的MOTA性能差異很小，但是Recall@track的性能卻是造成最終優化性能差異很大的一個原因。

離線跟蹤器（Trk2）與3DAL跟蹤器（Trk1）的性能對比，性能為MOTA和Recall@track

此外，與其他SOTA的跟蹤器對比下來也能印證這一點。

Recall@track是經過跟蹤算法處理后的序列召回，3D APH是經過同一個優化模型處理后的最終性能

3.3 泛化性能

為了驗證我們的優化模型是否固定擬合到了某一組上游結果，我們選擇了不同性能的上游檢測跟蹤結果作為輸入，都取得了非常明顯的性能提升，這進一步證明了只要上游模塊能夠召回更多更完整的物體序列，我們的優化器便能利用其時序點云的特征進行有效地優化。

Waymo驗證集上的泛化性能驗證，指標是3D APH

3.4 與人類標注能力進行對比

我們按照3DAL的實驗設置來報告DetZero在5個指定序列上的AP性能，人類性能是通過基于單幀的重標注結果與原本真值標注結果之間的一致性來衡量。相對于3DAL和人類，DetZero在不同的性能指標上都展現出了優勢。

對于Vehicle類別在不同IoU閾值下的3D AP和BEV AP性能對比

為了進一步驗證該高質量的自動標注結果是否能替代人工標注結果進行在線模型的訓練，我們在Waymo驗證集上驗證了半監督學習的結果。我們在訓練中隨機選擇10%的數據訓練老師模型（DetZero），并對剩余的90%訓練數據進行推理得到自動標注結果，作為訓練學生模型所用的標簽，選擇單幀CenterPoint作為學生模型。在Vehicle類別上，90%自動標簽+10%真值標簽訓練的結果很接近使用100%真值標簽的結果，而在Pedestrian類別上，自動標簽訓練的模型結果已經優于原結果，這一結果表明自動標簽可以勝任在線模型的訓練。

在Waymo驗證集上進行的半監督實驗結果