ICCV 2023 | DetZero：Waymo 3D檢測挑戰(zhàn)榜第一，離線標(biāo)簽性能媲美人工標(biāo)注！

作者：馬濤楊雪夢 2023-09-04 13:23:20

本文提出了一套離線3D物體檢測算法框架DetZero，通過在 Waymo 公開數(shù)據(jù)集上進(jìn)行全面的研究和評估，DetZero可生成連續(xù)且完整的物體軌跡序列，并充分利用長時序點云特征顯著提升感知結(jié)果的質(zhì)量。

本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

本文提出了一套離線3D物體檢測算法框架DetZero，通過在 Waymo 公開數(shù)據(jù)集上進(jìn)行全面的研究和評估，DetZero可生成連續(xù)且完整的物體軌跡序列，并充分利用長時序點云特征顯著提升感知結(jié)果的質(zhì)量。同時以 85.15 mAPH (L2) 的性能在 WOD 3D 物體檢測排行榜上取得排名第一。此外，DetZero可以為在線模型的訓(xùn)練提供高質(zhì)量的自動標(biāo)簽，其結(jié)果已經(jīng)達(dá)到甚至高于人工標(biāo)簽的水平。

論文：https://arxiv.org/abs/2306.06023

代碼：https://github.com/PJLab-ADG/DetZero

主頁：https://superkoma.github.io/detzero-page

1 引言

現(xiàn)有的自動駕駛感知模型的發(fā)展依賴于數(shù)據(jù)驅(qū)動的迭代模式，然而標(biāo)注數(shù)據(jù)的昂貴成本和參差不一的后處理效率促使我們探索更為高效的解決方案。此前Waymo提出離線3D物體檢測方法3DAL[]來緩解數(shù)據(jù)標(biāo)注過程中的資源和人力成本，它主要分為四個模塊：

目標(biāo)檢測（Detection）：輸入少量連續(xù)的點云幀數(shù)據(jù)，輸出每一幀中3D物體的邊界框和類別信息；
多目標(biāo)跟蹤（Tracking）：將每一幀檢測到的物體進(jìn)行關(guān)聯(lián)，形成物體序列，并分配唯一的物體ID；
運(yùn)動狀態(tài)分類（Motion Classification）：基于物體軌跡特征，確定物體的運(yùn)動狀態(tài)（靜止或運(yùn)動）；
物體為中心的優(yōu)化（Object-centric Refining）：根據(jù)前一模塊預(yù)測的運(yùn)動狀態(tài)，分別提取靜止和運(yùn)動物體的時序點云特征，以預(yù)測準(zhǔn)確的邊界框。最終，通過姿態(tài)矩陣將優(yōu)化后的3D邊界框轉(zhuǎn)移回該物體所在的每一幀坐標(biāo)系中。

然而許多主流的在線3D目標(biāo)檢測方器通過利用點云的時序上下文特征，取得了比現(xiàn)有的離線3D檢測方法更好的效果。我們意識到其未能有效地利用到長序列點云的特征：

1.目前的目標(biāo)檢測和跟蹤算法主要關(guān)注邊界框?qū)用妫╞ox-level）的性能指標(biāo)，將在線的3D檢測算法經(jīng)過TTA和多模型融合之后所產(chǎn)生的大量冗余框作為跟蹤算法的輸入，通常很容易引發(fā)嚴(yán)重的軌跡分段、ID切換以及錯誤關(guān)聯(lián)等問題，無法保證連續(xù)、完整的物體序列的生成，進(jìn)而妨礙利用物體對應(yīng)的長時序點云特征。如下圖所示，原本一個物體的軌跡被分割成多個子序列（T1, T2, T3），導(dǎo)致?lián)碛懈嘈畔⒌腡1片段的特征無法共享到T2和T3中；T4片段中經(jīng)過優(yōu)化的框也無法召回已經(jīng)丟失掉的片段；T5片段中經(jīng)過優(yōu)化的框在轉(zhuǎn)移到原先是FP的位置后依然是FP。

物體序列的質(zhì)量會對下游的優(yōu)化模型產(chǎn)生很大的影響

2.基于運(yùn)動狀態(tài)分類的優(yōu)化模型沒有充分利用到物體的時序特征。例如，剛性物體的尺寸大小隨時間保持一致，通過從不同角度捕捉數(shù)據(jù)可以實現(xiàn)更準(zhǔn)確的尺寸估計；物體的運(yùn)動軌跡應(yīng)當(dāng)遵循一定的運(yùn)動學(xué)約束，表現(xiàn)為軌跡的平滑性。如下圖(a)所示，對于動態(tài)物體來說，基于滑動窗口的優(yōu)化機(jī)制未考慮物體幾何形狀的一致性，僅通過鄰近幾幀的時序點云信息對邊界框進(jìn)行更新，導(dǎo)致預(yù)測的幾何尺寸出現(xiàn)偏差。而在(b)的例子中，通過把該物體的點云全部聚合在一起，可獲得稠密的時序點云特征，為每一幀都預(yù)測出邊界框的準(zhǔn)確的幾何尺寸。

基于運(yùn)動狀態(tài)的優(yōu)化模型預(yù)測物體的尺寸(a)，幾何優(yōu)化模型將不同視角的點云全部聚合后預(yù)測物體的尺寸(b)

2 方法

本文提出了一種新的離線3D物體檢測算法框架DetZero：（1）使用多幀 3D 檢測器和離線跟蹤器作為上游模塊，提供足夠準(zhǔn)確和完整的物體跟蹤，主要強(qiáng)調(diào)物體序列的高召回率（track-level recall）；（2）下游模塊包含基于注意力機(jī)制的優(yōu)化模型，利用長時序點云特征分別學(xué)習(xí)預(yù)測物體的不同屬性，包括精細(xì)化幾何尺寸、平滑其運(yùn)動軌跡位置、更新置信度分?jǐn)?shù)。

2.1 生成完整的物體序列

我們選取已公開的CenterPoint[]作為基礎(chǔ)檢測器，為了盡可能提供足夠多的檢測候選框，我們在三個方面對其進(jìn)行了加強(qiáng)：（1）不同幀點云的組合作為輸入，在不出現(xiàn)性能衰減的前提下進(jìn)行性能最大化；（2）利用點云密度信息進(jìn)行原始點云特征和體素特征融合的二階段模塊，對一階段邊界結(jié)果進(jìn)行初步優(yōu)化；（3）使用推理階段數(shù)據(jù)增強(qiáng)（TTA）、多模型結(jié)果融合（Ensemble）等技術(shù)來提升模型對于復(fù)雜環(huán)境的適應(yīng)能力。

離線跟蹤模塊中引入了兩階段關(guān)聯(lián)策略以減少錯誤匹配，根據(jù)置信度將框分為高分組和低分組，對高分組進(jìn)行關(guān)聯(lián)更新現(xiàn)有軌跡，未更新的軌跡與低分組關(guān)聯(lián)。同時，物體軌跡的長度可持續(xù)至序列終止，避免ID切換問題。此外，我們會反向執(zhí)行跟蹤算法生成另一組軌跡，并通過位置相似性關(guān)聯(lián)，最后用WBF策略融合匹配成功的軌跡，進(jìn)一步提升序列首尾的完整性。最后，對于區(qū)分好的物體序列，提取出其對應(yīng)的每一幀點云進(jìn)行保存；而未更新的冗余框和一些較短的序列和會直接合并至最終的輸出，無需下游優(yōu)化。

2.2 基于屬性預(yù)測的物體優(yōu)化模塊

之前的物體為中心的優(yōu)化模型忽略了不同運(yùn)動狀態(tài)下物體之間的相關(guān)性，如幾何形狀的一致性、物體運(yùn)動狀態(tài)在相鄰時刻的一致性。基于這些觀察，我們將傳統(tǒng)的邊界框回歸任務(wù)分解為三個模塊：分別預(yù)測物體的幾何形狀、位置和置信度屬性。

多視角幾何交互：通過拼接多個視角的物體點云，可以補(bǔ)全物體的外觀和形狀。首先進(jìn)行局部坐標(biāo)變換，將物體點云與不同位置的局部框?qū)R，并計算出每個點到邊界框6個表面的投影距離，加強(qiáng)邊界框的信息表征，隨后直接合并不同幀的所有點云作為多視角幾何特征的key和value，同時從物體序列中隨機(jī)選擇t個樣本作為單視角幾何特征的query。幾何query會被送入自注意力層來查看彼此之間的差異性，隨后被送入交叉注意力層來補(bǔ)充所需要視角的特征，并預(yù)測出精確的幾何尺寸。
局部與全局位置的交互：隨機(jī)選擇物體序列中的任意框作為原點，將所有其他框和對應(yīng)的物體點云轉(zhuǎn)移到此坐標(biāo)系下，并計算出每個點到各自邊界框中心點和8個角點的距離，作為全局位置特征的key和value。物體序列中的每一個樣本都會作為位置query，送入自注意力層來判斷當(dāng)前位置與其他位置的相對距離，隨后輸入交叉注意力層模擬局部到全局位置的上下文關(guān)系，并預(yù)測出此坐標(biāo)系下每個初始中心點與真值中心點之間的偏移量，以及航向角差異。
置信度優(yōu)化：分類分支用于分類該物體是TP還是FP，IoU回歸分支預(yù)測出一個物體在被幾何模型和位置模型優(yōu)化后，與真值框之間的IoU大小。最終的置信度得分就是這兩個分支的幾何平均值。

3 實驗

3.1 主要性能

如下表所示，本文方法在Waymo 3D檢測排行榜上以85.15 mAPH (L2)取得了最好的成績，無論是與處理長時序點云的方法相比，還是與最先進(jìn)的多模態(tài)融合3D檢測器相比，DetZero都有很大的性能優(yōu)勢。

Waymo 3D檢測排行榜結(jié)果，所有結(jié)果均使用TTA或ensemble技術(shù)，?指離線模型，?指點云圖像融合模型，*表示匿名提交結(jié)果

同樣，得益于檢測框的準(zhǔn)確性和物體跟蹤序列的完整性，我們以75.05 MOTA（L2）取得了Waymo 3D跟蹤排行榜上的性能第一。

Waymo 3D跟蹤排行榜，*表示匿名提交結(jié)果

3.2 消融實驗

為更好地驗證我們所提出每個模塊的作用，我們在Waymo驗證集上進(jìn)行了消融實驗，并使用更嚴(yán)格的IoU閾值來衡量。

在Waymo驗證集上對Vehicle和Pedestrian進(jìn)行，IoU閾值分別選取標(biāo)準(zhǔn)值（0.7 & 0.5）和嚴(yán)格值（0.8 & 0.6）

同時，對于同一組檢測結(jié)果，我們分別選擇3DAL中的跟蹤器和優(yōu)化模型與DetZero進(jìn)行交叉組合驗證，結(jié)果進(jìn)一步證明DetZero的跟蹤器和優(yōu)化器性能更好，且二者組合在一起后發(fā)揮出更大的優(yōu)勢。

不同上下游模塊組合的交叉驗證實驗，下角標(biāo)1和2分別代表3DAL和DetZero，指標(biāo)是3D APH

我們的離線跟蹤器更注重物體序列的完整性，雖然二者的MOTA性能差異很小，但是Recall@track的性能卻是造成最終優(yōu)化性能差異很大的一個原因。

離線跟蹤器（Trk2）與3DAL跟蹤器（Trk1）的性能對比，性能為MOTA和Recall@track

此外，與其他SOTA的跟蹤器對比下來也能印證這一點。

Recall@track是經(jīng)過跟蹤算法處理后的序列召回，3D APH是經(jīng)過同一個優(yōu)化模型處理后的最終性能

3.3 泛化性能

為了驗證我們的優(yōu)化模型是否固定擬合到了某一組上游結(jié)果，我們選擇了不同性能的上游檢測跟蹤結(jié)果作為輸入，都取得了非常明顯的性能提升，這進(jìn)一步證明了只要上游模塊能夠召回更多更完整的物體序列，我們的優(yōu)化器便能利用其時序點云的特征進(jìn)行有效地優(yōu)化。

Waymo驗證集上的泛化性能驗證，指標(biāo)是3D APH

3.4 與人類標(biāo)注能力進(jìn)行對比

我們按照3DAL的實驗設(shè)置來報告DetZero在5個指定序列上的AP性能，人類性能是通過基于單幀的重標(biāo)注結(jié)果與原本真值標(biāo)注結(jié)果之間的一致性來衡量。相對于3DAL和人類，DetZero在不同的性能指標(biāo)上都展現(xiàn)出了優(yōu)勢。

對于Vehicle類別在不同IoU閾值下的3D AP和BEV AP性能對比

為了進(jìn)一步驗證該高質(zhì)量的自動標(biāo)注結(jié)果是否能替代人工標(biāo)注結(jié)果進(jìn)行在線模型的訓(xùn)練，我們在Waymo驗證集上驗證了半監(jiān)督學(xué)習(xí)的結(jié)果。我們在訓(xùn)練中隨機(jī)選擇10%的數(shù)據(jù)訓(xùn)練老師模型（DetZero），并對剩余的90%訓(xùn)練數(shù)據(jù)進(jìn)行推理得到自動標(biāo)注結(jié)果，作為訓(xùn)練學(xué)生模型所用的標(biāo)簽，選擇單幀CenterPoint作為學(xué)生模型。在Vehicle類別上，90%自動標(biāo)簽+10%真值標(biāo)簽訓(xùn)練的結(jié)果很接近使用100%真值標(biāo)簽的結(jié)果，而在Pedestrian類別上，自動標(biāo)簽訓(xùn)練的模型結(jié)果已經(jīng)優(yōu)于原結(jié)果，這一結(jié)果表明自動標(biāo)簽可以勝任在線模型的訓(xùn)練。

在Waymo驗證集上進(jìn)行的半監(jiān)督實驗結(jié)果