MonoLSS:用于視覺3D檢測訓(xùn)練中的樣本選擇
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
MonoLSS: Learnable Sample Selection For Monocular 3D Detection
論文鏈接:https://arxiv.org/pdf/2312.14474.pdf
在自動駕駛領(lǐng)域,單目3D檢測是一個關(guān)鍵任務(wù),它在單個RGB圖像中估計物體的3D屬性(深度、尺寸和方向)。先前的工作以一種啟發(fā)式的方式使用特征來學(xué)習(xí)3D屬性,而沒有考慮不適當(dāng)?shù)奶卣骺赡墚a(chǎn)生不良影響。在本文中,引入了樣本選擇,只有適合的樣本才應(yīng)該用于回歸3D屬性。為了自適應(yīng)地選擇樣本,提出了一個可學(xué)習(xí)的樣本選擇(LSS)模塊,該模塊基于Gumbel-Softmax和相對距離樣本劃分。LSS模塊在warmup策略下工作,提高了訓(xùn)練穩(wěn)定性。此外,由于專用于3D屬性樣本選擇的LSS模塊依賴于目標(biāo)級特征,進(jìn)一步開發(fā)了一種名為MixUp3D的數(shù)據(jù)增強方法,用于豐富符合成像原理的3D屬性樣本而不引入歧義。作為兩種正交的方法,LSS模塊和MixUp3D可以獨立或結(jié)合使用。充分的實驗證明它們的聯(lián)合使用可以產(chǎn)生協(xié)同效應(yīng),產(chǎn)生超越各自應(yīng)用之和的改進(jìn)。借助LSS模塊和MixUp3D,無需額外數(shù)據(jù),方法MonoLSS在KITTI 3D目標(biāo)檢測基準(zhǔn)的所有三個類別(汽車、騎行者和行人)中均排名第一,并在Waymo數(shù)據(jù)集和KITTI-nuScenes跨數(shù)據(jù)集評估中取得了有競爭力的結(jié)果。
MonoLSS主要貢獻(xiàn):
論文強調(diào),并非所有特征對學(xué)習(xí)3D屬性都同樣有效,并首先將其重新表述為樣本選擇問題。相應(yīng)地,開發(fā)了一種新的可學(xué)習(xí)樣本選擇(LSS)模塊,該模塊可以自適應(yīng)地選擇樣本。
為了豐富3D屬性樣本,設(shè)計了MixUp3D數(shù)據(jù)增強,它模擬了空間重疊,并顯著提高了3D檢測性能。
在不引入任何額外信息的情況下,MonoLSS在KITTI基準(zhǔn)的所有三個類別中排名第一,在汽車類別的中等和中等水平上,超過了當(dāng)前的最佳方法11.73%和12.19%。它還實現(xiàn)了Waymo數(shù)據(jù)集和KITTI nuScenes跨數(shù)據(jù)集評估的SOTA結(jié)果。
MonoLSS主要思路
MonoLSS框架如下圖所示。首先,使用與ROI Align相結(jié)合的2D檢測器來生成目標(biāo)特征。然后,六個Head分別預(yù)測3D特性(深度、尺寸、方向和3D中心投影偏移)、深度不確定性和對數(shù)概率。最后,可學(xué)習(xí)樣本選擇(LSS)模塊自適應(yīng)地選擇樣本并進(jìn)行損失計算。
Learnable Sample Selection
假設(shè)U~Uniform(0,1),則可以使用逆變換采樣通過計算G=?log(?log(U))來生成Gumbel分布G。通過用Gumbel分布獨立地擾動對數(shù)概率,并使用argmax函數(shù)找到最大元素,Gumbel Max技巧實現(xiàn)了無需隨機選擇的概率采樣。基于這項工作,Gumbel Softmax使用Softmax函數(shù)作為argmax的連續(xù)可微近似,并在重新參數(shù)化的幫助下實現(xiàn)了整體可微性。
GumbelTop-k通過在沒有替換的情況下繪制大小為k的有序采樣,將采樣點的數(shù)量從Top-1擴展到Top-k,其中k是一個超參數(shù)。然而,相同的k并不適用于所有目標(biāo),例如,被遮擋的目標(biāo)應(yīng)該比正常目標(biāo)具有更少的正樣本。為此,我們設(shè)計了一個基于超參數(shù)相對距離的模塊來自適應(yīng)地劃分樣本??傊?,作者提出了一個可學(xué)習(xí)樣本選擇(LSS)模塊來解決三維屬性學(xué)習(xí)中的樣本選擇問題,該模塊由Gumbel Softmax和相對距離樣本除法器組成。LSS模塊的示意圖如圖2的右側(cè)所示。
Mixup3D數(shù)據(jù)增強
由于嚴(yán)格的成像約束,數(shù)據(jù)增強方法在單目3D檢測中受到限制。除了光度失真和水平翻轉(zhuǎn)之外,大多數(shù)數(shù)據(jù)增強方法由于破壞了成像原理而引入了模糊特征。此外,由于LSS模塊專注于目標(biāo)級特性,因此不修改目標(biāo)本身特性的方法對LSS模塊來說并不足夠有效。
由于MixUp的優(yōu)勢,可以增強目標(biāo)的像素級特征。作者提出了MixUp3D,它為2D MixUp添加了物理約束,使新生成的圖像基本上是空間重疊的合理成像。具體而言,MixUp3D僅違反物理世界中對象的碰撞約束,同時確保生成的圖像符合成像原理,從而避免任何歧義!
實驗結(jié)果
KITTI測試集上汽車類的單目3D檢測性能。與KITTI排行榜相同,方法排名在中等難度以下。我們以粗體突出顯示最佳結(jié)果,以下劃線突出顯示第二個結(jié)果。對于額外的數(shù)據(jù):1)LIDAR表示在訓(xùn)練過程中使用額外的LIDAR云點的方法。2) 深度是指利用在另一深度估計數(shù)據(jù)集下預(yù)先訓(xùn)練的深度圖或模型。3) CAD表示使用由CAD模型提供的密集形狀注釋。4) 無表示不使用額外數(shù)據(jù)。
Wamyo上數(shù)據(jù)集測試結(jié)果:
KITTI-val模型在深度為MAE的KITTI-val和nuScenes前臉val汽車上的跨數(shù)據(jù)集評估:
原文鏈接:https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg