遙遙領(lǐng)先!BEVHeight++:針對(duì)路側(cè)視覺3D目標(biāo)檢測(cè)新方案!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
回歸到地面的高度,以實(shí)現(xiàn)距離不可知的公式,從而簡(jiǎn)化僅相機(jī)感知方法的優(yōu)化過程。在路側(cè)camera的3D檢測(cè)基準(zhǔn)上,方法大大超過了以前所有以視覺為中心的方法。它比BEVDepth產(chǎn)生了+1.9%的NDS和+1.1%的mAP的顯著改善。在nuScenes測(cè)試集上,方法取得了實(shí)質(zhì)性的進(jìn)步,NDS和mAP分別增加了+2.8%和+1.7%。
題目:BEVHeight++: Toward Robust Visual Centric 3D Object Detection
論文鏈接:https://arxiv.org/pdf/2309.16179.pdf
作者單位:清華大學(xué),中山大學(xué),菜鳥網(wǎng)絡(luò),北京大學(xué)
出自國內(nèi)首個(gè)自動(dòng)駕駛社區(qū):終于完成了20+技術(shù)方向?qū)W習(xí)路線的搭建(BEV感知/3D檢測(cè)/多傳感器融合/SLAM與規(guī)劃等)
雖然最近的自動(dòng)駕駛系統(tǒng)專注于開發(fā)自車輛傳感器的感知方法,但人們往往忽視了一種利用智能路邊攝像頭將感知能力擴(kuò)展到視覺范圍之外的替代方法。作者發(fā)現(xiàn),最先進(jìn)的以視覺為中心的BEV檢測(cè)方法在路邊攝像頭上的性能較差。這是因?yàn)檫@些方法主要集中在恢復(fù)關(guān)于相機(jī)中心的深度,在相機(jī)中心,汽車和地面之間的深度差隨著距離的增加而迅速縮小。在本文中,作者提出了一種簡(jiǎn)單而有效的方法,稱為BEVHeight++,來解決這個(gè)問題。本質(zhì)上,作者回歸到地面的高度,以實(shí)現(xiàn)距離不可知的公式,從而簡(jiǎn)化僅相機(jī)感知方法的優(yōu)化過程。通過結(jié)合高度和深度編碼技術(shù),實(shí)現(xiàn)了從2D到BEV空間的更準(zhǔn)確和穩(wěn)健的投影。在路邊攝像頭的流行3D檢測(cè)基準(zhǔn)上,方法大大超過了以前所有以視覺為中心的方法。就自車輛場(chǎng)景而言,BEVHeight++具有優(yōu)于僅深度的方法。
具體而言,在nuScenes驗(yàn)證集上進(jìn)行評(píng)估時(shí),它比BEVDepth產(chǎn)生了+1.9%的NDS和+1.1%的mAP的顯著改善。此外,在nuScenes測(cè)試集上,方法取得了實(shí)質(zhì)性的進(jìn)步,NDS和mAP分別增加了+2.8%和+1.7%。
圖1:(a)為了從單目圖像中產(chǎn)生3D邊界框,最先進(jìn)的方法首先顯式或隱式地預(yù)測(cè)每像素深度,以確定前景對(duì)象與背景的3D位置。然而,當(dāng)我們?cè)趫D像上繪制每像素深度時(shí),我們注意到,當(dāng)汽車遠(yuǎn)離相機(jī)時(shí),車頂和周圍地面上的點(diǎn)之間的差異會(huì)迅速縮小,這使得優(yōu)化變得次優(yōu),尤其是對(duì)于遠(yuǎn)處的物體。(b) 相反,我們繪制了到地面的每像素高度,并觀察到無論距離如何,這種差異都是不可知的,并且在視覺上更適合網(wǎng)絡(luò)檢測(cè)目標(biāo)。然而,不能僅通過預(yù)測(cè)高度來直接回歸3D位置。(c) 為此,我們提出了一個(gè)新的框架BEVHeight++來解決這個(gè)問題。經(jīng)驗(yàn)結(jié)果表明,我們的方法在干凈設(shè)置上超過了最佳方法5.49%,在嘈雜設(shè)置上超過28.2%。
網(wǎng)絡(luò)結(jié)構(gòu)
預(yù)測(cè)高度和深度的比較。(a) 概述了以前基于深度的方法和我們提出的基于高度的管道。請(qǐng)注意,本文提出了一種新穎的2D到3D投影模塊。(b) 繪制每像素深度(頂部)和地面高度(底部)的直方圖,可以清楚地觀察到,深度范圍超過200米,而高度在5米以內(nèi),這使得高度更容易學(xué)習(xí)。
目標(biāo)在圖像上的行坐標(biāo)與其深度和高度之間的相關(guān)性。目標(biāo)在圖像中的位置,可以定義為(u,v),v坐標(biāo)表示圖像的行坐標(biāo)。(a) 噪聲設(shè)置的視覺示例,在正態(tài)分布中添加沿滾轉(zhuǎn)和俯仰方向的旋轉(zhuǎn)偏移。(b) 是深度分布的散點(diǎn)圖。(c) 是指離地高度??梢园l(fā)現(xiàn),與深度相比,高度的噪聲設(shè)置與其原始分布有更大的重疊,這表明高度估計(jì)更具魯棒性。
BEVHeight++的總體框架,檢測(cè)器由三個(gè)子網(wǎng)絡(luò)組成,分別是基于深度的分支(青色)、基于高度的分支(綠色)和特征融合過程(灰色)?;谏疃鹊膒ipeline使用估計(jì)的每像素深度來將圖像視圖特征提升為基于深度的BEV特征(基于D的BEV)。基于高度的pipeline將對(duì)圖像視圖中升力特征的地面高度預(yù)測(cè)應(yīng)用于基于高度的BEV特征(基于H的BEV)。特征融合包括圖像融合和鳥瞰融合。圖像-視圖融合通過級(jí)聯(lián)高度分布和圖像特征來獲得融合的特征,這些特征用于后續(xù)的提升操作。鳥瞰圖融合通過可變形交叉注意力從基于高度的BEV特征和基于深度的BEV特性中獲得融合的BEV特點(diǎn),然后將其用作檢測(cè)頭的輸入。
實(shí)驗(yàn)結(jié)果
原文鏈接:https://mp.weixin.qq.com/s/AdCXYzHIy2lTfAHk2AZ4_w