主打一個(gè)零樣本!ReSimAD:自動(dòng)駕駛中的3D域適應(yīng)怎么玩?
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
開(kāi)源鏈接:https://github.com/PJLab-ADG/3DTrans#resimad
論文鏈接:https://arxiv.org/abs/2309.05527
傳感器類型變化和地理環(huán)境變化領(lǐng)域變化在自動(dòng)駕駛(AD)中普遍存在,這帶來(lái)了很大挑戰(zhàn),因?yàn)橐蕾囉谙惹邦I(lǐng)域知識(shí)的AD模型很難在沒(méi)有額外成本的情況下直接部署到新的領(lǐng)域。為此本文提出了一種重建仿真感知(ReSimAD)方案,為緩解域遷移問(wèn)題提供了一種新的視角和方法。具體而言,圖像重建過(guò)程基于先前舊領(lǐng)域的知識(shí),旨在將與領(lǐng)域相關(guān)的知識(shí)轉(zhuǎn)換為域不變的表示,例如3D場(chǎng)景級(jí)網(wǎng)格。此外,多個(gè)新域的點(diǎn)云模擬過(guò)程以上述重建的3D網(wǎng)格為條件,其中可以獲得目標(biāo)域模擬樣本,從而降低了為后續(xù)感知過(guò)程收集和標(biāo)注新域數(shù)據(jù)的成本。對(duì)于實(shí)驗(yàn),我們考慮了不同的跨域情況,如Waymo-to-KITI、Waymo-to-nuScenes、Waymo-to-ONCE等,以使用ReSimAD驗(yàn)證零樣本目標(biāo)域感知。結(jié)果表明,我們的方法有利于提高領(lǐng)域泛化能力,甚至有望用于3D預(yù)訓(xùn)練。
總結(jié)來(lái)說(shuō),本文的主要貢獻(xiàn)如下:
- 1)本文向自動(dòng)駕駛社區(qū)提供了這樣一個(gè)知識(shí),即舊域重建和新域模擬的方案本質(zhì)上提高了模型對(duì)新域的魯棒性。
- 2)提出了ReSimAD,這是一種統(tǒng)一的重建模擬感知方案,解決了域偏移問(wèn)題,其中重建的3D網(wǎng)格解耦了域特性,充當(dāng)了標(biāo)記良好的舊域和看不見(jiàn)的新域之間的橋梁。
- 3)通過(guò)在具有不同域偏移的不同數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),所提出的ReSimAD實(shí)現(xiàn)了高的零樣本目標(biāo)域推理性能,甚至優(yōu)于必須訪問(wèn)真實(shí)目標(biāo)域數(shù)據(jù)的無(wú)監(jiān)督域自適應(yīng)方法。
重建模擬數(shù)據(jù)集
為了與域自適應(yīng)(DA)中旨在研究檢測(cè)模型跨領(lǐng)域適應(yīng)性的最新研究工作進(jìn)行比較,我們介紹了第一個(gè)基于Waymo序列構(gòu)建的3D重建模擬數(shù)據(jù)集具有不同的傳感器設(shè)置。
本文遵循域適應(yīng)領(lǐng)域的相關(guān)工作,并使用Waymo數(shù)據(jù)集作為源(舊)域,使用其他數(shù)據(jù)集,例如nuScenes和KITTI作為目標(biāo)(新)域。因此,在Waymo上執(zhí)行隱式重建以生成3D場(chǎng)景級(jí)網(wǎng)格,而我們根據(jù)基于Waymo的3D網(wǎng)格模擬KITTI、nuScenes和ONCE場(chǎng)景。
此外,Waymo傳感器具有一個(gè)頂部激光雷達(dá)和四個(gè)側(cè)面激光雷達(dá),這有助于更寬的縱向感知范圍,能夠涵蓋其他數(shù)據(jù)集(如KITTI)的窄縱向視野。
三維重建網(wǎng)格和模擬點(diǎn)。表1列出了我們使用重建數(shù)據(jù)獲得的所有模擬結(jié)果,其中我們選擇具有最高重建分?jǐn)?shù)的網(wǎng)格,該網(wǎng)格使用Waymo數(shù)據(jù)集上模擬點(diǎn)和真實(shí)點(diǎn)之間的倒角距離(CD)計(jì)算。我們仿真每個(gè)域大約26K~29K個(gè)樣本。仿真數(shù)據(jù)的可視化結(jié)果如圖2所示。
重建模擬數(shù)據(jù)集分析。考慮到生成的點(diǎn)云不僅需要提高模型在目標(biāo)域中的性能,而且對(duì)于增強(qiáng)主干特征泛化能力的3D預(yù)訓(xùn)練也很有價(jià)值,我們模擬了目標(biāo)大小更多樣的目標(biāo)域點(diǎn)。目標(biāo)大小在四個(gè)模擬域上的分布如圖4所示。從圖4中可以看出,與現(xiàn)有的公共數(shù)據(jù)集(如ONCE)相比,重建模擬數(shù)據(jù)集覆蓋了廣泛的對(duì)象大小分布。
RESIMAD:重建、模擬、感知管道
ReSimAD概述。如圖3所示,ReSimAD由三個(gè)步驟組成。
- 1)點(diǎn)到網(wǎng)格隱式重建:此步驟旨在將點(diǎn)從源域映射到隱式幾何體。為了獲得符合目標(biāo)域激光雷達(dá)分布的高度一致的模擬數(shù)據(jù),我們重建了真實(shí)而多樣的街道場(chǎng)景背景、動(dòng)態(tài)交通流信息。Waymo(包括1150個(gè)場(chǎng)景,包含在一系列城市和郊區(qū)拍攝的同步和標(biāo)定良好的激光雷達(dá)和相機(jī)數(shù)據(jù)。我們選擇Waymo作為場(chǎng)景重建的源域。
- 2) 網(wǎng)格到點(diǎn)渲染:此步驟的目的是通過(guò)更改激光雷達(dá)傳感器和場(chǎng)景布局,在給定重建的隱式幾何體的情況下模擬目標(biāo)域樣點(diǎn)。具體而言,我們采用了LiDARSimLib,并再現(xiàn)了目標(biāo)域中使用的傳感器配置方案,包括LiDAR掃描模式、物理特性和部署位置。
- 3) 零樣本感知過(guò)程:將模擬良好的點(diǎn)輸入感知模塊,該模塊可以幫助原始模型增強(qiáng)常見(jiàn)領(lǐng)域變化(如LiDAR類型的變化)的跨領(lǐng)域泛化。
點(diǎn)到網(wǎng)格隱式重建
受DeepSDF和NeuS(的啟發(fā),我們使用了基于激光雷達(dá)的隱式神經(jīng)重建方法(LINR)。該技術(shù)以稀疏的激光雷達(dá)點(diǎn)云為輸入,并生成隱式符號(hào)距離場(chǎng)(SDF)場(chǎng)。通過(guò)利用神經(jīng)網(wǎng)絡(luò)對(duì)有符號(hào)距離函數(shù)進(jìn)行編碼,我們實(shí)現(xiàn)了具有更大分辨率和高效內(nèi)存使用的高質(zhì)量3D模型的合成。與最近使用RGB圖像來(lái)細(xì)化隱式表示的方法相比,所開(kāi)發(fā)的LINR方法能夠在相對(duì)嚴(yán)重的條件下實(shí)現(xiàn)重建過(guò)程,例如在實(shí)際戶外場(chǎng)景中的弱光照和天氣變化。
然而,基于體素繪制的LINR仍然面臨一些挑戰(zhàn)。由于激光雷達(dá)數(shù)據(jù)的固有稀疏性,單個(gè)激光雷達(dá)點(diǎn)云幀僅捕獲標(biāo)準(zhǔn)RGB圖像中包含的綜合信息的一部分。這種差異突顯了深度渲染在為有效訓(xùn)練提供必要的幾何細(xì)節(jié)方面的潛在不足。因此,這可能導(dǎo)致在所得到的重建網(wǎng)格內(nèi)產(chǎn)生大量的偽影。為了應(yīng)對(duì)這一挑戰(zhàn),我們整合了Waymo數(shù)據(jù)集中相應(yīng)序列的所有幀,并為每個(gè)場(chǎng)景提取有效的點(diǎn)云。此外,我們利用上述LINR來(lái)執(zhí)行重建過(guò)程。
考慮到Waymo數(shù)據(jù)集中頂部激光雷達(dá)垂直視場(chǎng)的限制,僅獲得-17.6°至2.4°之間的點(diǎn)云對(duì)周圍高層建筑的重建造成了限制。為了應(yīng)對(duì)這一挑戰(zhàn),我們引入了一種將側(cè)面激光雷達(dá)的點(diǎn)云(盲補(bǔ)償)納入采樣序列的解決方案。四邊形激光雷達(dá)戰(zhàn)略性地位于車輛的前部、后部和側(cè)面,垂直視野從-90°到30°。這有效地補(bǔ)償了頂部激光雷達(dá)的視場(chǎng)不足。由于側(cè)面激光雷達(dá)和頂部激光雷達(dá)之間的點(diǎn)云密度存在差異,我們選擇為側(cè)面激光雷達(dá)分配更高的采樣權(quán)重,以提高高層建筑的場(chǎng)景重建質(zhì)量。
在重建隱式曲面后,我們可以獲得更細(xì)粒度的場(chǎng)景幾何的連續(xù)表示,有助于提取高分辨率網(wǎng)格,以便在選定的模擬器中進(jìn)行后續(xù)渲染。
重建評(píng)估。由于動(dòng)態(tài)物體造成的遮擋和激光雷達(dá)噪聲的影響,隱式表示可能低于預(yù)期,這對(duì)跨域自適應(yīng)提出了挑戰(zhàn)。因此,我們對(duì)重建精度進(jìn)行了評(píng)估。由于我們可以訪問(wèn)舊域的真實(shí)世界點(diǎn)云,因此我們通過(guò)重新投射舊域的點(diǎn)云來(lái)評(píng)估重建過(guò)程的準(zhǔn)確性。
我們使用一組用于渲染點(diǎn)Gb和原始收集的激光雷達(dá)點(diǎn)G之間的重建精度的度量,具有均方根誤差(RMSE)和倒角距離(CD):
網(wǎng)格到點(diǎn)渲染
在通過(guò)上述LINR獲得靜態(tài)背景網(wǎng)格后,我們使用Blender Python API將網(wǎng)格數(shù)據(jù)從.ply格式轉(zhuǎn)換為使用.fbx格式的3D模型文件,并最終將背景網(wǎng)格作為資產(chǎn)加載到用于自動(dòng)駕駛研究的開(kāi)源模擬器CARLA中。
對(duì)于交通參與者的外觀匹配,我們通過(guò)Waymo的注釋獲得了每幀數(shù)據(jù)中邊界框的類別和三維大小。根據(jù)這些信息,我們?cè)贑ARLA中搜索同類流量參與者中規(guī)模最接近的數(shù)字資產(chǎn),并將其用作流量參與者的模型。根據(jù)CARLA模擬器中可用的場(chǎng)景真實(shí)信息,我們?yōu)榻煌▓?chǎng)景中的每個(gè)可檢測(cè)目標(biāo)開(kāi)發(fā)了一個(gè)邊界盒提取工具,并將其轉(zhuǎn)換為目標(biāo)域的標(biāo)簽格式(如KITTI)。從圖4中可以觀察到,不同數(shù)據(jù)集的目標(biāo)大小分布不同。為了確保模擬數(shù)據(jù)集與目標(biāo)域中一般車輛大小的一致性,我們首先根據(jù)統(tǒng)計(jì)結(jié)果對(duì)每個(gè)交通參與者的大小進(jìn)行函數(shù)映射,然后完成屬性匹配過(guò)程。
對(duì)于交通參與者的運(yùn)動(dòng)模擬,我們對(duì)交通場(chǎng)景坐標(biāo)系進(jìn)行了梳理,并逐幀更新動(dòng)態(tài)目標(biāo)的位置和姿態(tài)。對(duì)于每個(gè)clip,我們將第一幀中自車中心的接地點(diǎn)作為坐標(biāo)原點(diǎn)。通過(guò)不同幀中自車標(biāo)簽之間的差異來(lái)更新自車的6D姿態(tài)。通過(guò)每幀的標(biāo)簽信息中自我車輛的相對(duì)6D姿態(tài)來(lái)更新其他動(dòng)態(tài)目標(biāo)。模擬目標(biāo)Pt在第t幀中的6D姿態(tài)可以在模擬器中表示為(x,y,z,滾轉(zhuǎn),偏航,俯仰)。自車位姿和動(dòng)態(tài)目標(biāo)姿態(tài)的更新是:
為了研究交通場(chǎng)景重構(gòu)和激光雷達(dá)仿真對(duì)合成數(shù)據(jù)真實(shí)性和零樣本域自適應(yīng)性能的影響,構(gòu)建了三個(gè)數(shù)據(jù)集。除了根據(jù)上述方法的隱式重建模擬數(shù)據(jù)集外,還通過(guò)OpenCDA工具構(gòu)建了基于CARLA場(chǎng)景背景的類傳感器LiDAR模擬數(shù)據(jù)集和默認(rèn)LiDAR仿真數(shù)據(jù)集。
類傳感器激光雷達(dá)數(shù)據(jù)集與默認(rèn)激光雷達(dá)模擬數(shù)據(jù)集之間的主要區(qū)別在于,激光雷達(dá)通道的數(shù)量和垂直視場(chǎng)不同。默認(rèn)的激光雷達(dá)具有固定的32通道配置,垂直視場(chǎng)范圍從-30度到10度,光束均勻分布。同時(shí),利用模擬庫(kù),像LiDAR這樣的傳感器的特征與來(lái)自目標(biāo)域的相應(yīng)傳感器設(shè)置的特征相同。目標(biāo)域激光雷達(dá)的探測(cè)范圍、每秒發(fā)射的點(diǎn)、旋轉(zhuǎn)頻率和下降率也與默認(rèn)激光雷達(dá)幾乎相同。由于車輛交通流量需要與路網(wǎng)結(jié)構(gòu)相匹配,為了進(jìn)行基于CARLA靜態(tài)背景的數(shù)據(jù)模擬,我們完成了車輛交通流量密度的匹配。
零樣本感知過(guò)程
為了進(jìn)一步實(shí)現(xiàn)閉環(huán)模擬驗(yàn)證,我們使用模擬點(diǎn)Xsim在新域上訓(xùn)練我們的基線模型,并對(duì)來(lái)自新域的驗(yàn)證集的真實(shí)樣本Xreal進(jìn)行評(píng)估。具體來(lái)說(shuō),我們?cè)?D檢測(cè)任務(wù)上驗(yàn)證了我們的方法,總體損失Ltrain和評(píng)估過(guò)程Eeval為:
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
我們首先在標(biāo)記的源域上訓(xùn)練基礎(chǔ)模型,并評(píng)估訓(xùn)練的源模型在目標(biāo)域上的跨域性能。
1)CARLA默認(rèn)值:我們使用CARLA生成模擬數(shù)據(jù)。對(duì)于該基線,通過(guò)從CARLA中搜索來(lái)找到最接近對(duì)象大小的屬性,將前景對(duì)象添加到模擬場(chǎng)景中。
2)類傳感器:我們假設(shè)可以獲得目標(biāo)域傳感器設(shè)置,因此,我們還更改了CARLA中的傳感器參數(shù)設(shè)置,并模擬點(diǎn)數(shù)據(jù),使激光雷達(dá)光束分布與目標(biāo)域場(chǎng)景相似。請(qǐng)注意,以上兩個(gè)基線設(shè)置只會(huì)產(chǎn)生更多符合目標(biāo)域分布的模擬數(shù)據(jù),我們直接使用模擬數(shù)據(jù)來(lái)微調(diào)我們的基本模型,并觀察它們?cè)谀繕?biāo)域中的性能。
3)ST3D:我們與ST3D進(jìn)行了比較,ST3D是一種流行的無(wú)監(jiān)督域自適應(yīng)(UDA)技術(shù),以標(biāo)簽有效的方式減少了點(diǎn)云的跨域差異。
跨域?qū)嶒?yàn)
RESIMAD增強(qiáng)零樣本3D物體檢測(cè)
為了確保實(shí)驗(yàn)的公平性,我們首先將所提出的ReSimAD與數(shù)據(jù)模擬相關(guān)的基線進(jìn)行比較:CARLA-默認(rèn)和類似傳感器。從表2中可以看出,我們的ReSimAD在PV-RCNN和PV-RCNN++上的所有跨域設(shè)置中都實(shí)現(xiàn)了最佳的零樣本3D檢測(cè)精度。此外,我們發(fā)現(xiàn),與之相比類傳感器基線對(duì)領(lǐng)域差異具有更強(qiáng)的魯棒性。
CARLA默認(rèn),因?yàn)槲覀兏鶕?jù)目標(biāo)域的激光雷達(dá)參數(shù)設(shè)置提前進(jìn)行傳感器級(jí)模擬。然而,由于模擬場(chǎng)景和真實(shí)場(chǎng)景之間背景分布的差異,僅使用類傳感器基線仍然難以實(shí)現(xiàn)令人滿意的跨域性能(即Waymo到KITTI僅為40.80%)。
此外,表2比較了類傳感器和ReSimAD,表明在不同類型的跨域差異下,ReSimAD通常可以比類傳感器方法好5.98%~27.49%左右。因此,我們認(rèn)為點(diǎn)云背景分布的真實(shí)性對(duì)于實(shí)現(xiàn)零樣本交叉數(shù)據(jù)集檢測(cè)也至關(guān)重要。
表2顯示了利用無(wú)監(jiān)督域自適應(yīng)(UDA)技術(shù)的結(jié)果。UDA和ReSimAD的主要區(qū)別在于,前者使用目標(biāo)域真實(shí)場(chǎng)景中的樣本進(jìn)行模型自適應(yīng),而后者無(wú)法訪問(wèn)目標(biāo)域中的任何真實(shí)點(diǎn)云數(shù)據(jù)。從表2可以看出,我們的ReSimAD獲得的跨域結(jié)果與UDA方法獲得的結(jié)果相當(dāng)。這一結(jié)果表明,當(dāng)激光雷達(dá)傳感器出于商業(yè)目的需要升級(jí)時(shí),我們的方法可以大大降低數(shù)據(jù)采集成本,并進(jìn)一步縮短模型再訓(xùn)練的開(kāi)發(fā)周期。
RESIMAD增強(qiáng)全監(jiān)督3D檢測(cè)
使用ReSimAD生成的數(shù)據(jù)的另一個(gè)好處是,可以在不訪問(wèn)任何目標(biāo)域真實(shí)數(shù)據(jù)分布的情況下獲得高性能的目標(biāo)域精度。我們發(fā)現(xiàn),這樣一個(gè)類似目標(biāo)域的模擬過(guò)程可以進(jìn)一步提升Oracle的基線結(jié)果。
表3報(bào)告了使用來(lái)自目標(biāo)域的標(biāo)注的結(jié)果。Oracle代表了在目標(biāo)域的所有標(biāo)記數(shù)據(jù)上訓(xùn)練的基線模型所獲得的最高結(jié)果。SFT表示基線模型的網(wǎng)絡(luò)參數(shù)由從模擬數(shù)據(jù)訓(xùn)練的權(quán)重初始化。表3顯示,使用我們模擬的點(diǎn)云預(yù)訓(xùn)練的主干為3D檢測(cè)器(如PV-RCNN++和PV-RCNN)提供了更好的初始化。
3D預(yù)訓(xùn)練實(shí)驗(yàn)
使用模擬數(shù)據(jù)進(jìn)行3D預(yù)訓(xùn)練概述。為了驗(yàn)證ReSimAD是否能夠產(chǎn)生有利于3D預(yù)訓(xùn)練任務(wù)的點(diǎn)數(shù)據(jù),我們?cè)O(shè)計(jì)了以下設(shè)置:使用AD-PT在模擬點(diǎn)云上預(yù)訓(xùn)練3D主干,然后對(duì)下游真實(shí)世界數(shù)據(jù)進(jìn)行微調(diào)。它通過(guò)使用模擬數(shù)據(jù)進(jìn)行3D預(yù)訓(xùn)練來(lái)保存大量真實(shí)世界的數(shù)據(jù)。
下游微調(diào)結(jié)果。我們利用ReSimAD生成具有更廣泛的點(diǎn)云分布的數(shù)據(jù)。為了與他們?cè)贏D-PT中的預(yù)訓(xùn)練結(jié)果進(jìn)行公平的比較,ReSimAD生成的模擬數(shù)據(jù)的目標(biāo)量約為100K(生成的仿真數(shù)據(jù)的組成見(jiàn)表1)。在表4中,基線檢測(cè)器在模擬數(shù)據(jù)或真實(shí)世界數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,并在KITTI和Waymo基準(zhǔn)上進(jìn)行微調(diào)。表4顯示,使用不同規(guī)模的模擬預(yù)訓(xùn)練數(shù)據(jù),可以不斷提高下游微調(diào)的性能。總體而言,我們通過(guò)以零樣本方式利用不同規(guī)模的模擬點(diǎn)云來(lái)實(shí)現(xiàn)預(yù)訓(xùn)練,即無(wú)需額外的數(shù)據(jù)采集和目標(biāo)域的注釋工作。
進(jìn)一步分析
重建和模擬的有效性。為了驗(yàn)證所提出方法的模塊有效性,我們可視化了使用不同方法渲染的點(diǎn)云,包括CARLA模擬器,以及通過(guò)圖5中的方法重建的真實(shí)世界3D場(chǎng)景。結(jié)果表明,ReSimAD獲得的模擬點(diǎn)覆蓋了目標(biāo)域更真實(shí)的場(chǎng)景信息,如路面和街景。圖6還使用不同的重建方法對(duì)重建的網(wǎng)格進(jìn)行了可視化。可視化結(jié)果表明,與VDBFusion相比,我們的ReSimAD隱式重建的網(wǎng)格顯示出清晰的街景信息和連續(xù)的幾何結(jié)構(gòu)。
表5顯示,生成的點(diǎn)云對(duì)輕量級(jí)基線模型是有效的,這在使用輕量級(jí)模型的實(shí)際應(yīng)用中是實(shí)用的。我們采用SECOND-IOU作為模型,并通過(guò)ReSimAD在模擬數(shù)據(jù)上對(duì)其進(jìn)行訓(xùn)練。結(jié)果表明,該方法在一階段3D檢測(cè)模型上也取得了很好的結(jié)果。
結(jié)論
在這項(xiàng)工作中,我們研究了如何實(shí)現(xiàn)零樣本域遷移,并提出了一種統(tǒng)一的重建模擬感知方案(ReSimAD),該方案由真實(shí)世界的點(diǎn)級(jí)圖像重建過(guò)程和網(wǎng)格到點(diǎn)的渲染過(guò)程組成,該方案已被驗(yàn)證在處理嚴(yán)重的域間隙甚至數(shù)據(jù)集級(jí)差異方面是有效的。我們?cè)诹銟颖经h(huán)境下進(jìn)行了實(shí)驗(yàn),結(jié)果證明了ReSi-mAD在產(chǎn)生類靶域樣本和實(shí)現(xiàn)高靶域感知能力方面的有效性,甚至有助于3D預(yù)訓(xùn)練。