閉環(huán)永動(dòng)機(jī)!NeuroNCAP:徹底打通端到端閉環(huán)仿真鏈路,已開源!
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫在前面&筆者的個(gè)人理解
本文提出了一種用于測(cè)試自動(dòng)駕駛(AD)軟件系統(tǒng)的多功能基于NeRF的仿真器,其設(shè)計(jì)重點(diǎn)是傳感器真實(shí)閉環(huán)評(píng)估和安全關(guān)鍵場(chǎng)景的創(chuàng)建。仿真器從真實(shí)世界的駕駛傳感器數(shù)據(jù)序列中學(xué)習(xí),并能夠重新配置和渲染新穎的場(chǎng)景。在這項(xiàng)工作中,使用本文提出的仿真器來測(cè)試AD模型對(duì)安全關(guān)鍵場(chǎng)景的響應(yīng)。評(píng)估表明,盡管最先進(jìn)的端到端規(guī)劃器在開環(huán)環(huán)境中的標(biāo)稱駕駛場(chǎng)景中表現(xiàn)出色,但在閉環(huán)環(huán)境中導(dǎo)航關(guān)鍵場(chǎng)景時(shí),他們表現(xiàn)出了不可忽略的缺陷。這突出了端到端規(guī)劃器在安全性和現(xiàn)實(shí)可用性方面的進(jìn)步需求。通過將我們的仿真器和場(chǎng)景作為一個(gè)易于運(yùn)行的評(píng)估套件公開發(fā)布,并邀請(qǐng)社區(qū)在受控但高度可配置且具有挑戰(zhàn)性的傳感器現(xiàn)實(shí)環(huán)境中探索、完善和驗(yàn)證他們的端到端模型。
開源鏈接:https://github.com/atonderski/neuro-ncap
總結(jié)來說,本文的主要貢獻(xiàn)如下:
- 發(fā)布了一個(gè)開源框架,用于自動(dòng)駕駛的真實(shí)感閉環(huán)仿真。
- 受行業(yè)標(biāo)準(zhǔn)EuroNCAP的啟發(fā),構(gòu)建了無法在現(xiàn)實(shí)世界中安全收集的安全關(guān)鍵場(chǎng)景。
- 使用仿真器和我們構(gòu)建的場(chǎng)景,設(shè)計(jì)了一個(gè)新的評(píng)估協(xié)議,該協(xié)議側(cè)重于碰撞而不是位移度量。
- 本文發(fā)現(xiàn)盡管準(zhǔn)確地感知了環(huán)境,但兩個(gè)SoTA端到端規(guī)劃器在安全關(guān)鍵場(chǎng)景中嚴(yán)重失敗,這值得社區(qū)進(jìn)一步探索。
相關(guān)工作回顧
端到端駕駛模型:傳統(tǒng)上,自動(dòng)駕駛?cè)蝿?wù)被劃分為不同的模塊,例如感知、預(yù)測(cè)和規(guī)劃,這些模塊是單獨(dú)構(gòu)建的。胡等人認(rèn)為,這種劃分有很多缺點(diǎn):跨模塊的信息丟失、錯(cuò)誤積累和特征錯(cuò)位。姜等人強(qiáng)調(diào),規(guī)劃模塊可能需要訪問手工制作的界面中不存在的傳感器數(shù)據(jù)的語義信息。這兩項(xiàng)工作繼續(xù)支持端到端規(guī)劃。Pomerlau等人的開創(chuàng)性工作提出了這樣一種規(guī)劃器,其中訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò)將傳感器輸入映射到輸出軌跡。幾十年的神經(jīng)網(wǎng)絡(luò)進(jìn)步激發(fā)了人們對(duì)端到端規(guī)劃的新興趣。然而,這些規(guī)劃者的黑匣子性質(zhì)使他們難以優(yōu)化,其結(jié)果也難以解釋。胡等人和姜等人提出了兩種具有中間輸出的端到端神經(jīng)網(wǎng)絡(luò)規(guī)劃器,對(duì)應(yīng)于模塊化方法。他們的規(guī)劃者被劃分為多個(gè)模塊,但模塊接口是學(xué)習(xí)的,由深度特征向量組成。
端到端規(guī)劃器的開環(huán)評(píng)估:Pomerleau等人通過讓其駕駛真實(shí)世界的測(cè)試車輛來評(píng)估他們的駕駛模型。這樣的設(shè)置使得大規(guī)模測(cè)試成本高昂,并且結(jié)果可能難以再現(xiàn)。最近在端到端規(guī)劃方面的工作改為在開環(huán)中進(jìn)行評(píng)估,在該開環(huán)中,模型根據(jù)記錄的傳感器數(shù)據(jù)預(yù)測(cè)計(jì)劃。預(yù)測(cè)的計(jì)劃從未被執(zhí)行,相反,行動(dòng)被固定在記錄的內(nèi)容上。這種設(shè)置也被用于目標(biāo)級(jí)規(guī)劃工作,該工作假設(shè)了完美的感知,并將靜態(tài)環(huán)境的地圖和動(dòng)態(tài)對(duì)象的軌跡輸入到模型中。這種開環(huán)評(píng)估構(gòu)成了評(píng)估與現(xiàn)實(shí)部署之間的差距。此外,性能通常被測(cè)量為記錄中預(yù)測(cè)的計(jì)劃和車輛駕駛的軌跡之間的距離。雖然零的誤差對(duì)應(yīng)于人類水平的駕駛,但誤差越低越好并不一定是真的。這可以通過考慮兩個(gè)不同軌跡相同好的場(chǎng)景來實(shí)現(xiàn)。Codevilla等人對(duì)這些問題進(jìn)行了研究,發(fā)現(xiàn)開環(huán)評(píng)估與實(shí)際駕駛質(zhì)量不一定相關(guān)。Dauner等人得出了類似的結(jié)論。
閉環(huán)評(píng)估和仿真:考慮到上述開環(huán)評(píng)估問題,閉環(huán)仿真變得很有吸引力。已經(jīng)提出了幾種對(duì)象級(jí)仿真器。然而,這些仿真器不生成傳感器數(shù)據(jù),這使得無法在閉環(huán)中測(cè)試端到端規(guī)劃器。已經(jīng)提出了許多手工制作的圖形仿真器。這種仿真器面臨的挑戰(zhàn)有兩個(gè):很難創(chuàng)建逼真的圖像,也很難創(chuàng)建捕捉真實(shí)世界多樣性的圖形資產(chǎn)。對(duì)世界模型的研究表明,場(chǎng)景的未來——例如雅達(dá)利游戲——可以在潛在空間中預(yù)測(cè),并且潛在空間中的向量可以解碼為傳感器輸入。胡等利用大規(guī)模的真實(shí)世界汽車數(shù)據(jù)集建立了一個(gè)世界模型。Amini等人提出了VISTA,其中可以通過預(yù)測(cè)深度取消投影最近的圖像并重新投影,在局部軌跡周圍合成新的視圖。楊等人提出使用神經(jīng)輻射場(chǎng)(NeRF)來創(chuàng)建場(chǎng)景的真實(shí)感傳感器輸入。該方法隨后由Tonderski等人進(jìn)行了改進(jìn)。具有更準(zhǔn)確的傳感器建模和更高的渲染質(zhì)量,特別是對(duì)于此處考慮的360度設(shè)置。
新車評(píng)估計(jì)劃:新車評(píng)估計(jì)劃(NCAP)由美國(guó)交通部國(guó)家公路安全管理局于1979年推出,旨在為消費(fèi)者提供有關(guān)汽車相對(duì)安全潛力的信息。NCAP對(duì)車輛進(jìn)行了碰撞測(cè)試,并根據(jù)嚴(yán)重受傷的概率對(duì)車輛進(jìn)行評(píng)分。1996年提出了一項(xiàng)類似的歐洲協(xié)議,即歐洲新車評(píng)估計(jì)劃(Euro NCAP)。2009年,歐洲NCAP進(jìn)行了全面改革,以納入新興防撞系統(tǒng)的測(cè)試。最初,這包括電子穩(wěn)定控制和速度輔助系統(tǒng),但后來擴(kuò)展到包括其他系統(tǒng),如自動(dòng)緊急制動(dòng)和自動(dòng)緊急轉(zhuǎn)向。在這項(xiàng)工作中,我們從歐洲NCAP自動(dòng)防撞評(píng)估協(xié)議中獲得了靈感。該協(xié)議提供了除非采取措施,否則將發(fā)生崩潰的場(chǎng)景。為了獲得滿分,車輛需要?jiǎng)x車或轉(zhuǎn)向以避免事故發(fā)生。如果沖擊速度充分降低,則會(huì)獲得部分分?jǐn)?shù)。
方法詳解
閉環(huán)仿真
我們的閉環(huán)仿真重復(fù)執(zhí)行四個(gè)步驟。首先,在給定ego車輛的狀態(tài)和相機(jī)校準(zhǔn)的情況下,渲染高質(zhì)量的相機(jī)輸入。渲染器是根據(jù)駕駛車輛的日志構(gòu)建的。其次,在給定渲染的相機(jī)輸入和自車狀態(tài)的情況下,端到端規(guī)劃器預(yù)測(cè)未來自車軌跡。第三,控制器將計(jì)劃軌跡轉(zhuǎn)換為一組控制輸入。第四,在給定控制輸入的情況下,車輛模型在時(shí)間上向前傳播自我狀態(tài)。此過程如圖2所示。接下來,我們?cè)敿?xì)介紹四個(gè)步驟中的每一個(gè)。
神經(jīng)渲染器:為了仿真新穎的傳感器數(shù)據(jù),我們采用了神經(jīng)渲染器。NeRF從收集的真實(shí)世界數(shù)據(jù)的日志中學(xué)習(xí)3D環(huán)境的隱含表示。一旦經(jīng)過訓(xùn)練,NeRF就可以從所述場(chǎng)景中渲染傳感器逼真的新穎視圖。最近的進(jìn)步增加了通過更改場(chǎng)景中動(dòng)態(tài)對(duì)象的相應(yīng)三維邊界框來編輯動(dòng)態(tài)對(duì)象的能力。具體來說,參與者可以被移除、添加或設(shè)置為遵循新的軌跡,在我們的案例中,這使得能夠創(chuàng)建安全關(guān)鍵場(chǎng)景。例如,為了仿真一種罕見但關(guān)鍵的安全場(chǎng)景,可以將原本在相鄰車道上行駛的車輛定位為靜止,并與自身車輛位于同一車道上。這種新穎的情況需要自車剎車或執(zhí)行精確的超車動(dòng)作。
有兩件事需要注意。首先,最近提出的NeuRAD還支持激光雷達(dá)數(shù)據(jù)的渲染。然而,由于最先進(jìn)的端到端規(guī)劃者只消耗相機(jī)數(shù)據(jù),我們?cè)谶@項(xiàng)工作中只關(guān)注相機(jī)數(shù)據(jù)。其次,正如我們?cè)趯?shí)驗(yàn)中所示,與真實(shí)數(shù)據(jù)相比,現(xiàn)代NeRF引入的領(lǐng)域差距足夠小,端到端計(jì)劃者的感知部分仍能以高性能運(yùn)行。然而,我們預(yù)計(jì)隨著神經(jīng)渲染的未來發(fā)展,這一差距將進(jìn)一步縮小。
AD模型:最近關(guān)于端到端規(guī)劃的工作描述了一個(gè)消耗(i)原始傳感器數(shù)據(jù)的系統(tǒng);(ii)自車狀態(tài);以及(iii)預(yù)測(cè)計(jì)劃軌跡的高級(jí)計(jì)劃。計(jì)劃的軌跡包括在某個(gè)頻率和某個(gè)時(shí)間范圍的路點(diǎn)。需要注意的是,雖然我們的主要目標(biāo)是分析最先進(jìn)的端到端規(guī)劃器,但該模塊可以用任何類型的規(guī)劃器取代,例如模塊化檢測(cè)器-跟蹤器-規(guī)劃器管道。
控制器:為了應(yīng)用車輛模型,需要將路點(diǎn)轉(zhuǎn)換為一系列控制信號(hào),對(duì)應(yīng)于一系列轉(zhuǎn)向角(δ)和加速度(a)命令。繼Caesar等人之后,我們用線性二次型調(diào)節(jié)器(LQR)實(shí)現(xiàn)了這一點(diǎn)。請(qǐng)注意,雖然我們只分析輸出路點(diǎn)的規(guī)劃器,但規(guī)劃器可以直接輸出一系列控制信號(hào)。
車輛模型:給定一組由計(jì)劃軌跡產(chǎn)生的控制信號(hào),車輛狀態(tài)通過時(shí)間傳播。為此,我們遵循先前的閉環(huán)仿真器,并采用離散版本的運(yùn)動(dòng)自行車模型。它可以正式地描述為:
評(píng)估
與常見的評(píng)估實(shí)踐(即大規(guī)模數(shù)據(jù)集的平均性能)相反,我們將評(píng)估重點(diǎn)放在一小部分精心設(shè)計(jì)的安全關(guān)鍵場(chǎng)景上。這些場(chǎng)景經(jīng)過精心設(shè)計(jì),任何無法成功處理所有場(chǎng)景的模型都應(yīng)被視為不安全。我們從行業(yè)標(biāo)準(zhǔn)的歐洲NCAP測(cè)試中獲得了靈感(見第2節(jié)),并定義了三種類型的場(chǎng)景,每種場(chǎng)景的特征都是我們即將碰撞的參與者的行為:靜止、正面和側(cè)面。根據(jù)歐洲NCAP命名法,我們將此參與者稱為目標(biāo)參與者。其目的是控制自車以避免與目標(biāo)行為者發(fā)生碰撞或至少降低碰撞速度。
對(duì)于每種場(chǎng)景類型,我們都會(huì)創(chuàng)建多個(gè)場(chǎng)景。每個(gè)場(chǎng)景都基于從真實(shí)世界中大約20秒的駕駛中收集的數(shù)據(jù)。自車和目標(biāo)參與者狀態(tài)被初始化,這樣,如果保持當(dāng)前速度和轉(zhuǎn)向角,碰撞將在未來約4秒發(fā)生。所有非平穩(wěn)演員都被從場(chǎng)景中移除,我們隨機(jī)選擇其中一個(gè)作為目標(biāo)演員,考慮到演員是否已經(jīng)被足夠近的觀察到,并且在必要的角度下,以產(chǎn)生逼真的渲染。由于我們的渲染器僅限于僵硬的參與者,因此我們將行人排除在該選擇之外。最后,我們?cè)谔囟▓?chǎng)景的間隔內(nèi)隨機(jī)抖動(dòng)目標(biāo)演員的位置、旋轉(zhuǎn)和速度。在評(píng)估過程中,我們將每個(gè)場(chǎng)景運(yùn)行大量的運(yùn)行(使用固定的隨機(jī)種子),并計(jì)算平均結(jié)果。接下來,我們將描述每種類型場(chǎng)景的特征。
靜止:這是一種相對(duì)簡(jiǎn)單的場(chǎng)景,其中一個(gè)靜止的目標(biāo)演員被放置在自車車道上。目標(biāo)車輛可以任意旋轉(zhuǎn)放置,但在整個(gè)場(chǎng)景中都將保持靜止。這意味著自車可以進(jìn)行劇烈的剎車或轉(zhuǎn)向操作以避免碰撞。見圖3a。
正面:正面場(chǎng)景包括一個(gè)目標(biāo)演員,他正朝相反的方向行駛,并在與自車的碰撞路徑上漂移到自我車道上。因此,ego車輛不能通過斷裂來避免碰撞,只會(huì)降低碰撞速度。為了完全避免碰撞,自車必須執(zhí)行轉(zhuǎn)向操作。見圖3b。
側(cè)面:側(cè)面碰撞場(chǎng)景的特點(diǎn)是目標(biāo)演員從垂直方向穿過我們的車道。如果自車的當(dāng)前速度保持不變,就會(huì)發(fā)生側(cè)面碰撞。自車可以通過為迎面而來的目標(biāo)行為者剎車,或者在超速經(jīng)過目標(biāo)行為者時(shí)進(jìn)行輕微的轉(zhuǎn)向操縱來避免碰撞。見圖3c。
NeuroNCAP評(píng)分:對(duì)于每個(gè)場(chǎng)景,都會(huì)計(jì)算一個(gè)評(píng)分。只有完全避免碰撞才能獲得滿分。成功降低沖擊速度可獲得部分分?jǐn)?shù)。本著五星級(jí)歐洲NCAP評(píng)級(jí)系統(tǒng)的精神,我們將NeuroNCAP評(píng)分(NNS)計(jì)算為:
實(shí)驗(yàn)
數(shù)據(jù)集:雖然有許多針對(duì)自動(dòng)駕駛的數(shù)據(jù)集,但nuScenes在端到端規(guī)劃方面得到了最廣泛的適應(yīng)。它以具有高度互動(dòng)場(chǎng)景的城市環(huán)境為特色,適用于我們的安全關(guān)鍵場(chǎng)景生成。由于其廣泛的適應(yīng)性,它還允許我們使用我們?cè)u(píng)估的模型的官方實(shí)現(xiàn)和網(wǎng)絡(luò)權(quán)重。NuScenes分為1000個(gè)序列,其中150個(gè)保留用于驗(yàn)證。從這150個(gè)序列中,我們選擇了14個(gè)不同的序列——根據(jù)場(chǎng)景中特工的行為,這些序列被認(rèn)為是合適的——作為我們安全關(guān)鍵場(chǎng)景的基礎(chǔ)。
場(chǎng)景:每個(gè)場(chǎng)景都是手工設(shè)計(jì)的,考慮哪些參與者適合給定的序列、最合理的碰撞軌跡,以及定義不同類型隨機(jī)化的允許范圍。在評(píng)估過程中,我們將每個(gè)場(chǎng)景運(yùn)行100次(使用固定的隨機(jī)種子),并對(duì)結(jié)果進(jìn)行平均。并不是所有的序列都可以用于所有類型的場(chǎng)景,例如,我們無法仿真一條直線路上的真實(shí)側(cè)面碰撞。因此,我們?yōu)槊糠N場(chǎng)景類型選擇合適的序列。關(guān)于每個(gè)場(chǎng)景的更多細(xì)節(jié)和定性示例,我們參考補(bǔ)充材料。
神經(jīng)渲染器:作為我們的渲染器,我們選擇使用NeuRAD,這是一款專門為自動(dòng)駕駛開發(fā)的SotA神經(jīng)渲染器,經(jīng)驗(yàn)證可與nuScenes很好地配合使用。由于我們希望最大限度地提高重建質(zhì)量,我們使用更大的配置(NeuRAD-L),并使用默認(rèn)的超參數(shù)訓(xùn)練100k步。由于nuScenes中的姿態(tài)信息僅限于鳥瞰平面,我們采用姿態(tài)優(yōu)化來恢復(fù)丟失的信息。最后,我們采用了沿對(duì)稱軸翻轉(zhuǎn)演員的方式,以實(shí)現(xiàn)從所有視點(diǎn)對(duì)演員的逼真渲染。
AD模型:根據(jù)我們提出的評(píng)估協(xié)議,我們?cè)u(píng)估了目前的兩種SotA端到端驅(qū)動(dòng)模型,即UniAD和VAD。在這兩種情況下,我們都使用了作者提供的預(yù)先訓(xùn)練的權(quán)重,這些權(quán)重在同一數(shù)據(jù)集上訓(xùn)練,而不會(huì)對(duì)所述模型的配置進(jìn)行任何更改。這兩種型號(hào)都消耗360°攝像頭輸入,以及can總線信號(hào)和高級(jí)命令:右、左或直,并在未來3秒內(nèi)輸出一系列未來路線點(diǎn)。雖然在我們的場(chǎng)景中,這比碰撞的初始時(shí)間(TTC)更短,但這不是一個(gè)問題,因?yàn)橐?guī)避機(jī)動(dòng)可以而且應(yīng)該在最終航路點(diǎn)與當(dāng)前參與者位置相交之前開始。此外,我們的場(chǎng)景設(shè)計(jì)得相當(dāng)寬松,因此TTC<3s的計(jì)劃仍然可以成功避免碰撞。
這兩個(gè)模型之間的一個(gè)主要區(qū)別是,UniAD將防撞優(yōu)化后處理步驟應(yīng)用于它們的預(yù)測(cè)軌跡。使用具有基于預(yù)測(cè)占用率和未優(yōu)化輸出軌跡的成本函數(shù)的經(jīng)典求解器來執(zhí)行優(yōu)化。當(dāng)在開環(huán)中評(píng)估時(shí),這種優(yōu)化被證明可以顯著降低碰撞率,我們現(xiàn)在可以在更有趣的閉環(huán)設(shè)置中研究它。為了實(shí)現(xiàn)更直接的可比分析,我們對(duì)VAD實(shí)現(xiàn)了相同的防撞優(yōu)化。然而,由于VAD不能直接預(yù)測(cè)未來的占用,我們將其預(yù)測(cè)的未來對(duì)象光柵化,并將其用作未來的占用。請(qǐng)注意,這種方法可能高估了占用率,因?yàn)樗形磥砟J蕉急灰暈榫哂型瓤赡苄浴?/p>
為了進(jìn)行比較,我們基于UniAD/VAD的感知輸出實(shí)現(xiàn)了一種天真的基線方法。規(guī)劃邏輯只是一個(gè)等速模型,除非我們?cè)谧攒嚽胺降淖呃戎杏^察到物體,在這種情況下,我們會(huì)執(zhí)行制動(dòng)操作。走廊被定義為橫向±2米,縱向范圍從0到2維戈米,即如果TTC<2s且前方有物體,我們會(huì)剎車。
實(shí)驗(yàn)結(jié)果
我們使用圖4中每種場(chǎng)景類型的渲染前置攝像頭圖像,以及計(jì)劃軌跡的重疊投影來增強(qiáng)定量分析。圖4a描繪了一個(gè)成功的回避動(dòng)作,同時(shí)也突出了我們呈現(xiàn)復(fù)雜實(shí)體(如摩托車手)的能力。然而,如果沒有后期處理,規(guī)劃者似乎容易忽視安全關(guān)鍵事件,如圖4b所示。
限制
我們看到以下限制。首先,神經(jīng)渲染器在場(chǎng)景和場(chǎng)景中受到限制,例如,沒有雨,它能夠準(zhǔn)確渲染。此外,自車軌跡的大偏差和非常近的物體會(huì)導(dǎo)致視覺偽影(見圖4)。其次,我們采用了一個(gè)簡(jiǎn)化的車輛模型,它不建模,例如延遲、摩擦或懸架。此外,我們不考慮路面方面,如顛簸、坑洞、礫石等。第三,我們對(duì)所有車型都采用了單一控制器,即使它們是緊密耦合的。我們的評(píng)估協(xié)議允許提交直接輸出控制信號(hào)的AD模型。第四,神經(jīng)渲染器無法處理可變形對(duì)象,例如行人。我們希望神經(jīng)渲染的進(jìn)一步進(jìn)步將解除這一限制,并實(shí)現(xiàn)一套新的安全關(guān)鍵場(chǎng)景,重點(diǎn)關(guān)注弱勢(shì)道路使用者。第五,目標(biāo)行動(dòng)者遵循預(yù)定的軌跡,而不動(dòng)態(tài)地對(duì)自車做出反應(yīng)。雖然這遵循了EuroNCAP的設(shè)置,但我們認(rèn)為,未來有多個(gè)參與者的場(chǎng)景將需要反應(yīng)行為。
結(jié)論
總之,我們的仿真環(huán)境提供了一種新的方法來評(píng)估自動(dòng)駕駛模型的安全性,利用真實(shí)世界的傳感器數(shù)據(jù)和受歐洲NCAP啟發(fā)的安全協(xié)議。通過NeuroNCAP框架,包括靜止、正面和側(cè)面碰撞場(chǎng)景,我們暴露了當(dāng)前SotA規(guī)劃者的重大漏洞。這些發(fā)現(xiàn)不僅強(qiáng)調(diào)了在端到端規(guī)劃者的安全性方面取得進(jìn)展的迫切需要,而且為未來的研究提供了有希望的途徑。通過向更廣泛的研究界公開我們的評(píng)估套件,我們的目標(biāo)是促進(jìn)更安全的自動(dòng)駕駛方面的進(jìn)展。展望未來,我們預(yù)計(jì)將開發(fā)該套件以應(yīng)對(duì)更廣泛的場(chǎng)景,集成更精細(xì)的車輛模型,并采用先進(jìn)的神經(jīng)渲染技術(shù),從而為安全評(píng)估設(shè)定新的基準(zhǔn)。