DriveWorld:一個(gè)預(yù)訓(xùn)練模型大幅提升檢測(cè)+地圖+跟蹤+運(yùn)動(dòng)預(yù)測(cè)+Occ多個(gè)任務(wù)性能
本文經(jīng)自動(dòng)駕駛之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
寫(xiě)在前面
以視覺(jué)為中心的自動(dòng)駕駛技術(shù)近期因其較低的成本而引起了廣泛關(guān)注,而預(yù)訓(xùn)練對(duì)于提取通用表示至關(guān)重要。然而,當(dāng)前的以視覺(jué)為中心的預(yù)訓(xùn)練通常依賴(lài)于2D或3D預(yù)訓(xùn)練任務(wù),忽視了自動(dòng)駕駛作為4D場(chǎng)景理解任務(wù)的時(shí)序特征。這里通過(guò)引入一個(gè)基于世界模型的自動(dòng)駕駛4D表示學(xué)習(xí)框架“DriveWorld”來(lái)解決這一挑戰(zhàn),該框架能夠從多攝像頭駕駛視頻中以時(shí)空方式進(jìn)行預(yù)訓(xùn)練。具體來(lái)說(shuō),提出了一個(gè)用于時(shí)空建模的記憶狀態(tài)空間模型,它由一個(gè)動(dòng)態(tài)記憶庫(kù)模塊組成,用于學(xué)習(xí)時(shí)間感知的潛在動(dòng)態(tài)以預(yù)測(cè)未來(lái)變化,以及一個(gè)靜態(tài)場(chǎng)景傳播模塊,用于學(xué)習(xí)空間感知的潛在靜態(tài)以提供全面的場(chǎng)景上下文。此外,還引入了一個(gè)任務(wù)提示,以解耦用于各種下游任務(wù)的任務(wù)感知特征。實(shí)驗(yàn)表明,DriveWorld在各種自動(dòng)駕駛?cè)蝿?wù)上取得了令人鼓舞的結(jié)果。當(dāng)使用OpenScene數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí),DriveWorld在3D檢測(cè)中實(shí)現(xiàn)了7.5%的mAP提升,在線地圖中的IoU提升了3.0%,多目標(biāo)跟蹤中的AMOTA提升了5.0%,運(yùn)動(dòng)預(yù)測(cè)中的minADE降低了0.1m,占用預(yù)測(cè)中的IoU提升了3.0%,規(guī)劃中的平均L2誤差減少了0.34m。
領(lǐng)域背景
自動(dòng)駕駛是一項(xiàng)復(fù)雜的任務(wù),它依賴(lài)于全面的4D場(chǎng)景理解。這要求獲得一個(gè)穩(wěn)健的時(shí)空表示,能夠處理涉及感知、預(yù)測(cè)和規(guī)劃的任務(wù)。由于自然場(chǎng)景的隨機(jī)性、環(huán)境的部分可觀察性以及下游任務(wù)的多樣性,學(xué)習(xí)時(shí)空表示極具挑戰(zhàn)性。預(yù)訓(xùn)練在從大量數(shù)據(jù)中獲取通用表示方面起著關(guān)鍵作用,使得能夠構(gòu)建出包含共同知識(shí)的基礎(chǔ)模型。然而,自動(dòng)駕駛中時(shí)空表示學(xué)習(xí)的預(yù)訓(xùn)練研究仍然相對(duì)有限。
我們的目標(biāo)是利用世界模型來(lái)處理以視覺(jué)為中心的自動(dòng)駕駛預(yù)訓(xùn)練中的4D表示。世界模型在表示代理對(duì)其環(huán)境的時(shí)空知識(shí)方面表現(xiàn)出色。在強(qiáng)化學(xué)習(xí)中,DreamerV1、DreamerV2和DreamerV3利用世界模型將代理的經(jīng)驗(yàn)封裝在預(yù)測(cè)模型中,從而促進(jìn)了廣泛行為的習(xí)得。MILE利用3D幾何作為歸納偏差,直接從專(zhuān)家演示的視頻中學(xué)習(xí)緊湊的潛在空間,以在CARLA模擬器中構(gòu)建世界模型。ContextWM和SWIM利用豐富的野外視頻對(duì)世界模型進(jìn)行預(yù)訓(xùn)練,以增強(qiáng)下游視覺(jué)任務(wù)的高效學(xué)習(xí)。最近,GAIA-1和DriveDreamer構(gòu)建了生成性的世界模型,利用視頻、文本和動(dòng)作輸入,使用擴(kuò)散模型創(chuàng)建逼真的駕駛場(chǎng)景。與上述關(guān)于世界模型的先前工作不同,本文的方法主要側(cè)重于利用世界模型學(xué)習(xí)自動(dòng)駕駛預(yù)訓(xùn)練中的4D表示。
駕駛本質(zhì)上涉及與不確定性的斗爭(zhēng)。在模糊的自動(dòng)駕駛場(chǎng)景中,存在兩種類(lèi)型的不確定性:偶然不確定性,源于世界的隨機(jī)性;以及認(rèn)知不確定性,源于不完美的知識(shí)或信息。如何利用過(guò)去的經(jīng)驗(yàn)來(lái)預(yù)測(cè)可能的未來(lái)狀態(tài),并估計(jì)自動(dòng)駕駛中缺失的世界狀態(tài)信息仍然是一個(gè)未解決的問(wèn)題。本文探索了通過(guò)世界模型進(jìn)行4D預(yù)訓(xùn)練以處理偶然不確定性和認(rèn)知不確定性。具體來(lái)說(shuō),設(shè)計(jì)了記憶狀態(tài)空間模型,從兩個(gè)方面減少自動(dòng)駕駛中的不確定性。首先,為了處理偶然不確定性,我們提出了動(dòng)態(tài)記憶庫(kù)模塊,用于學(xué)習(xí)時(shí)間感知的潛在動(dòng)態(tài)以預(yù)測(cè)未來(lái)狀態(tài)。其次,為了緩解認(rèn)知不確定性,我們提出了靜態(tài)場(chǎng)景傳播模塊,用于學(xué)習(xí)空間感知的潛在靜態(tài)特征,以提供全面的場(chǎng)景上下文。此外,引入了任務(wù)提示(Task Prompt),它利用語(yǔ)義線索作為提示,以自適應(yīng)地調(diào)整特征提取網(wǎng)絡(luò),以適應(yīng)不同的下游駕駛?cè)蝿?wù)。
為了驗(yàn)證提出的4D預(yù)訓(xùn)練方法的性能,在nuScenes訓(xùn)練集和最近發(fā)布的大規(guī)模3D占用率數(shù)據(jù)集OpenScene上進(jìn)行了預(yù)訓(xùn)練,隨后在nuScenes訓(xùn)練集上進(jìn)行了微調(diào)。實(shí)驗(yàn)結(jié)果表明,與2D ImageNet預(yù)訓(xùn)練、3D占用率預(yù)訓(xùn)練和知識(shí)蒸餾算法相比,4D預(yù)訓(xùn)練方法具有顯著優(yōu)勢(shì)。4D預(yù)訓(xùn)練算法在以視覺(jué)為中心的自動(dòng)駕駛?cè)蝿?wù)中表現(xiàn)出極大的改進(jìn),包括3D檢測(cè)、多目標(biāo)跟蹤、在線建圖、運(yùn)動(dòng)預(yù)測(cè)、占用率預(yù)測(cè)和規(guī)劃。
網(wǎng)絡(luò)結(jié)構(gòu)
DriveWorld的總體框架如下所示,由于自動(dòng)駕駛嚴(yán)重依賴(lài)于對(duì)4D場(chǎng)景的理解,方法首先涉及將多攝像頭圖像轉(zhuǎn)換為4D空間。在所提出的時(shí)空建模的記憶狀態(tài)空間模型中,有兩個(gè)基本組件:動(dòng)態(tài)記憶庫(kù),它學(xué)習(xí)時(shí)間感知的潛在動(dòng)態(tài)以預(yù)測(cè)未來(lái)狀態(tài);以及靜態(tài)場(chǎng)景傳播,它學(xué)習(xí)空間感知的潛在靜態(tài)特征以提供全面的場(chǎng)景上下文。這種配置有助于解碼器為當(dāng)前和未來(lái)時(shí)間步重建3D占用和動(dòng)作的任務(wù)。此外,基于預(yù)訓(xùn)練的文本編碼器設(shè)計(jì)了任務(wù)prompt,以自適應(yīng)地為各種任務(wù)解耦任務(wù)感知特征。
提出的記憶狀態(tài)空間模型(MSSM)的總體架構(gòu)。MSSM將傳輸?shù)男畔⒎譃閮深?lèi):時(shí)間感知信息和空間感知信息。動(dòng)態(tài)記憶庫(kù)模塊利用運(yùn)動(dòng)感知層歸一化(MLN)來(lái)編碼時(shí)間感知屬性,并與動(dòng)態(tài)更新的記憶庫(kù)進(jìn)行信息交互。同時(shí),靜態(tài)場(chǎng)景傳播模塊使用BEV特征來(lái)表示空間感知的潛在靜態(tài)信息,這些信息直接被傳送到解碼器。
雖然通過(guò)世界模型設(shè)計(jì)的預(yù)訓(xùn)練任務(wù)使得時(shí)空表示的學(xué)習(xí)成為可能,但不同的下游任務(wù)側(cè)重于不同的信息。例如,3D檢測(cè)任務(wù)強(qiáng)調(diào)當(dāng)前的空間感知信息,而未來(lái)預(yù)測(cè)任務(wù)則優(yōu)先考慮時(shí)間感知信息。過(guò)分關(guān)注未來(lái)的信息,如車(chē)輛未來(lái)的位置,可能會(huì)對(duì)3D檢測(cè)任務(wù)產(chǎn)生不利影響。為了緩解這個(gè)問(wèn)題,受到少樣本圖像識(shí)別中語(yǔ)義提示和多任務(wù)學(xué)習(xí)中視覺(jué)示例驅(qū)動(dòng)的提示的啟發(fā),引入了“任務(wù)提示”的概念,為不同的頭提供特定的線索,以指導(dǎo)它們提取任務(wù)感知特征。認(rèn)識(shí)到不同任務(wù)之間存在的語(yǔ)義聯(lián)系,利用大型語(yǔ)言模型來(lái)構(gòu)建這些任務(wù)提示。
損失函數(shù)
DriveWorld的預(yù)訓(xùn)練目標(biāo)涉及最小化后驗(yàn)和先驗(yàn)狀態(tài)分布之間的差異(即Kullback-Leibler(KL)散度),以及最小化與過(guò)去和未來(lái)3D占用,即CrossEntropy損失(CE)和L1損失。這里描述了模型在T個(gè)時(shí)間步上觀察輸入,然后預(yù)測(cè)未來(lái)L步的3D占用和動(dòng)作。DriveWorld的總損失函數(shù)是:
實(shí)驗(yàn)對(duì)比分析
數(shù)據(jù)集。在自動(dòng)駕駛數(shù)據(jù)集nuScenes 和最大規(guī)模的3D占用數(shù)據(jù)集OpenScene 上進(jìn)行預(yù)訓(xùn)練,并在nuScenes上進(jìn)行微調(diào)。評(píng)估設(shè)置與UniAD 相同。
預(yù)訓(xùn)練。與BEVFormer 和UniAD 一致,使用ResNet101-DCN 作為基礎(chǔ)骨干網(wǎng)絡(luò)。對(duì)于3D占用預(yù)測(cè),設(shè)置了16 × 200 × 200的體素大小。學(xué)習(xí)率設(shè)置為2×10?4。默認(rèn)情況下,預(yù)訓(xùn)練階段包含24個(gè)epoch。
微調(diào)。在微調(diào)階段,保留用于生成BEV特征的預(yù)訓(xùn)練編碼器,并對(duì)下游任務(wù)進(jìn)行微調(diào)。對(duì)于3D檢測(cè)任務(wù),我們使用了BEVFormer 框架,微調(diào)其參數(shù)而不凍結(jié)編碼器,并進(jìn)行了24個(gè)epoch的訓(xùn)練。對(duì)于其他自動(dòng)駕駛?cè)蝿?wù),我們使用了UniAD 框架,并將我們微調(diào)后的BEVFormer權(quán)重加載到UniAD中,對(duì)所有任務(wù)遵循標(biāo)準(zhǔn)的20個(gè)epoch的訓(xùn)練協(xié)議。對(duì)于UniAD,我們遵循其實(shí)驗(yàn)設(shè)置,這包括在第一階段訓(xùn)練6個(gè)epoch,在第二階段訓(xùn)練20個(gè)epoch。實(shí)驗(yàn)使用8個(gè)NVIDIA Tesla A100 GPU進(jìn)行。
Occ任務(wù)和BEV-OD任務(wù)上的提升一覽:
更多目標(biāo)跟蹤和規(guī)劃任務(wù)性能提升一覽: