超越所有SOTA!最新UniScene:視頻點(diǎn)云Occ三大生成任務(wù)全部暴力提升~
本文是對(duì) UniScene: Unified Occupancy-centric Driving Scene Generation的解讀,UniScene 在Video、LiDAR 和Occupancy生成方面超過(guò)了所有之前的SOTA方法。此外,UniScene生成的數(shù)據(jù)可顯著增強(qiáng)下游任務(wù),包括Occupancy預(yù)測(cè)、3D檢測(cè)和BEV分割。
- 論文鏈接:https://arxiv.org/abs/2412.05435
- 開(kāi)源地址:https://github.com/Arlo0o/UniScene-Unified-Occupancy-centric-Driving-Scene-Generation
Motivation
生成高保真、可控、帶注釋的訓(xùn)練數(shù)據(jù)對(duì)于自動(dòng)駕駛至關(guān)重要?,F(xiàn)有的方法通常直接從粗略的場(chǎng)景布局生成單一數(shù)據(jù)形式,這不僅無(wú)法輸出各種下游任務(wù)所需的豐富數(shù)據(jù)形式,而且還難以直接建模場(chǎng)景布局到生成數(shù)據(jù)的復(fù)雜分布。
為了解決上述問(wèn)題,我們提出了UniScene,這是第一個(gè)用于生成駕駛場(chǎng)景中三種關(guān)鍵數(shù)據(jù)形式(Occupancy、Video和LiDAR)的統(tǒng)一框架。 UniScene 采用漸進(jìn)式生成過(guò)程,將場(chǎng)景生成的復(fù)雜任務(wù)分解為兩個(gè)步驟:(a) 首先從自定義場(chǎng)景布局生成Semantic Occupancy作為富含語(yǔ)義和幾何信息的場(chǎng)景表征,然后 (b) 使用基于高斯的聯(lián)合渲染和先驗(yàn)引導(dǎo)的稀疏建模兩種新穎的條件化轉(zhuǎn)換策略,分別生成Video和LiDAR數(shù)據(jù)。這種以semantic occupancy為中心的方法減少了生成學(xué)習(xí)的負(fù)擔(dān),同時(shí)為后續(xù)生成階段提供詳細(xì)的中間表征。大量實(shí)驗(yàn)表明,UniScene 在Video、LiDAR 和Occupancy生成方面優(yōu)于以前的SOTA方法,并顯著增強(qiáng)下游駕駛?cè)蝿?wù)。
Method
我們提出的UniScene是一個(gè)以O(shè)ccupancy為中心的統(tǒng)一框架,用于生成Video、LiDAR 和Occupancy的數(shù)據(jù)。如下圖所示,UniScene采用分解學(xué)習(xí)的范式,并按層次構(gòu)建:它首先從BEV Layout生成三維semantic occupancy,然后利用這種表征促進(jìn)Video和LiDAR數(shù)據(jù)的生成。具體來(lái)說(shuō),與之前的無(wú)條件semantic occupancy生成方法不同,我們使用定制的BEV Layout序列作為可控輸入,生成具有時(shí)空一致性的語(yǔ)義Occupancy序列。與之前單步的生成方法不同的是,我們的方法利用生成的occupancy作為中間表征來(lái)指導(dǎo)后續(xù)的生成。
為了彌補(bǔ)表征差距,確保高保真地生成Video和LiDAR數(shù)據(jù),我們引入了兩種新穎的表征轉(zhuǎn)換策略:
(1). 幾何-語(yǔ)義聯(lián)合渲染策略,利用高斯?jié)姙R(Gaussian Splatting),促進(jìn)具有詳細(xì)多視角語(yǔ)義和深度圖的條件視頻生成;
(2). 用于激光雷達(dá)(LiDAR)數(shù)據(jù)生成的先驗(yàn)指導(dǎo)稀疏建模方案,該方案利用occupancy的先驗(yàn)知識(shí)高效生成激光雷達(dá)點(diǎn)云。
UniScene在創(chuàng)新性方面主要做出了以下貢獻(xiàn):
- 我們提出了UniScene,它是首個(gè)用于在駕駛場(chǎng)景中生成多種數(shù)據(jù)的統(tǒng)一框架。它能聯(lián)合生成三種格式的高質(zhì)量數(shù)據(jù):Video、LiDAR 和Occupancy。
- 我們提出了一種條件分解生成范式,可逐步對(duì)復(fù)雜的駕駛場(chǎng)景進(jìn)行建模,從而有效降低生成難度。首先生成細(xì)粒度的Semantic Occupancy作為中間表示,然后再生成Video和LiDAR數(shù)據(jù)。
- 為了彌合occupancy和其他數(shù)據(jù)格式之間的領(lǐng)域差距,我們引入了兩種新穎的表示轉(zhuǎn)換策略:一種基于Gaussian Splatting渲染,另一種利用稀疏建模方案。
- 在各種生成任務(wù)中進(jìn)行的大量實(shí)驗(yàn)表明,UniScene 在Video、LiDAR 和Occupancy生成方面的表現(xiàn)優(yōu)于最先進(jìn)的方法。此外,UniScene生成的數(shù)據(jù)還顯著增強(qiáng)了下游任務(wù),包括occupancy預(yù)測(cè)、3D檢測(cè)和BEV分割。
我們提出的方法整體框架如上圖所示,其聯(lián)合生成過(guò)程被組織成一個(gè)以occupancy為中心的層次結(jié)構(gòu): I. 可控occupancy生成。在輸入occupancy DiT之前,先將 BEV Layout與噪聲進(jìn)行串聯(lián),然后用Occupancy VAE 解碼器進(jìn)行解碼。II. 基于occupancy的Video和LiDAR生成。occupancy會(huì)被首先轉(zhuǎn)換成三維高斯,并渲染成語(yǔ)義圖和深度圖,然后用基于ControlNet的編碼器進(jìn)行處理,由Video VAE 解碼器獲得輸出。在生成LiDAR時(shí),Occupancy通過(guò)Sparse UNet進(jìn)行處理,并利用其幾何先驗(yàn)指導(dǎo)進(jìn)行采樣,然后輸入到LiDAR Head進(jìn)行生成。
可控語(yǔ)義Occupancy(semantic occupancy)生成
在UniScene中,生成可控且時(shí)序一致的semantic occupancy是重要步驟,這一過(guò)程為后續(xù)的Video和LiDAR數(shù)據(jù)生成奠定了基礎(chǔ),確保了這些數(shù)據(jù)的真實(shí)性和一致性。為此,我們引入了Occupancy Diffusion Transformer (DiT),它能夠接收BEV Layout序列作為輸入,使用戶可以輕松編輯并生成相應(yīng)的occupancy序列。
Temporal-aware Occupancy VAE
為了提高效率,我們的occupancy VAE旨在將Occupancy數(shù)據(jù)壓縮到潛在空間中。與依賴離散標(biāo)記化的方法不同,我們采用連續(xù)潛在空間來(lái)編碼Occupancy序列,這種方法能夠在高壓縮率下更好地保存空間細(xì)節(jié)。實(shí)驗(yàn)評(píng)估顯示,該方法在保持高質(zhì)量重建方面表現(xiàn)優(yōu)異。
在編碼階段,我們將3D Occupancy數(shù)據(jù)轉(zhuǎn)換為一個(gè)BEV表示,其中表示可學(xué)習(xí)類嵌入的維度。然后,通過(guò)2D卷積層和2D軸向注意力層獲得降采樣的連續(xù)潛在特征。 我們?cè)诮獯a階段考慮時(shí)序信息,以實(shí)現(xiàn)更靈活的配置,使用3D卷積層和3D軸向注意力層重構(gòu)出時(shí)序潛變量特征,進(jìn)而恢復(fù)Occupancy序列。
訓(xùn)練過(guò)程中,我們采用交叉熵?fù)p失、Lovasz-softmax損失以及KL散度損失??倱p失函數(shù)定義為:
其中和分別是兩個(gè)損失項(xiàng)的權(quán)重。
Latent Occupancy DiT
Latent Occupancy DiT專注于從噪聲Volume中生成Latent Occupancy序列。這一過(guò)程首先將BEV Layout與噪聲Volume連接起來(lái),并進(jìn)一步patch化處理后輸入到Occupancy DiT中。這種顯式的對(duì)齊策略幫助模型更有效地學(xué)習(xí)空間關(guān)系,從而實(shí)現(xiàn)了對(duì)生成序列的精確控制。
通過(guò)一系列堆疊的空間和時(shí)間變換器塊,Occupancy DiT匯聚了時(shí)空信息,使得長(zhǎng)時(shí)間一致性的Occupancy序列生成成為可能。其損失函數(shù)具體如下:
這里表示模型輸出,是第幀的輸入噪聲潛在,而則是目標(biāo)噪聲分布。 通過(guò)引入時(shí)序感知的Occupancy VAE和Occupancy Diffusion Transformer,UniScene不僅提升了Occupancy數(shù)據(jù)的高效壓縮和細(xì)節(jié)保留能力,還實(shí)現(xiàn)了長(zhǎng)時(shí)間一致性的Occupancy序列生成。
以O(shè)ccupancy為條件引導(dǎo)的多視角Video生成
UniScene的視頻生成模塊基于預(yù)訓(xùn)練的Stable Video Diffusion (SVD) 模型,該模型由3D Video VAE和Video Diffusion UNet組成。Video Diffusion UNet利用基于Occupancy的渲染圖和Text Prompt作為條件,生成多視角駕駛視頻。
多視角語(yǔ)義與深度圖渲染
為了實(shí)現(xiàn)高質(zhì)量且一致性的視頻生成,我們引入了基于高斯的聯(lián)合渲染方法,將輸入的Semantic Occupancy網(wǎng)格轉(zhuǎn)換成多視角語(yǔ)義和深度圖。這種方法不僅彌合了Occupancy網(wǎng)格與多視角視頻之間的表征差距,還提供了細(xì)致的語(yǔ)義和幾何指導(dǎo)。具體來(lái)說(shuō),給定形狀為的Semantic Occupancy數(shù)據(jù),首先將其轉(zhuǎn)化為一系列3D高斯面片,每個(gè)面片包含位置、語(yǔ)義標(biāo)簽、不透明度狀態(tài)以及協(xié)方差等屬性。隨后,通過(guò)tile-based光柵化過(guò)程,渲染出深度圖和語(yǔ)義圖:
其中表示深度值,則由投影后的2D高斯分布和3D不透明度共同決定。渲染結(jié)果如下圖所示,其中BEV Layout中的道路線被投射到Semantic Occupancy上,集成相應(yīng)的語(yǔ)義信息。
這些渲染圖通過(guò)帶有殘差連接和零卷積的編碼分支輸入到模型中,類似于ControlNet的設(shè)計(jì),旨在利用預(yù)訓(xùn)練的視頻擴(kuò)散UNet的能力,同時(shí)保持其固有的生成能力。
幾何感知噪聲先驗(yàn)為了進(jìn)一步提升視頻生成的質(zhì)量,我們?cè)诓蓸舆^(guò)程中引入了幾何感知噪聲先驗(yàn)策略。該策略不僅注入密集的外觀先驗(yàn),而且通過(guò)渲染的深度圖顯式地引入了幾何信息,以此建模區(qū)域間的相關(guān)性。
具體的訓(xùn)練噪聲公式如下:
其中是相機(jī)內(nèi)部參數(shù),是變換矩陣,是第幀視頻的渲染深度圖。通過(guò)單應(yīng)變換,從參考圖像中翹曲外觀先驗(yàn)到其他圖像平面,實(shí)現(xiàn)了顯式的幾何感知重投影。
Video訓(xùn)練損失函數(shù)
我們定義的視頻訓(xùn)練損失函數(shù)旨在優(yōu)化模型輸出與真實(shí)值之間的差異,損失函數(shù)公式如下:
其中代表視頻生成模型的輸出,和分別是第幀視頻的渲染深度圖和語(yǔ)義圖,是輸入的文本提示,分別對(duì)應(yīng)的是第幀的真實(shí)值和帶噪聲的潛在特征,是根據(jù)SVD選取的條件參考幀,是一個(gè)用于選擇條件幀的一熱編碼掩碼。我們隨機(jī)選擇來(lái)減少模型對(duì)特定條件幀的依賴。
基于Occupancy的稀疏建模LiDAR生成
在LiDAR(激光雷達(dá))生成方面,UniScene采用了基于Occupancy的稀疏建模。該方法首先使用Sparse UNet對(duì)輸入的語(yǔ)義Occupancy進(jìn)行編碼,將其轉(zhuǎn)換為稀疏體素特征。然后,通過(guò)Occupancy先驗(yàn)指導(dǎo)的稀疏采樣來(lái)生成LiDAR點(diǎn)云數(shù)據(jù)。這種方法不僅提高了計(jì)算效率,還準(zhǔn)確地模擬了真實(shí)的LiDAR成像過(guò)程。
稀疏體素特征提取
給定具有固有稀疏性和詳細(xì)幾何結(jié)構(gòu)的Semantic Occupancy網(wǎng)格,我們提出了一種先驗(yàn)引導(dǎo)的稀疏建模方法以提高計(jì)算效率。通過(guò)避免對(duì)置空體素的不必要計(jì)算,顯著減少了計(jì)算資源的消耗。輸入的Semantic Occupancy網(wǎng)格首先經(jīng)過(guò)Sparse UNet處理,以聚合上下文特征。
Occupancy引導(dǎo)的稀疏采樣
接著,我們?cè)贚iDAR射線上執(zhí)行均勻采樣,生成一系列點(diǎn)。為了實(shí)現(xiàn)Occupancy引導(dǎo)的稀疏采樣,我們將Occupancy體素內(nèi)的點(diǎn)的概率設(shè)為1,其他所有點(diǎn)的概率設(shè)為0,從而定義了一個(gè)概率分布函數(shù)(PDF)。隨后,根據(jù)這個(gè)PDF重新采樣個(gè)點(diǎn):
其中是射線的起點(diǎn),是歸一化的射線方向。這種基于Occupancy的先驗(yàn)引導(dǎo)采樣方式確保了LiDAR點(diǎn)云的生成更加符合實(shí)際情況。
射線體積渲染
受之前工作的啟發(fā),我們采用了基于射線的體積渲染技術(shù)。每個(gè)重采樣的點(diǎn)的特征通過(guò)多層感知器(MLP)處理,以預(yù)測(cè)符號(hào)距離函數(shù)(SDF)并計(jì)算相應(yīng)的權(quán)重。這些預(yù)測(cè)值和權(quán)重用于通過(guò)體積渲染估計(jì)射線的深度:
其中,是渲染得到的深度值。
LiDAR Head
為了更準(zhǔn)確地模擬實(shí)際的LiDAR成像過(guò)程,我們引入了反射強(qiáng)度Head和射線Drop Head。反射強(qiáng)度Head負(fù)責(zé)預(yù)測(cè)沿每條射線LiDAR激光束被物體反射的強(qiáng)度,這涉及到根據(jù)權(quán)重對(duì)射線上的點(diǎn)特征進(jìn)行加權(quán)求和,再通過(guò)MLP進(jìn)行預(yù)估。射線Drop Head則用于估計(jì)由于未能檢測(cè)到反射光而導(dǎo)致射線未被LiDAR捕捉的概率,其結(jié)構(gòu)與反射強(qiáng)度Head相同。如下圖所示,射線Drop Head有效地消除了預(yù)測(cè)中的噪聲點(diǎn)。
LiDAR訓(xùn)練損失函數(shù)
LiDAR生成的訓(xùn)練損失由深度損失、強(qiáng)度損失和射線丟棄損失組成:
其中, 是平衡系數(shù),用于調(diào)節(jié)不同損失項(xiàng)的重要性。
Experiment
實(shí)驗(yàn)表明,我們的方法在Video、LiDAR 和Occupancy生成方面優(yōu)于之前的SOTA方法,并顯著增強(qiáng)了下游任務(wù),包括Occupancy預(yù)測(cè)、3D檢測(cè)和BEV分割。
- 定性實(shí)驗(yàn)結(jié)果:
,時(shí)長(zhǎng)00:58
- 定量實(shí)驗(yàn)結(jié)果:
在 NuScenes-Occupancy 驗(yàn)證集上對(duì)Occupancy重建進(jìn)行定量評(píng)估。壓縮比是按照 OccWorld 中的方法計(jì)算。
在 NuScenes-Occupancy 驗(yàn)證集上對(duì)Occupancy生成(“Ours-Gen.”)和預(yù)測(cè)(“Ours-Fore.”)進(jìn)行的定量評(píng)估。Ours-Gen. “和 ”O(jiān)urs-Fore. "分別表示我們的生成模型和預(yù)測(cè)模型。CFG "是指無(wú)分類引導(dǎo)。
在 NuScenes 驗(yàn)證集上對(duì)視頻生成進(jìn)行定量評(píng)估。我們利用空間-時(shí)間注意力機(jī)制實(shí)現(xiàn) Vista* 的多視角變體。
在 NuScenes 驗(yàn)證集上對(duì)激光雷達(dá)生成進(jìn)行量化評(píng)估。我們將Occupancy生成時(shí)間包括在內(nèi),以便進(jìn)行公平比較。
在 NuScenes-Occupancy 驗(yàn)證集上對(duì)語(yǔ)義Occupancy預(yù)測(cè)模型(基線為 CONet)的支持情況進(jìn)行定量評(píng)估。C“、”L “和 ”L^D "表示攝像頭、激光雷達(dá)和基于激光雷達(dá)的深度投影。