萬物皆可高斯!清華最新GaussianAD:以高斯為中心的端到端自動駕駛,完爆當前SOTA!
寫在前面 & 筆者的個人理解
基于視覺的自動駕駛因其令人滿意的性能和低成本而顯示出巨大的潛力。大多數現有方法采用密集表示(如鳥瞰圖)或稀疏表示(如實例框)進行決策,這會在全面性和效率之間進行權衡。本文探索了一個以高斯為中心的端到端自動駕駛(GaussianAD)框架,并利用3D語義高斯來廣泛而稀疏地描述場景。我們用均勻的3D高斯分布初始化場景,并使用環視圖像逐步細化它們,以獲得3D高斯場景表示。然后,我們使用稀疏卷積來有效地執行3D感知(例如,3D檢測、語義圖構建)。我們用動態語義預測高斯模型的3D流,并相應地規劃自我軌跡,以預測未來的場景。我們的GaussianAD可以通過可選的感知標簽以端到端的方式進行訓練。在廣泛使用的nuScenes數據集上進行的廣泛實驗驗證了我們的端到端GaussianAD在各種任務上的有效性,包括運動規劃、3D占用預測和4D占用預測。
- 論文鏈接:https://arxiv.org/abs/2412.10371v1
本文提出了一個以高斯為中心的自動駕駛(GaussianAD)框架作為肯定答案,如圖1所示。我們使用來自2D圖像的稀疏3D語義高斯集作為場景表示。盡管存在稀疏性,但它受益于高斯混合的通用近似和顯式3D結構帶來的細粒度建模,這有助于各種下游任務。我們進一步從3D高斯表示中探索感知、預測和規劃。對于感知,我們將3D高斯視為語義點云,并采用稀疏卷積和稀疏預測頭來有效地處理3D場景。我們提出了3D高斯流來全面明確地仿真場景演變,我們預測每個高斯流的未來位移。然后,我們整合所有可用信息,相應地規劃自我軌跡。由于3D高斯表示的明確性,我們可以使用仿射變換直接計算自車觀察到的預測未來場景。我們將預測場景與地面實況場景觀測進行比較,作為預測和規劃的明確監督。據我們所知,GaussianAD是第一個探索以視覺為中心的端到端自動駕駛顯式稀疏點架構的公司。我們在nuScenes數據集上進行了廣泛的實驗,以評估所提出的高斯中心框架的有效性。實驗結果表明,我們的GaussianAD在高效的端到端運動規劃方面取得了最先進的結果。
相關工作回顧
自動駕駛感知。從傳感器輸入中準確感知周圍環境是自動駕駛的基本步驟。作為兩個主要的傳統感知任務,3D目標檢測旨在獲得周圍場景中每個代理的3D位置、姿態和類別,這對軌跡預測和規劃非常重要。語義圖重建旨在恢復鳥瞰圖(BEV)中的靜態圖元素,為進一步推理提供額外信息。這兩個任務都可以在BEV空間中有效地執行,但它們無法描述周圍場景和任意形狀對象的細粒度3D結構。這促使最近的方法探索其他3D表示,如體素和三視角視圖(TPV),以執行3D占用預測任務。3D占用提供了對周圍場景的更全面的描述,包括動態和靜態元素,可以從稀疏的激光雷達或視頻序列中有效地學習。Gaussianformer提出使用3D語義高斯來稀疏地表示3D占用場景。然而,目前尚不清楚3D高斯表示是否可用于一般的自動駕駛。
自動駕駛預測。預測場景演變對自動駕駛汽車的安全性也至關重要。大多數現有方法側重于根據交通代理的過去位置和語義地圖信息預測其移動。早期的方法將智能體和語義圖信息投影到邊界電動圖像上,并采用二維圖像主干對其進行處理,以推斷未來的智能體運動。隨后的方法采用了更有效的動態代理的標記化表示,并使用圖神經網絡或變換器來聚合信息。最近的工作開始以端到端的方式直接從傳感器輸入探索運動預測。他們通常首先執行BEV感知以提取相關信息(例如,3D代理框、語義圖、軌跡),然后利用它們來推斷未來的軌跡。與僅對動態對象運動進行建模的現有方法不同,我們提出了高斯流來預測包括動態和靜態元素在內的環視場景演變。
規劃自動駕駛。規劃是自動駕駛系統的重要組成部分,可分為基于規則的和基于學習的方法。雖然傳統的基于規則的方法可以獲得令人滿意的結果,并且具有很高的可解釋性,但基于學習的方法近年來受到了越來越多的關注,因為它們具有擴展到大規模訓練數據的巨大潛力。作為簡單而有效的基于學習的解決方案,基于模仿的規劃者一直是端到端方法的首選。作為早期的嘗試,LBC和CILRS采用卷積神經網絡(CNN)從專家駕駛數據中學習。以下方法結合了更多的數據或提取了更多的中間特征,為規劃者提供了更多的信息,取得了顯著的效果。盡管如此,大多數現有的端到端自動駕駛方法采用高級場景描述(例如3D框、地圖)進行下游預測和規劃,并可能省略某些關鍵信息。本文提出了一種以高斯為中心的自動駕駛流水線,并使用3D高斯作為稀疏但全面的信息載體。
GaussianAD方法詳解
3D Scene Representation Matters for Driving
自動駕駛旨在根據一系列場景觀察{o}產生安全一致的控制信號(例如加速器、制動器、轉向)。雖然場景觀測可以從多個傳感器(如攝像頭和激光雷達)獲得,但由于其高信息密度和低傳感器成本,我們主要針對周圍攝像頭的基于視覺的自動駕駛。
假設控制器性能良好,大多數自動駕駛模型主要側重于學習從當前和歷史觀測值{o}到未來自車軌跡{w}的映射f:
傳統的自動駕駛方法將f分解為感知、預測和規劃模塊,并在連接之前分別對其進行訓練:
這些模塊的單獨訓練進一步加劇了這個問題,因為不同的任務側重于提取不同的信息。提供給規劃模塊的不全面信息可能會影響自動駕駛模型的決策過程。這推動了從模塊化框架到端到端框架工作的轉變,該框架可區分地連接并共同學習感知、預測和規劃模塊:
場景表示r在整個模型中傳遞信息,因此r的選擇對端到端系統的性能至關重要。由于自動駕駛需要在3D空間中做出決策,場景表示應該是3D結構的,并包含從輸入圖像推斷出的3D結構信息。另一方面,3D空間通常是稀疏的,導致在設計r時在全面性和效率之間進行權衡。為了全面性,傳統的鳥瞰圖(BEV)表示在地圖視圖中使用密集的網格特征,并壓縮高度維度以減少冗余。后續方法進一步探索更密集的表示,如體素或三視角視圖(TPV),以捕獲更詳細和細粒度的3D信息。為了提高效率,最近的方法采用了稀疏查詢,并專注于對實例框和映射元素進行建模,這是決策中最重要的因素。盡管如此,被丟棄的信息仍然很重要(例如,不規則的障礙物、交通燈、人體姿勢),并且與端到端自動駕駛的理念(即全面的信息流)相矛盾。本文探討了3D高斯分布作為一種全面而稀疏的場景表示,并提出了一個用于端到端感知、預測和規劃的完全稀疏框架,如圖2所示。
Gaussian-Centric Autonomous Driving
3D高斯表示**。現有的方法通常構建一個密集的3D特征來表示周圍環境,并用相等的存儲和計算資源處理每個3D體素,這通常會導致難以處理的開銷,因為資源分配不合理。同時,這種密集的3D體素表示無法區分不同尺度的對象。與這些方法不同,我們遵循GaussianFormer,它表示一個具有許多稀疏3D語義Gaussian的自動駕駛場景。每個高斯分布都實例化了一個語義高斯分布,其特征是均值、協方差和語義邏輯。這種稀疏顯式特征表示對下游任務更有利。
圖像中的Gaussians。我們首先將3D高斯分布及其高維查詢表示為可學習向量。然后使用高斯編碼器迭代地增強這些表示。每個高斯編碼器塊由三個模塊組成:一個促進高斯人之間交互的自編碼模塊,一個用于聚合視覺信息的圖像交叉注意力模塊,以及一個用于微調高斯屬性的細化模塊。與GaussianFormer不同,我們利用由4D稀疏卷積組成的時間編碼器將前一幀的高斯特征與當前幀中的相應特征進行整合。
高斯稀疏3D檢測。由于3D高斯表示是一種稀疏場景表示,我們遵循VoxelNeXt,它直接基于稀疏體素特征預測3D對象。特別地,我們進行了一個3D稀疏CNN網絡V來編碼3D高斯表示r。根據GenAD,我們使用V(r)上的一組代理令牌D來解碼3D對象a:
Gaussians的稀疏地圖構建。與高斯的3D檢測表示類似,我們采用一組映射標記M來表示語義建圖。我們關注三類地圖元素(即車道分隔線、道路邊界和人行橫道)。
運動預測。運動預測模塊通過預測其他交通參與者的未來軌跡來輔助自車軌跡規劃。我們通過使代理令牌D通過交叉關注層CA與地圖令牌M交互來獲得運動令牌Mo:
高斯流用于場景預測。此外,它表明中間表示r的場景預測在端到端自動駕駛中起著重要作用。我們根據當前的高斯表示$r^T$和預測的自車軌跡$w^{T+N}$,將未來的高斯表示預測為高斯流$r^{T+N}$:
對中間高斯表示的未來占用的監督保證了場景預測能力,最終提高了自車軌跡預測的性能。
End-to-End GaussianAD Framework
本節介紹GaussianAD的整體端到端框架。我們首先用一組均勻分布的3D高斯G0初始化場景,然后通過合并周圍視圖圖像o的信息來逐步細化它們,以獲得高斯場景表示r。然后,如果相應的標注可用,我們可以從r中提取各種場景描述d作為輔助任務。具體來說,我們使用高斯到體素飛濺來獲得密集描述的密集體素特征(例如,3D占用預測),并使用完全稀疏卷積來獲得稀疏描述的稀疏查詢(例如,三維邊界框、地圖元素)。輔助感知監督的使用引入了場景表示r的額外約束和先驗知識,以指導其學習過程。盡管如此,我們還是直接在3D高斯模型上預測未來的演變,以減少信息損失,并相應地規劃自車軌跡{w}。GaussianAD通過稀疏但全面的3D高斯表示在整個模型中傳遞信息,為決策過程提供更多知識。我們的GaussianAD的總體框架如下:
對于訓練,我們自適應地對從r中提取的場景描述d施加不同的感知損失:
由于3D高斯分布的顯式表示,我們可以使用全局仿射變換來模擬在某個給定的自車位置w處觀察到的場景表示r。在用提出的高斯流獲得預測的未來場景表示后,我們使用計劃的航路點來模擬未來的自車場景表示:
預測的未來自車場景表示也取決于計劃的軌跡${w}^F$如(10)所示。因此,除了傳統的軌跡損失外,我們還采用預測損失(11)進行規劃:
所提出的GaussianAD是一個靈活的框架,可以適應具有不同可用監督的各種情況,如圖3所示,總體目標如下:
對于推理,GaussianAD使用3D高斯表示實現端到端驅動,以在整個流水線中有效地傳遞信息。它為決策過程提供了全面的知識,并通過稀疏計算保持了高效率。
實驗
結論
本文基于視覺的端到端自動駕駛提出了一個以高斯為中心的框架。為了保留更全面的信息,我們采用3D高斯作為場景表示,并采用高斯流來有效地預測未來的演變。我們的框架提供了靈活性,可以容納具有各種注釋的不同訓練數據。我們對廣泛使用的nuScenes進行了廣泛的實驗,并在各種任務上展示了具有競爭力的性能,包括端到端規劃和4D占用預測。探索基于用更多樣化數據訓練的3D高斯場景表示的大規模端到端模型是很有趣的。