Occ預測最新SOTA!清華團隊提出基于高斯世界模型的GaussianWorld算法
寫在前面&筆者的個人理解
以視覺信息作為輸入的3D占用預測任務最近因其在自動駕駛中的關鍵應用而受到來自工業界和學術界的廣泛關注。3D占用預測任務旨在根據視覺輸入估計 3D 環境中每個體素的占用狀態和語義標簽。該任務提供了更細粒度的場景語義和結構描述,這對于開發安全且強大的自動駕駛系統非常重要。
利用時間輸入對于 3D 占用預測非常重要,因為它為理解場景演變提供了足夠的歷史上下文信息。大多數現有方法遵循傳統的感知、轉換和融合流程,給定順序輸入信息,感知模塊獨立獲得每個幀的場景表示,例如BEV特征以及體素特征。然后,轉換模塊根據自車軌跡對齊多幀的時序特征信息,融合模塊融合對齊的特征表示以推斷當前的 3D 占用情況。
然而,這些方法未能考慮駕駛場景演變的固有連續性和簡單性。相鄰幀中的駕駛場景表示應該彼此緊密相關,因為場景演變通常僅源于自車和其他動態物體的運動。直接融合多幀表征會忽略 3D 場景演化提供的這種強先驗信息,即靜態物體連貫性和動態物體運動,這使得模型很難理解駕駛場景的發展。此外,這種設計增加了時間建模的復雜性和計算工作量,從而降低了其效率和有效性。
考慮到上述提到的相關問題,在本文中,我們探索基于世界模型的范式以利用場景演變進行感知,該算法稱為GaussianWorld。GaussianWorld采用顯式 3D 高斯作為場景表示,而不是傳統的隱式 BEV/Voxel 表示,這可以實現物體運動的顯式和連續建模。給定歷史 3D 高斯和當前視覺輸入,GaussianWorld算法模型旨在預測場景如何演變并預測當前的占用情況。
為了證明提出的GaussianWorld算法模型的有效性,我們在流行的nuScenes數據集上進行了大量實驗。如下圖所示,我們的 GaussianWorld 可以有效地預測場景演變,并在不引入額外計算的情況下將單幀占用率預測提高 2% 以上(mIoU)。
論文鏈接:https://arxiv.org/pdf/2412.10373
網絡模型結構&技術細節
World Models for Perception
精確感知 3D 場景對于開發可靠的自動駕駛系統至關重要。它旨在預測 3D 場景的幾何形狀和語義,以支持后續的預測和規劃任務。感知模型利用前幀和當前幀的傳感器輸入來獲得感知結果。
感知任務中的時間建模的傳統流程包括三個階段,分別是感知、轉換和融合。感知模塊首先獨立提取每一幀的場景表示。隨著自車的前進,跨幀的自車表示會錯位。轉換模塊通過根據自我軌跡將過去的特征與當前幀對齊來解決此問題。然后,融合模塊整合對齊的多幀表示以供感知進行使用。傳統的流程可以表述為如下的公式形式。
盡管該框架的性能取得了較為不錯的成績,但它未能考慮駕駛場景固有的連續性和簡單性。駕駛場景的演變通常僅源于自車和其他動態物體的運動。相鄰幀中的駕駛場景表征本質上是相關的,包含了世界的演化動力學和物理定律。然而,直接融合多幀表征會忽略這種強先驗信息,從而限制其性能。
受此啟發,我們探索了一種基于世界模型的范式,以利用場景演化進行感知。世界模型通過學習簡單但有效的時間建模先驗來增強感知。我們使用感知世界模型根據先前的表示和當前的傳感器輸入預測當前的表示,具體的表現形式如下
我們進一步將 3D 感知任務重新表述為以當前傳感器輸入為條件的 4D 預測問題,其表述形式如下
通過獲得預測的場景表征和下一個觀察值后,我們可以將它們輸入到世界模型中,以流式方式預測下一個表征。世界模型根據場景演變和當前觀察值學習場景表征的聯合分布,最終用于實現感知。
Explicit Scene Evolution Modeling
駕駛場景的演化一般簡單且連續,主要由動態物體的運動引起。當在一定范圍內采用以自車為中心的場景表示時,場景演化通常可以分解為三個關鍵因素:靜態場景的自我運動對齊,動態物體的局部運動,新觀察區域的補全。通過對這些因素進行建模,世界模型可以學會有效地演化場景,如下圖所示。
考慮到上述場景演化的分解,我們采用 3D 高斯作為場景表示,以明確和連續地對場景演化進行建模。我們用一組稀疏的 3D 語義高斯來描述 3D 場景,其中每個高斯代表一個具有明確位置、比例、旋轉和語義概率的靈活區域。為了學習場景演化,我們引入了一個額外的時間特征屬性來捕獲 3D 高斯的歷史信息。3D 高斯表示可以表述為如下的公式形式。
我們進一步提出了一個 3D 高斯世界模型,GaussianWorld,以利用場景演化進行感知。提出的 GaussianWorld 對之前的 3D 高斯和當前的傳感器輸入進行操作,以預測當前的 3D 高斯。
接下來,我們將介紹 GaussianWorld 如何在三維高斯空間中對上述場景演化的分解因素進行建模。
(1)Ego Motion Alignment of Static Scenes.
GaussianWorld 的目標是基于之前的高斯結果預測當前的3D高斯,每幀的 3D 高斯表示代表以相應幀的自車位置為中心的一定范圍內的場景,向前移動會導致物體的全局位移。GaussianWorld 通過使用對齊模塊來對齊從上一幀到當前幀的 3D 高斯位置來解決此問題。為了實現這一點,它基于自車軌跡對整個場景的 3D 高斯進行全局仿射變換。形式上來看,給定最后一幀 3D 高斯和仿射變換矩陣,對齊的 3D 高斯可以表示為如下的公式形式。
(2)Local Movements of Dynamic Objects
我們還考慮了場景演變過程中動態物體的局部運動。GaussianWorld 通過更新動態高斯函數的位置來實現這一點。對齊的 3D 高斯函數根據其語義概率分為兩個互斥集,分別是動態高斯集合和靜態高斯集合。然后,GaussianWorld 使用運動層來學習對齊的 3D 高斯的聯合分布和當前觀察結果,以預測動態高斯的運動。
(3)Completion of Newly-Observed Areas
當自車移動到新位置時,某些現有區域會超出邊界,而一些新區域則變得可觀察。我們丟棄超出邊界的高斯函數,并使用隨機初始化的高斯函數補全新觀察到的區域。為了保持一致數量的 3D 高斯函數,我們在新觀察到的區域中均勻采樣等量的 3D 高斯函數。隨后,GaussianWorld 使用感知層根據當前觀察預測新觀察區域中已補全的 3D 高斯分布的所有屬性。
3D Gaussian World Model
接下來,我們介紹一下本文提出的GaussianWord的整體框架。從前一幀的 3D 高斯開始,我們首先應用對齊模塊來獲取當前幀的對齊 3D 高斯。在新觀察到的區域中,我們采樣額外的 3D 高斯并將其當前幀的3D高斯進行混合,從而一起描述整個場景。
我們基于當前傳感器的輸入數據,使用運動層和感知層來更新對齊的3D高斯以及最新觀察到區域的3D高斯。值得注意的是,這兩層共享相同的模型架構和參數,即編碼器模塊和細化模塊,從而允許它們集成到統一的演化層中并并行計算。這種設計確保GaussianWorld 保持模型簡單性和計算效率。我們堆疊多個演化層以迭代地細化 3D 高斯函數,使模型具有足夠的能力來學習場景演化
此外,為了解決 3D 高斯表示與現實世界之間的潛在不一致問題,我們加入了另外的細化層來微調 3D 高斯的所有屬性
演化層和感知層之間的唯一區別在于歷史高斯的哪些屬性被調整。這種調整可以合并到統一的細化塊中,如下圖所示。因此,兩個層都可以集成到統一的高斯世界層中。
我們采用交叉熵損失和 lovaszsoftmax損失進行訓練,首先在單幀任務上對我們的模型進行預訓練。然后我們使用流式訓練策略對模型進行微調,其中每個場景的圖像按順序輸入到模型中。在每次訓練迭代期間,將當前幀圖像與上一幀中預測的 3D 高斯相結合輸入到模型中進行 3D 占用預測。當前幀中預測的 3D 高斯將傳遞到下一次迭代進行連續流式訓練。在流式訓練的早期階段,模型還不能熟練地預測場景的演變,導致流式預測誤差很大。為了增強訓練穩定性,我們從短序列開始訓練,并在整個訓練過程中逐漸增加序列長度。我們使用概率建模,并在每次迭代中以的概率隨機丟棄前一幀的 3D 高斯表示。隨著訓練的進展,我們逐漸降低的值,使模型能夠適應預測更長的序列。
實驗結果&評價指標
我們對 nuScnene 驗證集上以視覺為中心的 3D 語義占用預測方法與其他最先進方法進行了全面比較,并使用 SurroundOcc 的占用標簽,相關的實驗結果如下表所示。
對于 GaussianWorld 的第一個訓練階段,我們在單幀設置中復現了 GaussianFormer,記為 GaussianFormer-B。僅使用 25600 個高斯函數,它就實現了與當前最先進的方法相當的性能。由于此基準上缺乏時序建模方法,我們引入了 GaussianFormer 的時序融合變體以進行公平比較,記為 GaussianFormer-T。經過第二階段的訓練,我們的 GaussianWorld 的表現遠勝于所有單幀模型和基于時序融合的 GaussianFormer。與單幀模型 GaussianFormer-B 相比,它的語義 mIoU 提高了 2.4%,幾何 IoU 提高了 2.7%。此外,GaussianWorld 的表現也優于時間融合模型 GaussianFormer-T,mIoU 增加了 1.7%,IoU 增加了 2.0%。這些結果凸顯了我們基于世界模型的感知框架優于傳統的時序融合方法。相關的可視化結果如下圖所示。
我們對基于 GaussianFormer 的不同時序建模方法的性能和效率進行了比較。我們探索了兩種實現 GaussianFormer-T 的方法,分別在 3D 高斯空間和透視視圖空間中進行時序融合。對于前者,我們獨立提取每幀的 3D 高斯表示,并利用 4D 稀疏卷積來促進跨幀 3D 高斯之間的時序交互。對于后者,我們獨立提取每幀的多尺度圖像特征,并采用可變形注意機制來實現當前幀的 3D 高斯和來自不同幀的圖像特征之間的交互。相關的實驗結果指標如下所示。
我們的 GaussianWorld 遠遠超越了所有其他時序建模方法,并且顯著降低了延遲和內存消耗。值得注意的是,與單幀模型相比,我們的 GaussianWorld 在推理延遲和內存消耗幾乎相同的情況下顯著提高了性能。這歸功于我們統一而簡潔的模型架構,它可以處理單幀輸入和流式輸入,而無需引入額外的計算。
此外,我們的 GaussianWorld 明確地模擬了基于世界模型的感知場景演化的三個分解因素。為了評估這些因素的影響,我們進行了消融研究以確認其有效性,相關額實驗結果如下表所示。
下表也展示了使用不同流長度時,我們的 GaussianWorld 的 mIoU 和 IoU 性能。我們觀察到,流式傳輸更多幀通常會帶來更好的性能,但在大約 20 幀后會略有下降。改進源于我們對場景演變的建模,有效地考慮了歷史幀。
我們也探討不同流媒體訓練策略的影響,相關的實驗結果匯總在下面的表格中。
結論
在本文中,我們提出了一個基于世界模型的框架,利用場景演化進行 3D 語義占用預測。我們將 3D 占用預測重新表述為以當前傳感器輸入為條件的 4D 占用預測問題。我們將場景演化分解為三個因素,并利用 3D 高斯進行顯示建模。然后,我們使用GaussianWorld 來顯式地利用 3D 高斯空間中的場景演化,并以流式傳輸的方式促進 3D 語義占用預測。大量的實驗結果表明,與現有方法相比,我們的模型在不引入額外計算開銷的前提下,展示了SOTA的性能。