世界模型進入4D時代!單視角視頻構建的自由視角4D世界來了
人工智能技術正以前所未有的速度改變著我們對世界的認知與構建方式。近期,李飛飛教授團隊通過單張圖片生成三維物理世界的研究,再次向世界展示了空間智能技術的巨大潛力。
單圖生成三維世界,不僅讓人們能以交互方式探索靜態圖像,更標志著 AI 在重建與理解物理場景方面邁入全新階段。
近日,極佳科技、北京大學、理想汽車及中國科學院自動化研究所聯合推出 ReconDreamer,實現了自動駕駛場景自由視角重建+生成。正如同李飛飛及其團隊在「空間智能」模型中展現的革新一樣,ReconDreamer 僅需要單視角輸入視頻,即可通過同時重建+生成構建逼真的 4D 世界,第一次實現了平移 6 米范圍的高精度渲染,推動這一領域從靜態跨越至動態,從單點擴展到全域通用。
- 論文鏈接:https://www.arxiv.org/abs/2411.19548
- 項目主頁:https://recondreamer.github.io/
- 代碼地址:https://github.com/GigaAI-research/ReconDreamer
- 論文標題:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
引言&方法概覽
閉環仿真是實現大規模端到端自動駕駛落地的關鍵步驟,而場景重建是閉環仿真中的重要一步。現有的駕駛場景重建技術,如 NeRF 和 3DGS,受限于訓練數據的分布,僅能有效重建與之相似的駕駛環境。這些方法在處理復雜駕駛操作(如變道、加速或減速)時,其重建效果往往不盡人意,尤其是在面對大幅變化的相機視角時表現欠佳。
由極佳科技領銜的 DriveDreamer4D 工作,通過利用預訓練的世界模型擴展相機視角,一定程度上緩解了這些問題,但在大范圍視野變化的渲染下仍有局限性。相比之下,ReconDreamer 則通過訓練世界模型來減少傳統三維重建算法中的偽影,并引入了一種漸進式的修復策略,確保在大幅度相機運動下的高質量渲染。
如下圖所示,ReconDreamer 相較于 DriveDreamer4D 和 Street Gaussians,在大范圍相機運動下展現了顯著更優的渲染質量,不僅提升了駕駛前景(如車輛)和背景(如車道線)的時空一致性,還大大增強了動態駕駛場景中閉環仿真的精度和可靠性,為端到端自動駕駛系統的開發和測試提供了更為逼真和可靠的環境。
ReconDreamer 的整體框架如下圖所示,首先用傳統方法如 Street Gaussians 進行場景重建,然后采樣新軌跡并進行渲染,為了消除渲染視頻中的偽影和缺陷,創新性地利用視頻生成世界模型 DriveRestorer 進行視頻修復,然后將這些恢復的視頻與原始視頻一起用于優化重建模型。ReconDreamer 還提出了漸進式數據更新策略,從小位移渲染開始修復,逐步擴展到大范圍渲染的修復,這個迭代過程會持續進行直到重建模型收斂為止。
為了訓練 DriveRestorer,需要構建駕駛視頻修復數據集。其構建過程如左下圖所示,本文使用原始軌跡的 GT 視頻來訓練一個欠擬合的 3DGS 模型,并在 3DGS 訓練過程中渲染低質量視頻。這些低質量視頻與它們對應的 GT 視頻配對,形成了修復數據集。在訓練過程中還利用 mask 讓網絡加強對天空、遠處區域的關注。如右下圖所示為修復數據集 pair 的可視化。
經過訓練后,DriveRestorer 可以修復低質量視頻,如下視頻所示,左下角為修復前視頻,右下角為修復后視頻。
此外,ReconDreamer 還提出了一種漸進式修復策略,其算法流程圖如下所示,通過逐漸擴大渲染視角范圍來逐步更新訓練數據,以提升大范圍相機運動時的渲染質量。
實驗結果
在實驗中,如下視頻所示,可以看出當前最先進的三維重建算法 Street Gaussians 在大范圍相機變換視角時(例如平移 6 米)渲染質量不佳,其車道線、天空、車輛都會模糊,甚至出現 “鬼影” 現象。而 ReconDreamer 可以提升復雜變道場景下的視頻渲染效果,不僅消除了 “鬼影”,而且提升了交通元素的渲染質量,車輛和車道線都更加清晰。
此外,ReconDreamer 可以實現大范圍自由視角的變化渲染,例如 z 字漂移,橫跨運鏡等渲染操作。
在定量實驗中,本文證明了 ReconDreamer 在大范圍的相機運鏡渲染(例如橫跨 3 米,橫跨 6 米,變道)等場景下,可以顯著超越傳統三維重建算法的性能,尤其是提升車輛和車道線渲染的時空一致性。
不僅如此,與最近的 DriveDreamer4D 相比,ReconDreamer 所提出的漸進式修復方案可以在大范圍相機運鏡下顯著提升渲染性能,其對比結果如下所示。
此外,本文還通過 user study 證明用戶更加偏好 ReconDreamer 的渲染效果,獲得了超過 95% 的投票率。
總結
本項 ReconDreamer 工作是極佳科技研究團隊之前 DriveDreamer、DriveDreamer-2 和 DriveDreamer4D 工作的延續。
DriveDreamer 是首個面向真實駕駛場景的世界模型,可以根據不同的控制條件生成自動駕駛周視視頻,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基礎上,引入大語言模型,可以生成用戶自定義的駕駛數據,進一步提升了長尾和 corner case 場景下的數據生成能力。針對端到端自動駕駛和閉環仿真對于場景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新軌跡視頻(例如變道、加減速),從而大幅提升了多種 4DGS 算法的重建效果。
ReconDreamer 則是通過訓練世界模型 DriveDreamer-2 讓其具備視頻修復能力,再通過漸進式修復方案進一步提升了大范圍視角變化時的渲染效果。
團隊介紹
本篇論文的牽頭完成單位為極佳科技,是一家空間智能公司,致力于將視頻生成提升到 4D 世界模型,賦予 AI 大模型對于 4D 空間的理解、生成、常識和推理的能力,實現 4D 空間中的交互和行動,走向通用空間智能。通用空間智能對于影視游戲、元宇宙等虛擬空間的內容創作,以及自動駕駛、具身智能等物理空間的數據生成和認知推理能力,都有巨大的價值和作用。極佳科技是國內最早開始探索和布局世界模型和空間智能方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術和商業進展,獲得了行業廣泛的認可。