成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

性能爆拉30%!英偉達DreamDrive:時空一致下的生成重建大一統新方案~

人工智能 新聞
今天為大家分享英偉達最新的工作—DreamDrive!視覺生成質量暴力提升30%!

寫在前面 & 筆者的個人理解

從自車的駕駛軌跡中生成真實的視覺圖像是實現自動駕駛模型可擴展訓練的關鍵一步。基于重建的方法從log中生成3D場景,并通過神經渲染合成幾何一致的駕駛視頻,但它們對昂貴標注的依賴限制了它們在野外駕駛場景中的泛化能力。另一方面,生成模型可以以更通用的方式合成動作條件駕駛視頻,但往往難以保持3D視覺的一致性。本文介紹了DreamDrive,這是一種結合生成和重建優點的4D時空場景生成方法,用于合成具有3D一致性的可推廣4D駕駛場景和動態駕駛視頻。具體來說,我們利用視頻擴散模型的生成能力來合成一系列視覺參考,并通過一種新的混合高斯表示將其進一步提升到4D。給定一個駕駛軌跡,然后我們通過高斯飛濺渲染3D一致的駕駛視頻。生成先驗的使用使我們的方法能夠從野外駕駛數據中生成高質量的4D場景,而神經渲染則確保從4D場景生成3D一致的視頻。對nuScenes和室外駕駛數據的廣泛實驗表明,DreamDrive可以生成可控和通用的4D駕駛場景,以高保真度和3D一致性合成駕駛視頻的新視圖,以自監督的方式分解靜態和動態元素,并增強自動駕駛的感知和規劃任務。

圖片

論文鏈接:https://arxiv.org/abs/2501.00601

介紹

基于自車的軌跡生成駕駛視頻是自動駕駛中的一個關鍵問題。動作條件視頻生成允許自動駕駛汽車預測未來的場景,做出相應的響應,并超越專家軌跡進行推廣,這對于自動駕駛模型的可擴展訓練至關重要。為了應對這一挑戰,出現了兩個系列的工作:基于重建的方法和基于生成的方法。基于重建的方法從log中模擬3D場景,然后通過神經渲染技術(如NeRF或3D高斯飛濺)生成動作條件視覺觀察。這些方法可以合成3D一致和真實的視覺觀察結果,但它們嚴重依賴于注釋良好的駕駛日志,其中包括標定的相機參數、目標框和3D點云,這限制了它們在室外駕駛數據中的可擴展性。另一方面,基于生成的方法可以從野外駕駛數據中學習,并通過圖像或視頻擴散模型合成動作條件下的動態駕駛視頻。然而,視頻生成存在幀間3D幾何一致性差的問題,這可能會破壞自動駕駛合成視覺觀察的可靠性。因此,為自動駕駛綜合通用和3D一致的視覺觀察仍然是一個懸而未決的挑戰。

為了應對這一挑戰,我們提出了DreamDrive,這是一種用于自動駕駛的4D場景生成方法。我們的核心想法是將視頻擴散先驗的生成能力與3D高斯飛濺的幾何一致性渲染相結合。我們將2D視覺參考從視頻擴散模型提升到4D時空場景中,其中自車載體通過高斯飛濺導航和合成新的視圖觀察。視頻擴散先驗增強了我們方法的泛化能力,能夠從野外駕駛數據中生成4D場景,而高斯飛濺確保了新視圖合成過程中的3D一致性。這種方法使DreamDrive能夠產生高質量、3D一致的視覺觀察,并對各種駕駛場景具有很強的泛化能力。

盡管直觀,但從生成的視覺參考中準確建模4D場景仍然非常具有挑戰性。與標注好的駕駛數據集不同,生成的視覺參考缺乏關鍵信息,如相機參數、物體位置和深度數據,這阻礙了4D建模。此外,視頻擴散模型中固有的3D不一致性加劇了這個問題,導致傳統的高斯表示過擬合訓練視圖,并在新的視圖合成中失敗。為了解決這些問題,我們引入了一種自監督混合高斯表示。我們的方法利用與時間無關的高斯模型來模擬靜態背景,并利用與時間相關的高斯模型對動態目標進行建模,將它們組合成一個統一的4D場景。首先,我們提出了一種自監督方法,可以僅通過圖像監督將場景分解為靜態和動態區域。接下來,我們引入時空聚類將3D高斯聚類分為靜態和動態高斯聚類,有效地減輕了4D建模中的虛假動態。最后,我們優化了具有時間相關和時間無關表示的高斯聚類,以在圖像監督下構建4D場景。通過混合高斯表示,我們的方法能夠合成3D一致的新視圖驅動視頻。我們的方法適用于純圖像監控,消除了對數據注釋的需求,使其更具可擴展性和通用性,適用于野外駕駛數據。

我們在nuScenes數據集和野生駕駛場景中評估了我們的方法,展示了我們4D場景生成的可控性和泛化能力。我們的方法使用混合高斯表示,可以生成高質量、3D一致的新視圖驅動視頻,視覺質量比以前的方法提高了30%。此外,我們還展示了我們的方法在自動駕駛感知和規劃任務中的應用。

相關工作回顧

自動駕駛生成模型。生成模型在基于當前行為合成未來駕駛視頻方面顯示出巨大的潛力。最近的研究對駕駛數據的穩定視頻擴散模型進行了微調,結合了地圖、物體、天氣和動作等控件來生成不同的駕駛場景。然而,由于這些模型在2D中運行,它們很難捕捉到世界的底層3D幾何形狀,導致生成的視頻中的3D一致性較差。相比之下,我們的方法采用4D場景的神經渲染,確保生成的視頻保持3D一致性。

城市景觀重建。許多論文專注于從駕駛日志重建3D或4D城市場景,使用多視圖圖像監控優化基于NeRF或3D-GS的場景。這些方法可以基于駕駛軌跡合成新的視圖。然而,大多數方法嚴重依賴帶注釋的目標框來跟蹤和建模動態目標,限制了它們處理未標記駕駛日志的能力。雖然一些方法使用自監督技術來分離動態目標,但它們仍然依賴于校準良好的相機姿態和3D數據,這使得它們在野外駕駛場景中不太通用。相比之下,我們的方法消除了對姿勢或3D信息的需求,直接從視覺參考中實現了精確的4D場景建模。

4D場景生成。許多論文關注3D和4D內容生成,但大多數論文關注目標生成,這不適用于駕駛場景。一些工作引入了4D場景生成的擴散先驗。然而,這些方法中的4D場景僅限于以目標為中心的小規模場景,這使得它們很難推廣到具有眾多動態目標的大規模、無界的駕駛場景。最相關的工作使用擴散先驗來生成3D驅動場景,但僅依賴于可變形的3D高斯分布,導致新視圖合成中的視覺質量較差。相比之下,我們提出了一種新的自監督方法,用混合高斯表示對4D駕駛場景進行建模,該方法在新的視圖駕駛視頻合成中表現出更好的泛化能力和視覺質量。

DreamDrive方法詳解

DreamDrive是一種用于自動駕駛的4D時空場景生成方法。我們的方法概述如圖2所示。DreamDrive遵循2D-3D-4D漸進式生成過程。我們首先利用視頻擴散先驗來生成2D視覺參考,然后進行高斯初始化將其提升到3D。接下來,我們提出了一種新的自監督場景分解方法,該方法采用基于聚類的分組策略,在4D時空域中分離靜態和動態區域。最后,我們引入混合高斯表示來對靜態結構和動態目標進行建模,以生成4D場景。

圖片

視頻擴散先驗。視頻擴散模型在模擬視覺數據的時間動態方面非常有效,但僅依賴它們進行軌跡條件視頻生成可能會導致3D不一致,因為它們是為2D圖像生成而設計的,沒有考慮底層的3D結構。在我們的方法中,我們使用視頻擴散先驗來生成初始視覺參考,然后將其提升到4D空間進行場景生成和3D一致的視頻渲染。具體來說,我們使用在驅動數據上訓練的視頻擴散模型來生成一系列參考圖像,并從早期層中提取潛在特征,以捕獲有價值的視覺動態,用于靜態動態分解。該過程正式表示為:

圖片

高斯初始化。在沒有相機姿態和3D信息的情況下,將生成的圖像提升到4D空間是相當具有挑戰性的。因此,相機參數和3D結構的穩健估計對于4D場景生成的可靠初始化至關重要。雖然之前的工作使用COLMAP來估計粗略的3D幾何,但其稀疏的點云不足以對大規模和無界的駕駛場景進行建模。相反,我們采用端到端的多視圖立體網絡來生成像素對齊的密集3D幾何體,同時恢復相機姿態。具體來說為每張圖像生成密集的、與參考像素對齊的3D點云。使用Weiszfeld算法估計相機內參,并通過全局對齊幀間的點云來計算相機外部函數。聚集的點云形成密集的場景級點云,用于初始化3D高斯參數,產生一組高斯Ginit。這些3D高斯分布進一步豐富了像素對齊的潛在特征Zref。整個過程可以表示為:

圖片

準確捕捉動態目標的運動。自車監督的場景分解。混合建模的一個關鍵挑戰是在沒有額外注釋的情況下分離靜態和動態區域。為了解決這個問題,我們的關鍵見解是,圖像誤差圖是區分靜態和動態區域的有效指標。具體來說,我們首先通過假設所有初始高斯Ginit都是靜態的來優化整個場景。然后,我們將優化的靜態高斯分布映射到靜態圖像Istatic中:

圖片圖片圖片

使用高斯聚類進行分組。由于生成的視覺參考中固有的3D不一致性,Iref中經常出現偽動力學,如靜態結構中的局部變形。這導致將動態高斯分布錯誤地分配給靜態目標,并對4D場景建模和新的視圖合成產生負面影響。為了提高場景分解的魯棒性,我們引入了一種新的基于聚類的分組策略。我們的關鍵見解是,目標通常作為一個整體移動,即同一目標中的高斯分布可能具有相同的動態屬性。由于我們沒有目標注釋,我們引入了“時空聚類”來將高斯分布聚類。如果一個簇中的大多數高斯分布是靜態的,這意味著整個部分應該是靜態的。我們為所有部分分配靜態標簽,即使有些最初被歸類為動態的,反之亦然。該過程可以表示為

圖片

混合高斯表示法。場景分解使我們能夠用不同的高斯分布表示靜態和動態組件。靜態高斯模型G靜態模型元素,如道路和建筑物,參數G(x,r,s,α,c)隨時間保持不變,確保靜態結構的準確渲染。

圖片

最后,我們將Gstatic和Gdynamic結合到一個4D時空場景中,并通過將它們疊加到圖像上來優化它們的參數:

圖片

實驗結果

圖片

圖片

圖片

結論

本文提出了DreamDrive,這是一種新的自動駕駛4D場景生成方法,將視頻擴散模型的生成能力與3D高斯飛濺的幾何一致性相結合。使用混合高斯表示,我們的方法在4D駕駛場景中準確地建模靜態和動態元素,而無需手動注釋。實驗表明,DreamDrive可以生成高質量、幾何形狀一致的駕駛視頻,適用于各種駕駛場景,并增強自動駕駛中的感知和規劃任務。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2025-06-09 09:50:00

VeactReact

2017-12-15 17:14:10

云端

2015-05-06 13:52:52

微軟外媒

2015-07-30 12:27:30

重郵華為

2020-12-13 13:40:22

健康碼移動應用

2014-07-29 13:25:43

WWDC 2014 S

2012-02-28 09:54:01

Windows 8微軟賬戶

2025-03-13 10:18:42

2024-04-23 13:38:00

AI數據

2023-07-17 08:03:03

Shell腳本SQL

2024-12-10 09:49:53

2023-03-13 13:40:20

機器學習AI

2024-03-20 09:29:41

2024-01-24 09:24:19

自動駕駛算法

2023-09-14 09:44:29

2025-02-03 12:16:01

視頻生成AI

2025-06-13 08:46:00

2023-07-22 13:17:33

人工智能框架

2023-10-20 09:43:56

模型訓練

2017-06-27 10:49:48

Intel 300Wi-Fi芯片
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩久久精品 | 免费视频中文字幕 | 日本不卡一区 | 精品久久久久久18免费网站 | 久久久久久中文字幕 | 精品国产一区二区三区性色 | 国产一级一级 | 成人精品一区亚洲午夜久久久 | 亚洲巨乳自拍在线视频 | 中国美女av | 欧美日韩大陆 | 91福利网址 | 嫩草研究影院 | 亚洲一区二区三区免费在线观看 | 国产精品视频一二三区 | 中文字幕人成乱码在线观看 | 亚洲精品视 | 99精品国产一区二区三区 | 久久国产精品视频免费看 | 欧美一区二区三区在线视频 | 黄视频免费| 国产伦一区二区三区 | 黄色国产在线视频 | 97视频久久 | av永久 | 最近中文字幕第一页 | 91精品国产91久久久久久最新 | 欧美国产视频一区二区 | 一区二区在线 | 亚洲免费观看视频 | 曰批视频在线观看 | 中文字幕精品视频在线观看 | 精品国产99 | 精品一区二区三区四区视频 | 男女羞羞免费网站 | 中文字幕日韩欧美 | 蜜桃视频一区二区三区 | 成人二区 | 欧美精品影院 | 国产日韩欧美一区 | 蜜桃五月天 |