InfiniCube：來(lái)自英偉達(dá)的高保真度高可控大規(guī)模動(dòng)態(tài)3D駕駛場(chǎng)景生成方法

作者：ADFeed 2025-01-03 10:00:00

人工智能新聞

這篇論文介紹了一個(gè)名為InfiniCube的系統(tǒng)，它是一個(gè)用于生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景的方法。

本文經(jīng)3D視覺之心公眾號(hào)授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models

介紹：https://research.nvidia.com/labs/toronto-ai/infinicube/

論文：https://arxiv.org/abs/2412.03934v1

InfiniCube 是由英偉達(dá)主導(dǎo)開發(fā)的一種新型3D生成方法，用于生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景。

InfiniCube 通過(guò)結(jié)合高清地圖、車輛邊界框和文本描述，利用最新的3D表示和視頻模型技術(shù)，實(shí)現(xiàn)了大規(guī)模動(dòng)態(tài)場(chǎng)景的生成。

這種方法不僅能夠生成具有高保真度和一致外觀的3D結(jié)構(gòu)，還能夠保持幾何和外觀的一致性，這對(duì)于自動(dòng)駕駛車輛的模擬訓(xùn)練和測(cè)試尤為重要。

InfiniCube 的關(guān)鍵特性在于其能夠構(gòu)建一個(gè)基于語(yǔ)義體素的3D世界表示，并將其作為視頻生成模型的引導(dǎo)。

這一創(chuàng)新使得InfiniCube能夠生成大規(guī)模、細(xì)節(jié)豐富且與物理世界保持一致的動(dòng)態(tài)3D駕駛場(chǎng)景。此外，InfiniCube還提出了一種快速的前饋方法，將動(dòng)態(tài)視頻和體素世界轉(zhuǎn)換為動(dòng)態(tài)3D高斯場(chǎng)景，同時(shí)保留對(duì)動(dòng)態(tài)車輛的控制能力。技術(shù)解讀

InfiniCube 技術(shù)的思路是利用先進(jìn)的3D表示和視頻模型，結(jié)合高清地圖、車輛邊界框和文本描述，生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景。

這項(xiàng)技術(shù)通過(guò)構(gòu)建一個(gè)基于高清地圖條件的稀疏體素3D生成模型來(lái)生成大規(guī)模的語(yǔ)義體素世界，然后利用視頻模型和一系列像素對(duì)齊的引導(dǎo)緩沖區(qū)來(lái)合成一致的外觀，最終通過(guò)快速前饋方法將視頻和體素世界轉(zhuǎn)換為動(dòng)態(tài)3D高斯場(chǎng)景，實(shí)現(xiàn)了對(duì)動(dòng)態(tài)車輛的精確控制。

InfiniCube 的具體處理過(guò)程包括三個(gè)主要階段：

首先，無(wú)界體素世界生成階段，通過(guò)HD地圖和車輛邊界框作為輸入，生成對(duì)應(yīng)的3D體素世界和語(yǔ)義標(biāo)簽；
其次，世界引導(dǎo)的視頻生成階段，基于Stable Video Diffusion模型，通過(guò)生成的體素世界提供的幾何和相機(jī)軌跡條件，輔助長(zhǎng)視頻生成；
最后，動(dòng)態(tài)3DGS場(chǎng)景生成階段，通過(guò)雙分支重建方法，結(jié)合體素和像素信息，生成動(dòng)態(tài)3D高斯場(chǎng)景。

其技術(shù)特點(diǎn)主要包括：

能夠處理大規(guī)模場(chǎng)景，支持約100,000平方米的3D動(dòng)態(tài)場(chǎng)景生成；
高保真度和可控性，可以靈活控制場(chǎng)景布局、外觀和車輛行為；
一致性，保持生成序列中幾何和外觀的一致性；
快速前饋方法，提高了場(chǎng)景重建的效率。

InfiniCube 技術(shù)為自動(dòng)駕駛車輛的訓(xùn)練和測(cè)試提供了一個(gè)高度真實(shí)和可控的虛擬環(huán)境，這對(duì)于模擬復(fù)雜交通場(chǎng)景和對(duì)抗性場(chǎng)景尤為重要，有望在自動(dòng)駕駛領(lǐng)域?qū)崿F(xiàn)更廣泛的應(yīng)用。此外，其在混合現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域也具有廣泛的應(yīng)用前景。論文解讀

這篇論文介紹了一個(gè)名為InfiniCube的系統(tǒng)，它是一個(gè)用于生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景的方法。以下是論文內(nèi)容要點(diǎn)概括：

摘要

提出了InfiniCube，一個(gè)可擴(kuò)展的方法，用于生成高保真度和可控性的無(wú)界動(dòng)態(tài)3D駕駛場(chǎng)景。
該方法利用高清地圖、車輛邊界框和文本描述來(lái)實(shí)現(xiàn)靈活控制。
通過(guò)結(jié)合3D表示和視頻模型的最新進(jìn)展，實(shí)現(xiàn)了大規(guī)模動(dòng)態(tài)場(chǎng)景的生成。

引言

生成可模擬和可控的3D場(chǎng)景對(duì)于混合現(xiàn)實(shí)、機(jī)器人技術(shù)以及自動(dòng)駕駛車輛的訓(xùn)練和測(cè)試等領(lǐng)域至關(guān)重要。
InfiniCube旨在滿足以下關(guān)鍵需求：保真度和一致性、大規(guī)模場(chǎng)景生成以及可控性。

預(yù)備知識(shí)

介紹了潛在擴(kuò)散模型（LDM）和稀疏體素LDM，這些是InfiniCube方法的基礎(chǔ)。

方法

InfiniCube的目標(biāo)是生成大規(guī)模動(dòng)態(tài)3D場(chǎng)景，通過(guò)輸入高清地圖、車輛邊界框和文本提示來(lái)實(shí)現(xiàn)。
4.1 無(wú)界體素世界生成：基于高清地圖和車輛邊界框生成語(yǔ)義體素世界。
4.2 世界引導(dǎo)的視頻生成：使用視頻模型生成與體素世界一致的外觀。
4.3 動(dòng)態(tài)3DGS場(chǎng)景生成：將體素和視頻合成為動(dòng)態(tài)3D高斯場(chǎng)景。

實(shí)驗(yàn)

5.1 數(shù)據(jù)處理：使用Waymo Open Dataset進(jìn)行訓(xùn)練，提取地面真實(shí)場(chǎng)景幾何以監(jiān)督語(yǔ)義體素生成。
5.2 實(shí)現(xiàn)細(xì)節(jié)：詳細(xì)介紹了各個(gè)階段的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練細(xì)節(jié)。
5.3 大規(guī)模動(dòng)態(tài)場(chǎng)景生成：展示了完整管道生成的場(chǎng)景，并分析了各個(gè)組件的重要性。
5.4 主要組件分析：通過(guò)消融研究驗(yàn)證了HD地圖條件設(shè)計(jì)的有效性，并與基線方法進(jìn)行了比較。
5.5 應(yīng)用：InfiniCube支持新視角合成、碰撞模擬等應(yīng)用，并展示了車輛插入和天氣控制等高級(jí)應(yīng)用。

討論

討論了InfiniCube的局限性，包括幾何多樣性的限制和管道的復(fù)雜性。
總結(jié)了InfiniCube的貢獻(xiàn)，并提出了未來(lái)的研究方向，包括擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模和加速生成過(guò)程。

結(jié)論

InfiniCube通過(guò)結(jié)合體素世界生成模型、世界引導(dǎo)的視頻模型和動(dòng)態(tài)3DGS生成模型，能夠生成具有豐富外觀細(xì)節(jié)和完全可控性的現(xiàn)實(shí)3D場(chǎng)景。

責(zé)任編輯：張燕妮來(lái)源： 3D視覺之心

3D 自動(dòng)駕駛生成

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

InfiniCube：來(lái)自英偉達(dá)的高保真度高可控大規(guī)模動(dòng)態(tài)3D駕駛場(chǎng)景生成方法

摘要

引言

相關(guān)工作

預(yù)備知識(shí)

方法

實(shí)驗(yàn)

討論

結(jié)論