InfiniCube:來(lái)自英偉達(dá)的高保真度高可控大規(guī)模動(dòng)態(tài)3D駕駛場(chǎng)景生成方法
本文經(jīng)3D視覺之心公眾號(hào)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models
介紹:https://research.nvidia.com/labs/toronto-ai/infinicube/
論文:https://arxiv.org/abs/2412.03934v1
InfiniCube 是由英偉達(dá)主導(dǎo)開發(fā)的一種新型3D生成方法,用于生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景。
InfiniCube 通過(guò)結(jié)合高清地圖、車輛邊界框和文本描述,利用最新的3D表示和視頻模型技術(shù),實(shí)現(xiàn)了大規(guī)模動(dòng)態(tài)場(chǎng)景的生成。
這種方法不僅能夠生成具有高保真度和一致外觀的3D結(jié)構(gòu),還能夠保持幾何和外觀的一致性,這對(duì)于自動(dòng)駕駛車輛的模擬訓(xùn)練和測(cè)試尤為重要。
InfiniCube 的關(guān)鍵特性在于其能夠構(gòu)建一個(gè)基于語(yǔ)義體素的3D世界表示,并將其作為視頻生成模型的引導(dǎo)。
這一創(chuàng)新使得InfiniCube能夠生成大規(guī)模、細(xì)節(jié)豐富且與物理世界保持一致的動(dòng)態(tài)3D駕駛場(chǎng)景。此外,InfiniCube還提出了一種快速的前饋方法,將動(dòng)態(tài)視頻和體素世界轉(zhuǎn)換為動(dòng)態(tài)3D高斯場(chǎng)景,同時(shí)保留對(duì)動(dòng)態(tài)車輛的控制能力。技術(shù)解讀
InfiniCube 技術(shù)的思路是利用先進(jìn)的3D表示和視頻模型,結(jié)合高清地圖、車輛邊界框和文本描述,生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景。
這項(xiàng)技術(shù)通過(guò)構(gòu)建一個(gè)基于高清地圖條件的稀疏體素3D生成模型來(lái)生成大規(guī)模的語(yǔ)義體素世界,然后利用視頻模型和一系列像素對(duì)齊的引導(dǎo)緩沖區(qū)來(lái)合成一致的外觀,最終通過(guò)快速前饋方法將視頻和體素世界轉(zhuǎn)換為動(dòng)態(tài)3D高斯場(chǎng)景,實(shí)現(xiàn)了對(duì)動(dòng)態(tài)車輛的精確控制。
InfiniCube 的具體處理過(guò)程包括三個(gè)主要階段:
- 首先,無(wú)界體素世界生成階段,通過(guò)HD地圖和車輛邊界框作為輸入,生成對(duì)應(yīng)的3D體素世界和語(yǔ)義標(biāo)簽;
- 其次,世界引導(dǎo)的視頻生成階段,基于Stable Video Diffusion模型,通過(guò)生成的體素世界提供的幾何和相機(jī)軌跡條件,輔助長(zhǎng)視頻生成;
- 最后,動(dòng)態(tài)3DGS場(chǎng)景生成階段,通過(guò)雙分支重建方法,結(jié)合體素和像素信息,生成動(dòng)態(tài)3D高斯場(chǎng)景。
其技術(shù)特點(diǎn)主要包括:
- 能夠處理大規(guī)模場(chǎng)景,支持約100,000平方米的3D動(dòng)態(tài)場(chǎng)景生成;
- 高保真度和可控性,可以靈活控制場(chǎng)景布局、外觀和車輛行為;
- 一致性,保持生成序列中幾何和外觀的一致性;
- 快速前饋方法,提高了場(chǎng)景重建的效率。
InfiniCube 技術(shù)為自動(dòng)駕駛車輛的訓(xùn)練和測(cè)試提供了一個(gè)高度真實(shí)和可控的虛擬環(huán)境,這對(duì)于模擬復(fù)雜交通場(chǎng)景和對(duì)抗性場(chǎng)景尤為重要,有望在自動(dòng)駕駛領(lǐng)域?qū)崿F(xiàn)更廣泛的應(yīng)用。此外,其在混合現(xiàn)實(shí)和機(jī)器人技術(shù)等領(lǐng)域也具有廣泛的應(yīng)用前景。論文解讀
這篇論文介紹了一個(gè)名為InfiniCube的系統(tǒng),它是一個(gè)用于生成無(wú)界且可控制的動(dòng)態(tài)3D駕駛場(chǎng)景的方法。以下是論文內(nèi)容要點(diǎn)概括:
摘要
- 提出了InfiniCube,一個(gè)可擴(kuò)展的方法,用于生成高保真度和可控性的無(wú)界動(dòng)態(tài)3D駕駛場(chǎng)景。
- 該方法利用高清地圖、車輛邊界框和文本描述來(lái)實(shí)現(xiàn)靈活控制。
- 通過(guò)結(jié)合3D表示和視頻模型的最新進(jìn)展,實(shí)現(xiàn)了大規(guī)模動(dòng)態(tài)場(chǎng)景的生成。
引言
- 生成可模擬和可控的3D場(chǎng)景對(duì)于混合現(xiàn)實(shí)、機(jī)器人技術(shù)以及自動(dòng)駕駛車輛的訓(xùn)練和測(cè)試等領(lǐng)域至關(guān)重要。
- InfiniCube旨在滿足以下關(guān)鍵需求:保真度和一致性、大規(guī)模場(chǎng)景生成以及可控性。
相關(guān)工作
- 回顧了3D生成、可控視頻生成和駕駛場(chǎng)景重建等領(lǐng)域的相關(guān)研究進(jìn)展。
預(yù)備知識(shí)
- 介紹了潛在擴(kuò)散模型(LDM)和稀疏體素LDM,這些是InfiniCube方法的基礎(chǔ)。
方法
- InfiniCube的目標(biāo)是生成大規(guī)模動(dòng)態(tài)3D場(chǎng)景,通過(guò)輸入高清地圖、車輛邊界框和文本提示來(lái)實(shí)現(xiàn)。
- 4.1 無(wú)界體素世界生成:基于高清地圖和車輛邊界框生成語(yǔ)義體素世界。
- 4.2 世界引導(dǎo)的視頻生成:使用視頻模型生成與體素世界一致的外觀。
- 4.3 動(dòng)態(tài)3DGS場(chǎng)景生成:將體素和視頻合成為動(dòng)態(tài)3D高斯場(chǎng)景。
實(shí)驗(yàn)
- 5.1 數(shù)據(jù)處理:使用Waymo Open Dataset進(jìn)行訓(xùn)練,提取地面真實(shí)場(chǎng)景幾何以監(jiān)督語(yǔ)義體素生成。
- 5.2 實(shí)現(xiàn)細(xì)節(jié):詳細(xì)介紹了各個(gè)階段的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練細(xì)節(jié)。
- 5.3 大規(guī)模動(dòng)態(tài)場(chǎng)景生成:展示了完整管道生成的場(chǎng)景,并分析了各個(gè)組件的重要性。
- 5.4 主要組件分析:通過(guò)消融研究驗(yàn)證了HD地圖條件設(shè)計(jì)的有效性,并與基線方法進(jìn)行了比較。
- 5.5 應(yīng)用:InfiniCube支持新視角合成、碰撞模擬等應(yīng)用,并展示了車輛插入和天氣控制等高級(jí)應(yīng)用。
討論
- 討論了InfiniCube的局限性,包括幾何多樣性的限制和管道的復(fù)雜性。
- 總結(jié)了InfiniCube的貢獻(xiàn),并提出了未來(lái)的研究方向,包括擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模和加速生成過(guò)程。
結(jié)論
- InfiniCube通過(guò)結(jié)合體素世界生成模型、世界引導(dǎo)的視頻模型和動(dòng)態(tài)3DGS生成模型,能夠生成具有豐富外觀細(xì)節(jié)和完全可控性的現(xiàn)實(shí)3D場(chǎng)景。