0.72秒生成3D世界!建模提速15倍!極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng),可實(shí)時(shí)交互!
文章鏈接:https://arxiv.org/pdf/2504.02261
項(xiàng)目鏈接:https://wonderturbo.github.io/
從一幅圖像開(kāi)始,用戶可以自由調(diào)整視角,交互式地控制 3D 場(chǎng)景的生成,每次交互只需 0.72 秒
亮點(diǎn)直擊
- 提出了WonderTurbo,首個(gè)實(shí)時(shí)(推理耗時(shí):0.72 秒)的 3D 場(chǎng)景生成方法,支持用戶交互式創(chuàng)建多樣化且連貫連接的場(chǎng)景。
- 在幾何效率優(yōu)化方面,提出的StepSplat將前饋范式(feed-forward paradigm)擴(kuò)展至交互式 3D 幾何表示,可在0.26 秒內(nèi)加速 3D 場(chǎng)景擴(kuò)展。此外,引入QuickDepth以確保視角變化時(shí)的深度一致性。在外觀建模效率方面,提出FastPaint,僅需2 步推理即可完成圖像修復(fù)。
- 通過(guò)全面實(shí)驗(yàn)驗(yàn)證,WonderTurbo在實(shí)現(xiàn)15 倍加速的同時(shí),在幾何與外觀方面均優(yōu)于其他方法,可生成高質(zhì)量的 3D 場(chǎng)景。
總結(jié)速覽
解決的問(wèn)題
- 實(shí)時(shí)交互性不足:現(xiàn)有3D生成技術(shù)(如WonderWorld)更新單視角需近10秒,無(wú)法滿足實(shí)時(shí)交互需求。
- 幾何建模效率低:傳統(tǒng)3D Gaussian Splattings(3DGS)等方法依賴迭代訓(xùn)練更新幾何表示,耗時(shí)較長(zhǎng)。
- 外觀建模速度慢:基于擴(kuò)散模型的圖像修復(fù)方法需要大量推理步驟,計(jì)算開(kāi)銷大。
- 小視角局限性:現(xiàn)有單圖像新視角生成方法僅支持小幅視角變化,難以適應(yīng)動(dòng)態(tài)交互需求。
提出的方案
- StepSplat:動(dòng)態(tài)更新高效3D幾何表示,單次更新僅需0.26秒,支持交互式幾何建模。
- QuickDepth:輕量級(jí)深度補(bǔ)全模塊,為StepSplat提供一致深度先驗(yàn),提升幾何準(zhǔn)確性。
- FastPaint:兩步擴(kuò)散模型,專為實(shí)時(shí)外觀修復(fù)設(shè)計(jì),保持空間一致性,顯著減少推理步驟。
應(yīng)用的技術(shù)
- 幾何建模:
- 基于前饋式推理(feed-forward)的3D Gaussian Splattings(3DGS)加速,避免迭代訓(xùn)練。
- 特征記憶模塊動(dòng)態(tài)構(gòu)建cost volume,適應(yīng)視角變化。
- 深度優(yōu)化:輕量級(jí)深度補(bǔ)全網(wǎng)絡(luò)(QuickDepth)提供穩(wěn)定深度輸入。
- 外觀建模:高效擴(kuò)散模型(FastPaint)僅需2步推理完成修復(fù),兼顧質(zhì)量與速度。
達(dá)到的效果
- 速度突破:
- 單視角生成僅需0.72秒,較基線方法(如WonderWorld)加速15倍。
- StepSplat幾何更新僅0.26秒,F(xiàn)astPaint外觀修復(fù)僅需2步推理。
- 質(zhì)量與一致性:
- 在CLIP指標(biāo)和用戶評(píng)測(cè)中領(lǐng)先,保持高空間一致性和輸出質(zhì)量。
- 支持大幅視角變化(如全景相機(jī)路徑和行走路徑)。
- 應(yīng)用場(chǎng)景:適用于實(shí)時(shí)3D內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)(VR)和交互式設(shè)計(jì)等場(chǎng)景。
效果展示
方法
WonderTurbo 的整體框架
交互式 3D 場(chǎng)景生成受限于計(jì)算效率,主要由于幾何與外觀建模的耗時(shí)問(wèn)題。WonderWorld 提出了 FLAGS 以加速幾何建模,但仍需數(shù)百次迭代優(yōu)化幾何表示,且其外觀建模依賴預(yù)訓(xùn)練擴(kuò)散模型,需數(shù)十步推理完成修復(fù)。相比之下,WonderTurbo 通過(guò)同時(shí)加速幾何與外觀建模,實(shí)現(xiàn)實(shí)時(shí)交互式 3D 場(chǎng)景生成。具體而言,提出 StepSplat 加速幾何建模,可在 0.26 秒 內(nèi)直接推斷 3DGS;在此框架下,QuickDepth 在 0.24 秒 內(nèi)補(bǔ)全缺失深度信息;針對(duì)外觀建模加速,引入 FastPaint,僅需 0.22 秒 完成圖像修復(fù)。
StepSplat
然后通過(guò)以下方式構(gòu)建投影到相同離散像素位置的全局高斯候選集:
StepSplat的訓(xùn)練傳統(tǒng)前饋式3DGS方法難以滿足交互式3D場(chǎng)景生成的需求,部分原因是數(shù)據(jù)集的多樣性有限(主要集中在自動(dòng)駕駛或室內(nèi)環(huán)境等特定場(chǎng)景),且這些數(shù)據(jù)集的視角變化與交互式3D場(chǎng)景生成的要求存在顯著差距。本文利用3D生成模型創(chuàng)建包含模擬視角變化的數(shù)據(jù)集來(lái)訓(xùn)練StepSplat。訓(xùn)練時(shí)隨機(jī)選取圖像序列逐幀輸入模型,生成全局高斯表示,并基于該表示渲染新視角圖像,以RGB圖像作為監(jiān)督信號(hào)。
QuickDepth
現(xiàn)有深度補(bǔ)全方法雖取得顯著進(jìn)展,但主要針對(duì)稀疏深度補(bǔ)全任務(wù),難以處理完全缺失深度信息的區(qū)域(交互式3D場(chǎng)景生成的關(guān)鍵需求)。WonderWorld提出免訓(xùn)練的引導(dǎo)深度擴(kuò)散方法,但單張深度圖需3秒以上;Invisible Stitch因缺乏真實(shí)數(shù)據(jù)而采用教師蒸餾與自訓(xùn)練策略,但訓(xùn)練數(shù)據(jù)有限導(dǎo)致部分場(chǎng)景性能下降。本文提出QuickDepth——基于自建數(shù)據(jù)集訓(xùn)練的輕量級(jí)深度補(bǔ)全模型,具有強(qiáng)泛化能力,可適應(yīng)多樣化場(chǎng)景。
為適配交互式3D場(chǎng)景生成,本文構(gòu)建包含室內(nèi)外環(huán)境、漫畫(huà)與藝術(shù)作品等多樣化場(chǎng)景的數(shù)據(jù)集。不同于使用隨機(jī)掩碼或投影模擬交互場(chǎng)景的掩碼,本文設(shè)計(jì)了更符合交互需求的相機(jī)軌跡:
FastPaint
在3D場(chǎng)景生成中,圖像修復(fù)技術(shù)對(duì)3D外觀建模至關(guān)重要。現(xiàn)有方法存在以下局限:
- 空間定位不足:如Pano2Room可從單輸入生成全景圖像,但難以在用戶指定位置生成內(nèi)容
- 效率瓶頸:WonderJourney和WonderWorld采用基于Stable Diffusion的微調(diào)修復(fù)模型,但存在:
- 微調(diào)時(shí)的修復(fù)區(qū)域與3D場(chǎng)景生成需求不匹配,需額外模型驗(yàn)證生成內(nèi)容
- 擴(kuò)散模型需多步推理(通常20+步)
本文提出FastPaint解決方案:
- 推理加速:通過(guò)知識(shí)蒸餾結(jié)合ODE軌跡保持與重構(gòu)技術(shù),將推理步驟壓縮至2步
- 領(lǐng)域適配:構(gòu)建專用訓(xùn)練數(shù)據(jù)集,其特點(diǎn)包括:
- 相機(jī)位姿模擬交互式3D生成過(guò)程
- 通過(guò)深度圖投影獲取掩碼(與StepSplat/QuickDepth共享軌跡生成邏輯)
- 確保修復(fù)區(qū)域與實(shí)際應(yīng)用場(chǎng)景對(duì)齊
交互式3D生成數(shù)據(jù)集
單張圖像的交互式3D生成支持多樣化風(fēng)格圖像作為輸入,但現(xiàn)實(shí)數(shù)據(jù)往往局限于自動(dòng)駕駛或室內(nèi)環(huán)境等特定場(chǎng)景。這種局限性導(dǎo)致當(dāng)前3D生成方法泛化能力不足。同時(shí),部分方法直接采用預(yù)訓(xùn)練模型構(gòu)建流程,這些模型可能并非專為交互式3D場(chǎng)景生成設(shè)計(jì),因此需要借助視覺(jué)語(yǔ)言模型(VLM)來(lái)驗(yàn)證生成內(nèi)容是否符合場(chǎng)景風(fēng)格或文本要求。
為突破這一限制,本文基于現(xiàn)有3D場(chǎng)景生成方法構(gòu)建數(shù)據(jù)集,并利用該數(shù)據(jù)集訓(xùn)練所有模塊。采用多種3D場(chǎng)景生成方法來(lái)創(chuàng)建各方法擅長(zhǎng)的3D場(chǎng)景,同時(shí)使用VLM模型驗(yàn)證生成數(shù)據(jù)是否符合預(yù)設(shè)場(chǎng)景。最終數(shù)據(jù)集包含通過(guò)模擬交互軌跡渲染的600多萬(wàn)幀畫(huà)面,涵蓋旋轉(zhuǎn)路徑、線性移動(dòng)和混合軌跡三種運(yùn)動(dòng)模式,主要包含四大類場(chǎng)景:室內(nèi)環(huán)境(32%)、城市景觀(28%)、自然地形(25%)和風(fēng)格化藝術(shù)場(chǎng)景(15%)。
訓(xùn)練StepSplat時(shí),對(duì)相鄰輸入幀的間距施加約束,避免使用間隔過(guò)近的幀,從而更好地契合3D交互生成的實(shí)際應(yīng)用需求。對(duì)于FastPaint和QuickDepth模塊,則利用相鄰幀的深度信息通過(guò)投影獲取對(duì)應(yīng)掩膜。
實(shí)驗(yàn)
本節(jié)將介紹實(shí)驗(yàn)設(shè)置(包括實(shí)現(xiàn)細(xì)節(jié)和評(píng)估指標(biāo)),隨后通過(guò)定量與定性結(jié)果證明WonderTurbo在性能和效率上的優(yōu)越性,最后通過(guò)消融實(shí)驗(yàn)驗(yàn)證各模塊的有效性。
實(shí)驗(yàn)設(shè)置
基線方法:在對(duì)比分析中,本文選取了具有代表性的離線與在線3D生成方法。離線方法包括通過(guò)多視角圖像生成3D場(chǎng)景的LucidDreamer和Text2Room,以及直接生成全景圖再提升至3D的Pano2Room和DreamScene360。在線方法則評(píng)估了WonderJourney和WonderWorld。所有對(duì)比均采用各方法的官方代碼實(shí)現(xiàn)。
評(píng)估指標(biāo):遵循WonderWorld的設(shè)定,本文采用CLIP分?jǐn)?shù)(CS)、CLIP一致性(CC)、CLIP-IQA+(CIQA)、Q-Align和CLIP美學(xué)分?jǐn)?shù)(CA)作為評(píng)估指標(biāo),并輔以用戶研究收集視覺(jué)質(zhì)量的主觀反饋(詳見(jiàn)補(bǔ)充材料)。
實(shí)現(xiàn)細(xì)節(jié):為確保全面評(píng)估,本文使用LucidDreamer、WonderJourney和WonderWorld的輸入圖像,針對(duì)4組測(cè)試案例各生成8個(gè)場(chǎng)景(總計(jì)32個(gè)場(chǎng)景)。評(píng)估采用固定全景相機(jī)視角,并以相同視域內(nèi)場(chǎng)景生成時(shí)間作為效率對(duì)比指標(biāo)。
主要結(jié)果
生成速度:交互式3D生成的時(shí)間成本至關(guān)重要。如下表1所示,即便采用FLAGS加速,對(duì)比方法中最快的WonderWorld仍需超過(guò)10秒生成場(chǎng)景。LucidDreamer和Text2Room需為每個(gè)新場(chǎng)景生成多視角,顯著增加了外觀建模時(shí)間;而Pano2Room和DreamScene360雖無(wú)需多視角生成,但全景圖生成延遲和逐場(chǎng)景優(yōu)化需求嚴(yán)重制約效率。值得注意的是,WonderTurbo在幾何與外觀建模上均表現(xiàn)優(yōu)異,總體加速達(dá)15倍。
定量結(jié)果:下表2對(duì)比了WonderTurbo與多種3D生成方法。實(shí)驗(yàn)表明,在線生成方法因更貼合用戶文本需求,其CLIP分?jǐn)?shù)和一致性優(yōu)于離線方法。WonderWorld在所有基線中領(lǐng)先,而WonderTurbo在加速15倍的同時(shí)仍保持與之相當(dāng)?shù)闹笜?biāo)性能。此外,由于針對(duì)交互任務(wù)微調(diào),WonderTurbo在CLIP分?jǐn)?shù)、一致性、CLIP-IQA+和美學(xué)分?jǐn)?shù)上均有提升。
用戶研究:下表3,用戶研究表明WonderTurbo在生成時(shí)間更低的情況下達(dá)到與WonderWorld相當(dāng)?shù)纳少|(zhì)量,并在用戶偏好度上顯著優(yōu)于其他方法。
定性結(jié)果:下圖5展示了相同設(shè)置下WonderTurbo與基線方法的生成效果對(duì)比。可見(jiàn)WonderTurbo在顯著縮短生成時(shí)間的同時(shí)保持了競(jìng)爭(zhēng)力:DreamScene360和Pano2Room因泛化能力有限出現(xiàn)幾何失真且美學(xué)表現(xiàn)不足;LucidDreamer和Text2Room則存在內(nèi)容錯(cuò)位與提示細(xì)節(jié)缺失問(wèn)題;而WonderTurbo與WonderWorld的結(jié)果質(zhì)量接近,均展現(xiàn)出優(yōu)異性能。
消融實(shí)驗(yàn)
幾何建模:本文對(duì)比了FreeSplat、DepthSplat等幾何建模方法(均采用相同微調(diào)設(shè)置以確保公平)。如下表4所示,依賴無(wú)監(jiān)督深度估計(jì)的FreeSplat和DepthSplat在Q-Align和CLIP美學(xué)分?jǐn)?shù)上顯著劣于StepSplat。而StepSplat通過(guò)一致性深度圖指導(dǎo)代價(jià)體積構(gòu)建,實(shí)現(xiàn)了自適應(yīng)交互式3D場(chǎng)景生成。
StepSplat分析:針對(duì)深度引導(dǎo)代價(jià)體積(depth guided cost volume)與漸進(jìn)融合(incremental infusion)的消融實(shí)驗(yàn)如下表5所示。結(jié)果表明:深度引導(dǎo)代價(jià)體積是精確幾何建模與圖像質(zhì)量的關(guān)鍵;漸進(jìn)融合則通過(guò)減少冗余高斯分布和避免浮點(diǎn)問(wèn)題提升性能。
FastPaint驗(yàn)證:與預(yù)訓(xùn)練修復(fù)模型的對(duì)比顯示,F(xiàn)astPaint顯著增強(qiáng)了3D外觀建模能力,各項(xiàng)指標(biāo)均有提升。
討論與結(jié)論
盡管單圖像3D場(chǎng)景生成取得進(jìn)展,但耗時(shí)的幾何優(yōu)化與視角細(xì)化仍制約效率。為此,提出實(shí)時(shí)交互框架WonderTurbo:
- 幾何加速:StepSplat可在0.26秒內(nèi)擴(kuò)展3D場(chǎng)景并保持高視覺(jué)質(zhì)量,QuickDepth為代價(jià)體積構(gòu)建提供一致性深度先驗(yàn)
- 外觀建模:FastPaint僅需2步推理即可完成空間一致的外觀建模實(shí)驗(yàn)表明,WonderTurbo能精準(zhǔn)實(shí)現(xiàn)文本到3D的生成,在CLIP指標(biāo)和用戶偏好率上均優(yōu)于基線方法,同時(shí)獲得15倍加速。
本文轉(zhuǎn)自AI生成未來(lái) ,作者:AI生成未來(lái)
