0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！

angel

發(fā)布于 2025-4-7 09:19

瀏覽

0收藏

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2504.02261

項(xiàng)目鏈接：https://wonderturbo.github.io/

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

從一幅圖像開(kāi)始，用戶可以自由調(diào)整視角，交互式地控制 3D 場(chǎng)景的生成，每次交互只需 0.72 秒

亮點(diǎn)直擊

提出了WonderTurbo，首個(gè)實(shí)時(shí)（推理耗時(shí)：0.72 秒）的 3D 場(chǎng)景生成方法，支持用戶交互式創(chuàng)建多樣化且連貫連接的場(chǎng)景。
在幾何效率優(yōu)化方面，提出的StepSplat將前饋范式（feed-forward paradigm）擴(kuò)展至交互式 3D 幾何表示，可在0.26 秒內(nèi)加速 3D 場(chǎng)景擴(kuò)展。此外，引入QuickDepth以確保視角變化時(shí)的深度一致性。在外觀建模效率方面，提出FastPaint，僅需2 步推理即可完成圖像修復(fù)。
通過(guò)全面實(shí)驗(yàn)驗(yàn)證，WonderTurbo在實(shí)現(xiàn)15 倍加速的同時(shí)，在幾何與外觀方面均優(yōu)于其他方法，可生成高質(zhì)量的 3D 場(chǎng)景。

總結(jié)速覽

解決的問(wèn)題

實(shí)時(shí)交互性不足：現(xiàn)有3D生成技術(shù)（如WonderWorld）更新單視角需近10秒，無(wú)法滿足實(shí)時(shí)交互需求。
幾何建模效率低：傳統(tǒng)3D Gaussian Splattings（3DGS）等方法依賴迭代訓(xùn)練更新幾何表示，耗時(shí)較長(zhǎng)。
外觀建模速度慢：基于擴(kuò)散模型的圖像修復(fù)方法需要大量推理步驟，計(jì)算開(kāi)銷大。
小視角局限性：現(xiàn)有單圖像新視角生成方法僅支持小幅視角變化，難以適應(yīng)動(dòng)態(tài)交互需求。

提出的方案

StepSplat：動(dòng)態(tài)更新高效3D幾何表示，單次更新僅需0.26秒，支持交互式幾何建模。
QuickDepth：輕量級(jí)深度補(bǔ)全模塊，為StepSplat提供一致深度先驗(yàn)，提升幾何準(zhǔn)確性。
FastPaint：兩步擴(kuò)散模型，專為實(shí)時(shí)外觀修復(fù)設(shè)計(jì)，保持空間一致性，顯著減少推理步驟。

應(yīng)用的技術(shù)

幾何建模：

基于前饋式推理（feed-forward）的3D Gaussian Splattings（3DGS）加速，避免迭代訓(xùn)練。
特征記憶模塊動(dòng)態(tài)構(gòu)建cost volume，適應(yīng)視角變化。

深度優(yōu)化：輕量級(jí)深度補(bǔ)全網(wǎng)絡(luò)（QuickDepth）提供穩(wěn)定深度輸入。
外觀建模：高效擴(kuò)散模型（FastPaint）僅需2步推理完成修復(fù)，兼顧質(zhì)量與速度。

達(dá)到的效果

速度突破：

單視角生成僅需0.72秒，較基線方法（如WonderWorld）加速15倍。
StepSplat幾何更新僅0.26秒，F(xiàn)astPaint外觀修復(fù)僅需2步推理。

質(zhì)量與一致性：
在CLIP指標(biāo)和用戶評(píng)測(cè)中領(lǐng)先，保持高空間一致性和輸出質(zhì)量。
支持大幅視角變化（如全景相機(jī)路徑和行走路徑）。
應(yīng)用場(chǎng)景：適用于實(shí)時(shí)3D內(nèi)容創(chuàng)作、虛擬現(xiàn)實(shí)（VR）和交互式設(shè)計(jì)等場(chǎng)景。

效果展示

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

方法

WonderTurbo 的整體框架

交互式 3D 場(chǎng)景生成受限于計(jì)算效率，主要由于幾何與外觀建模的耗時(shí)問(wèn)題。WonderWorld 提出了 FLAGS 以加速幾何建模，但仍需數(shù)百次迭代優(yōu)化幾何表示，且其外觀建模依賴預(yù)訓(xùn)練擴(kuò)散模型，需數(shù)十步推理完成修復(fù)。相比之下，WonderTurbo 通過(guò)同時(shí)加速幾何與外觀建模，實(shí)現(xiàn)實(shí)時(shí)交互式 3D 場(chǎng)景生成。具體而言，提出 StepSplat 加速幾何建模，可在 0.26 秒 內(nèi)直接推斷 3DGS；在此框架下，QuickDepth 在 0.24 秒 內(nèi)補(bǔ)全缺失深度信息；針對(duì)外觀建模加速，引入 FastPaint，僅需 0.22 秒 完成圖像修復(fù)。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

StepSplat

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

然后通過(guò)以下方式構(gòu)建投影到相同離散像素位置的全局高斯候選集：

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

StepSplat的訓(xùn)練傳統(tǒng)前饋式3DGS方法難以滿足交互式3D場(chǎng)景生成的需求，部分原因是數(shù)據(jù)集的多樣性有限（主要集中在自動(dòng)駕駛或室內(nèi)環(huán)境等特定場(chǎng)景），且這些數(shù)據(jù)集的視角變化與交互式3D場(chǎng)景生成的要求存在顯著差距。本文利用3D生成模型創(chuàng)建包含模擬視角變化的數(shù)據(jù)集來(lái)訓(xùn)練StepSplat。訓(xùn)練時(shí)隨機(jī)選取圖像序列逐幀輸入模型，生成全局高斯表示，并基于該表示渲染新視角圖像，以RGB圖像作為監(jiān)督信號(hào)。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

QuickDepth

現(xiàn)有深度補(bǔ)全方法雖取得顯著進(jìn)展，但主要針對(duì)稀疏深度補(bǔ)全任務(wù)，難以處理完全缺失深度信息的區(qū)域（交互式3D場(chǎng)景生成的關(guān)鍵需求）。WonderWorld提出免訓(xùn)練的引導(dǎo)深度擴(kuò)散方法，但單張深度圖需3秒以上；Invisible Stitch因缺乏真實(shí)數(shù)據(jù)而采用教師蒸餾與自訓(xùn)練策略，但訓(xùn)練數(shù)據(jù)有限導(dǎo)致部分場(chǎng)景性能下降。本文提出QuickDepth——基于自建數(shù)據(jù)集訓(xùn)練的輕量級(jí)深度補(bǔ)全模型，具有強(qiáng)泛化能力，可適應(yīng)多樣化場(chǎng)景。

為適配交互式3D場(chǎng)景生成，本文構(gòu)建包含室內(nèi)外環(huán)境、漫畫(huà)與藝術(shù)作品等多樣化場(chǎng)景的數(shù)據(jù)集。不同于使用隨機(jī)掩碼或投影模擬交互場(chǎng)景的掩碼，本文設(shè)計(jì)了更符合交互需求的相機(jī)軌跡：

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

FastPaint

在3D場(chǎng)景生成中，圖像修復(fù)技術(shù)對(duì)3D外觀建模至關(guān)重要。現(xiàn)有方法存在以下局限：

空間定位不足：如Pano2Room可從單輸入生成全景圖像，但難以在用戶指定位置生成內(nèi)容
效率瓶頸：WonderJourney和WonderWorld采用基于Stable Diffusion的微調(diào)修復(fù)模型，但存在：

微調(diào)時(shí)的修復(fù)區(qū)域與3D場(chǎng)景生成需求不匹配，需額外模型驗(yàn)證生成內(nèi)容
擴(kuò)散模型需多步推理（通常20+步）

本文提出FastPaint解決方案：

推理加速：通過(guò)知識(shí)蒸餾結(jié)合ODE軌跡保持與重構(gòu)技術(shù)，將推理步驟壓縮至2步
領(lǐng)域適配：構(gòu)建專用訓(xùn)練數(shù)據(jù)集，其特點(diǎn)包括：

相機(jī)位姿模擬交互式3D生成過(guò)程
通過(guò)深度圖投影獲取掩碼（與StepSplat/QuickDepth共享軌跡生成邏輯）
確保修復(fù)區(qū)域與實(shí)際應(yīng)用場(chǎng)景對(duì)齊

交互式3D生成數(shù)據(jù)集

單張圖像的交互式3D生成支持多樣化風(fēng)格圖像作為輸入，但現(xiàn)實(shí)數(shù)據(jù)往往局限于自動(dòng)駕駛或室內(nèi)環(huán)境等特定場(chǎng)景。這種局限性導(dǎo)致當(dāng)前3D生成方法泛化能力不足。同時(shí)，部分方法直接采用預(yù)訓(xùn)練模型構(gòu)建流程，這些模型可能并非專為交互式3D場(chǎng)景生成設(shè)計(jì)，因此需要借助視覺(jué)語(yǔ)言模型(VLM)來(lái)驗(yàn)證生成內(nèi)容是否符合場(chǎng)景風(fēng)格或文本要求。

為突破這一限制，本文基于現(xiàn)有3D場(chǎng)景生成方法構(gòu)建數(shù)據(jù)集，并利用該數(shù)據(jù)集訓(xùn)練所有模塊。采用多種3D場(chǎng)景生成方法來(lái)創(chuàng)建各方法擅長(zhǎng)的3D場(chǎng)景，同時(shí)使用VLM模型驗(yàn)證生成數(shù)據(jù)是否符合預(yù)設(shè)場(chǎng)景。最終數(shù)據(jù)集包含通過(guò)模擬交互軌跡渲染的600多萬(wàn)幀畫(huà)面，涵蓋旋轉(zhuǎn)路徑、線性移動(dòng)和混合軌跡三種運(yùn)動(dòng)模式，主要包含四大類場(chǎng)景：室內(nèi)環(huán)境(32%)、城市景觀(28%)、自然地形(25%)和風(fēng)格化藝術(shù)場(chǎng)景(15%)。

訓(xùn)練StepSplat時(shí)，對(duì)相鄰輸入幀的間距施加約束，避免使用間隔過(guò)近的幀，從而更好地契合3D交互生成的實(shí)際應(yīng)用需求。對(duì)于FastPaint和QuickDepth模塊，則利用相鄰幀的深度信息通過(guò)投影獲取對(duì)應(yīng)掩膜。

實(shí)驗(yàn)

本節(jié)將介紹實(shí)驗(yàn)設(shè)置（包括實(shí)現(xiàn)細(xì)節(jié)和評(píng)估指標(biāo)），隨后通過(guò)定量與定性結(jié)果證明WonderTurbo在性能和效率上的優(yōu)越性，最后通過(guò)消融實(shí)驗(yàn)驗(yàn)證各模塊的有效性。

實(shí)驗(yàn)設(shè)置

基線方法：在對(duì)比分析中，本文選取了具有代表性的離線與在線3D生成方法。離線方法包括通過(guò)多視角圖像生成3D場(chǎng)景的LucidDreamer和Text2Room，以及直接生成全景圖再提升至3D的Pano2Room和DreamScene360。在線方法則評(píng)估了WonderJourney和WonderWorld。所有對(duì)比均采用各方法的官方代碼實(shí)現(xiàn)。

評(píng)估指標(biāo)：遵循WonderWorld的設(shè)定，本文采用CLIP分?jǐn)?shù)（CS）、CLIP一致性（CC）、CLIP-IQA+（CIQA）、Q-Align和CLIP美學(xué)分?jǐn)?shù)（CA）作為評(píng)估指標(biāo)，并輔以用戶研究收集視覺(jué)質(zhì)量的主觀反饋（詳見(jiàn)補(bǔ)充材料）。

實(shí)現(xiàn)細(xì)節(jié)：為確保全面評(píng)估，本文使用LucidDreamer、WonderJourney和WonderWorld的輸入圖像，針對(duì)4組測(cè)試案例各生成8個(gè)場(chǎng)景（總計(jì)32個(gè)場(chǎng)景）。評(píng)估采用固定全景相機(jī)視角，并以相同視域內(nèi)場(chǎng)景生成時(shí)間作為效率對(duì)比指標(biāo)。

主要結(jié)果

生成速度：交互式3D生成的時(shí)間成本至關(guān)重要。如下表1所示，即便采用FLAGS加速，對(duì)比方法中最快的WonderWorld仍需超過(guò)10秒生成場(chǎng)景。LucidDreamer和Text2Room需為每個(gè)新場(chǎng)景生成多視角，顯著增加了外觀建模時(shí)間；而Pano2Room和DreamScene360雖無(wú)需多視角生成，但全景圖生成延遲和逐場(chǎng)景優(yōu)化需求嚴(yán)重制約效率。值得注意的是，WonderTurbo在幾何與外觀建模上均表現(xiàn)優(yōu)異，總體加速達(dá)15倍。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

定量結(jié)果：下表2對(duì)比了WonderTurbo與多種3D生成方法。實(shí)驗(yàn)表明，在線生成方法因更貼合用戶文本需求，其CLIP分?jǐn)?shù)和一致性優(yōu)于離線方法。WonderWorld在所有基線中領(lǐng)先，而WonderTurbo在加速15倍的同時(shí)仍保持與之相當(dāng)?shù)闹笜?biāo)性能。此外，由于針對(duì)交互任務(wù)微調(diào)，WonderTurbo在CLIP分?jǐn)?shù)、一致性、CLIP-IQA+和美學(xué)分?jǐn)?shù)上均有提升。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

用戶研究：下表3，用戶研究表明WonderTurbo在生成時(shí)間更低的情況下達(dá)到與WonderWorld相當(dāng)?shù)纳少|(zhì)量，并在用戶偏好度上顯著優(yōu)于其他方法。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

定性結(jié)果：下圖5展示了相同設(shè)置下WonderTurbo與基線方法的生成效果對(duì)比。可見(jiàn)WonderTurbo在顯著縮短生成時(shí)間的同時(shí)保持了競(jìng)爭(zhēng)力：DreamScene360和Pano2Room因泛化能力有限出現(xiàn)幾何失真且美學(xué)表現(xiàn)不足；LucidDreamer和Text2Room則存在內(nèi)容錯(cuò)位與提示細(xì)節(jié)缺失問(wèn)題；而WonderTurbo與WonderWorld的結(jié)果質(zhì)量接近，均展現(xiàn)出優(yōu)異性能。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

消融實(shí)驗(yàn)

幾何建模：本文對(duì)比了FreeSplat、DepthSplat等幾何建模方法（均采用相同微調(diào)設(shè)置以確保公平）。如下表4所示，依賴無(wú)監(jiān)督深度估計(jì)的FreeSplat和DepthSplat在Q-Align和CLIP美學(xué)分?jǐn)?shù)上顯著劣于StepSplat。而StepSplat通過(guò)一致性深度圖指導(dǎo)代價(jià)體積構(gòu)建，實(shí)現(xiàn)了自適應(yīng)交互式3D場(chǎng)景生成。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

StepSplat分析：針對(duì)深度引導(dǎo)代價(jià)體積（depth guided cost volume）與漸進(jìn)融合（incremental infusion）的消融實(shí)驗(yàn)如下表5所示。結(jié)果表明：深度引導(dǎo)代價(jià)體積是精確幾何建模與圖像質(zhì)量的關(guān)鍵；漸進(jìn)融合則通過(guò)減少冗余高斯分布和避免浮點(diǎn)問(wèn)題提升性能。

0.72秒生成3D世界！建模提速15倍！極佳&北大等的WonderTurbo強(qiáng)勢(shì)登場(chǎng)，可實(shí)時(shí)交互！-AI.x社區(qū)

FastPaint驗(yàn)證：與預(yù)訓(xùn)練修復(fù)模型的對(duì)比顯示，F(xiàn)astPaint顯著增強(qiáng)了3D外觀建模能力，各項(xiàng)指標(biāo)均有提升。

討論與結(jié)論

盡管單圖像3D場(chǎng)景生成取得進(jìn)展，但耗時(shí)的幾何優(yōu)化與視角細(xì)化仍制約效率。為此，提出實(shí)時(shí)交互框架WonderTurbo：

幾何加速：StepSplat可在0.26秒內(nèi)擴(kuò)展3D場(chǎng)景并保持高視覺(jué)質(zhì)量，QuickDepth為代價(jià)體積構(gòu)建提供一致性深度先驗(yàn)
外觀建模：FastPaint僅需2步推理即可完成空間一致的外觀建模實(shí)驗(yàn)表明，WonderTurbo能精準(zhǔn)實(shí)現(xiàn)文本到3D的生成，在CLIP指標(biāo)和用戶偏好率上均優(yōu)于基線方法，同時(shí)獲得15倍加速。

本文轉(zhuǎn)自AI生成未來(lái) ，作者：AI生成未來(lái)

原文鏈接:??https://mp.weixin.qq.com/s/f7fAmchNpaWGRlYX1MtAgg??

標(biāo)簽

生成

模型

贊

回復(fù)