AI生成3D主題樂園,角色建筑批量生成,風(fēng)格保持一致 | SIGGRAPH 2024
最少只需1個3D樣例,即可生成3D主題樂園。
來自香港城市大學(xué)、上海人工智能實驗室和南洋理工大學(xué)S-Lab的研究人員提出了一種名為ThemeStation的新穎框架。
它可以從少量3D樣例中生成主題一致的高質(zhì)量3D畫廊。
還能基于文本控制,生成想要的3D資產(chǎn)。比如“穿正裝的貓頭鷹”。
要知道,虛擬世界和游戲等應(yīng)用中,常常需要大規(guī)模主題一致的3D模型,如古城中的建筑群、虛擬生態(tài)系統(tǒng)中的怪物陣容。
盡管一位資深3D建模師可以創(chuàng)作出若干主題一致的作品,但要創(chuàng)建大規(guī)模內(nèi)容豐富、風(fēng)格一致的3D畫廊卻是一大挑戰(zhàn)。
即便最近的3D內(nèi)容生成(3D AIGC)在文本到3D、圖像到3D等領(lǐng)域取得了長足進展,大大降低了3D內(nèi)容創(chuàng)作的門檻。但由于輸入模態(tài)中3D信息有限,它們?nèi)匀淮嬖?D模糊和不一致的問題,且無法充分保證與輸入樣例主題的一致性。
因此研究人員提出了這項工作。目前該論文已被SIGGRAPH 2024接收,方法已開源。
由主題驅(qū)動的3D到3D生成
ThemeStation的主要貢獻包括:
- 提出了一種用于主題驅(qū)動3D到3D生成的兩階段框架,其目標是僅從一個或幾個3D樣例生成在主題一致性和內(nèi)容多樣性方面均符合要求的新3D資產(chǎn)。
- 首次嘗試將擴散先驗擴展到3D到3D內(nèi)容生成這一挑戰(zhàn)性任務(wù)上。
- 引入了雙重分數(shù)蒸餾(DSD),通過在不同噪聲水平應(yīng)用參考先驗和概念先驗,實現(xiàn)了在3D到3D生成中同時使用兩種互相沖突的擴散先驗。
與現(xiàn)有的文本到3D、圖像到3D的技術(shù)不同,ThemeStation接受3D樣例作為輸入。與文本和圖像相比,3D樣例可以提供更多關(guān)于幾何和紋理的3D信息,大大減少了3D生成中的多視角不一致問題,使得生成更高質(zhì)量的3D模型成為了可能。
然而,直接在少量3D樣例上訓(xùn)練的3D生成器缺乏先驗信息,只能簡單地重復(fù)、縮放和微調(diào)輸入樣例,無法生成多樣化且主題一致的3D資產(chǎn)。為此,ThemeStation采用了一種兩階段的生成方案,模仿了實際3D建模工作流程:
第一階段:主題驅(qū)動的概念圖像生成
在第一階段,ThemeStation利用給定3D樣例的多視角渲染圖像對預(yù)訓(xùn)練的文本到圖像(T2I)擴散模型進行了微調(diào),以生成一系列與輸入3D示例保持一致主題的概念圖像,類似于實踐中的概念草圖設(shè)計過程。與DreamBooth等主體驅(qū)動的微調(diào)技術(shù)不同,該階段的目標并非完全擬合給定3D樣例。
因此,在該階段,研究人員使用低學(xué)習(xí)速率和少訓(xùn)練步驟來微調(diào)預(yù)訓(xùn)練的擴散模型以提取3D樣例中的主題信息并避免過擬合,最終實現(xiàn)了主題一致且多樣化的3D變體概念草圖生成。
第二階段:參考信息驅(qū)動的3D資產(chǎn)建模
在第二階段,ThemeStation進行參考信息驅(qū)動的3D資產(chǎn)建模。給定一張第一階段生成的概念草圖和輸入的3D樣例,ThemeStation,首先使用現(xiàn)有的圖像到3D技術(shù)生成粗糙的3D模型作為初始化。然后,它使用所提出的雙重分數(shù)蒸餾(DSD)損失函數(shù)來逐步優(yōu)化這個初始模型。
雙重分數(shù)蒸餾(DSD)損失是ThemeStation的技術(shù)核心,它結(jié)合了兩種擴散先驗:概念先驗和參考先驗。概念先驗來自第一階段合成的概念草圖,通過整體調(diào)整布局和顏色來確保概念圖的重建。參考先驗則來自輸入的3D樣例,通過利用多視角渲染圖像和法線圖中的3D一致信息來恢復(fù)更豐富的高頻細節(jié)。
具體而言,研究者分別使用概念草圖和輸入3D樣例的渲染圖片微調(diào)了兩個定制化的T2I擴散模型來提供不同的擴散先驗。
值得注意的是,由于概念圖和輸入的3D樣例并非同一3D物體,同時使用這兩種互相沖突的先驗信息作為優(yōu)化目標并非易事。與簡單組合這兩種先驗(可導(dǎo)致嚴重的損失沖突)不同,ThemeStation的研究者創(chuàng)新性地根據(jù)擴散模型的去噪時間步分配不同的先驗損失——在高噪聲下控制全局布局(概念先驗)并在低噪聲下精雕細琢(參考先驗)。
在這樣的設(shè)計下,兩個沖突的先驗得以融合,避免了信息損失。這一設(shè)計靈感來自圖像風(fēng)格遷移算法和T2I擴散模型中反向擴散過程的基于時間步長的由粗糙到細致的動態(tài)變化,如下圖所示:
由此基于ThemeStation,就能快速得到主題風(fēng)格一致的大量3D資產(chǎn)。
項目主頁:https://3dthemestation.github.io/
代碼:https://github.com/3DTopia/ThemeStation
論文:https://arxiv.org/abs/2403.15383
本文轉(zhuǎn)自 量子位 ,作者:量子位
