一張圖，快速生成可拆分3D角色！騰訊清華新SOTA | CVPR 2025

作者：量子位 2025-03-21 09:30:42

來自騰訊AI Lab 、清華提出StdGEN。與以往方法在分拆能力有限、質量不理想和優化時間過長等問題上表現不佳不同，它具備高質量、高效性和可分拆性，能夠在3分鐘內生成具有精細細節的3D角色.

任意一張立繪，就可以生成可拆分3D角色！

來自騰訊AI Lab、清華提出StdGEN。與以往方法在分拆能力有限、質量不理想和優化時間過長等問題上表現不佳不同，它具備高質量、高效性和可分拆性，能夠在3分鐘內生成具有精細細節的3D角色（粗粒度模型僅需1分鐘），并分離出語義組件，如身體、衣服和頭發。

可以預見到它能夠為虛擬現實、游戲和電影制作等領域注入新的活力！該研究成果接收于CVPR 2025，代碼和在線Gradio Demo已開源。

StdGEN的核心是語義感知大規模重建模型 （S-LRM），這是一個基于Transformer的可泛化模型，以前饋方式從多視角圖像中聯合重建幾何、顏色和語義信息。

此外，還引入了一種可微分的多層語義表面提取方案，用于從S-LRM重建的混合隱式場中獲取網格。

在流程中，還集成了專門設計的多視角擴散模型和迭代式的多層優化模塊，以促進高質量、可分解的3D角色生成。

大量實驗表明，他們在3D動漫角色生成方面達到了最先進的性能，在幾何、紋理和分解性方面顯著超越了現有基線，并在真人數據等風格具有泛化性。

StdGEN 提供了可直接使用的語義分解的3D角色模型，為廣泛的應用場景提供了靈活的定制能力。

△圖1 StdGEN應用流程

單圖生成可解耦3D角色StdGEN

StdGEN首先從參考角色圖像生成多視角標準角色圖像。為了從多視角圖像重建可分解的3D角色，他們在LRM（大型重建模型）的基礎上擴展了語義場，從而實現基于語義的分層生成。最后通過多層優化過程來增強結果，改進幾何結構并提供更精細的紋理。

由于直接從任意姿態參考圖重建3D角色模型可能會受到不同視角下自遮擋的影響，本方法首先將參考角色圖像轉化為多視角的標準姿態角色圖像。

這一過程包括兩個步驟：

（1）將任意參考圖像規范化為A-pose角色，通過訓練擴散模型+圖像條件的ReferenceNet，在生成過程中不斷引入角色參考圖信息，生成A-pose下的標準角色圖像；

（2）從A-pose圖像生成多視角RGB圖像和法線貼圖（共6個視角），通過訓練多視角擴散模型完成，為后續3D重建和優化提供充足信息。

△圖2 帶語義感知的大型重建模型（S-LRM）示意圖

接下來將上一階段生成的圖像提取為特征并輸入帶語義感知的大型重建模型（S-LRM），得到基于Triplane的三維隱式特征，該特征被進一步解碼為顏色、體密度、語義和帶符號距離場（SDF）等顯式三維信息，為了實現語義解耦的三維角色生成，他們提出了一種新的語義等價神經隱式場和帶符號距離場公式，用于根據特定語義提取角色的不同部分，能夠實現角色各部分的語義分解，得到拆分后的粗糙三維模型。