ICLR 2025 | 原生3D+流匹配,現有SOTA被GaussianAnything超越
蘭宇時,MMLab@NTU博士生,導師為 Chen Change Loy。本科畢業于北京郵電大學,目前主要研究興趣為基于神經渲染的 3D 生成模型、3D 重建與編輯。
盡管 3D 內容生成技術取得了顯著進展,現有方法仍在輸入格式、潛空間設計和輸出表示上面臨挑戰。
在 ICLR 2025 中,來自南洋理工大學 S-Lab、上海 AI Lab、北京大學以及香港大學的研究者提出的基于 Flow Matching 技術的全新 3D 生成框架 GaussianAnything,針對現有問題引入了一種交互式的點云結構化潛空間,實現了可擴展的、高質量的 3D 生成,并支持幾何-紋理解耦生成與可控編輯能力。
該方法在 Objaverse 數據集上進行了大規模訓練,并在文本、圖像、點云引導的 3D 生成任務中超越了現有的原生 3D 生成方法。
目前,項目所有模型和測試/訓練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動混合精度 (AMP) 訓練、flash-attention 以及 BF16 等加速技巧。
- 論文項目主頁: https://nirvanalan.github.io/projects/GA/
- 論文代碼: https://github.com/NIRVANALAN/GaussianAnything
- Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
- 個人主頁: https://nirvanalan.github.io/
- 論文標題:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation
研究背景
近年來,以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了快速的進展,在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統一圖片/視頻生成的 LDM 框架的基礎上,近期關于原生 (native) 3D diffusion model 的研究也展現了更優的泛化性,更快的生成速度與更好的可編輯性。
然而,一些關于原生 3D diffusion 模型的設計挑戰仍然存在: (1) 3D VAE 輸入格式,(2) 3D 隱空間結構設計,(3) 3D 輸出表征選擇。
為了解決上述問題,研究者提出基于 Flow Matching 的可控點云結構化隱空間 3D 生成模型 GaussianAnything,支持多模態可控的高效、高質量的 3D 資產生成。
方法
方法概覽圖 (3D VAE 部分):
研究者提出的 3D-aware flow matching 模型主要包含以下三個部分:
- 利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點云結構的 3D 隱空間。
- 在 3D 隱空間中訓練幾何 + 紋理的級聯流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點云引導的 3D 物體生成。
- 使用 3D VAE Decoder 上采樣生成的點云隱變量,并解碼為稠密的表面高斯 (Surfel Gaussian)。
Point-cloud structured 3D VAE
結構化的高效、高質量 3D 壓縮
高效的 3D 物體編碼
首先,和圖片/視頻 LDM 模型類似,3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型,且該模型的效果決定了 3D 生成模型的上限。因此,研究者采取了以下設計來提升原生 3D VAE 的性能:
在 3D 編碼器端,相較于目前普遍使用的基于稠密點云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來作為輸入 3D 物體的等效表達,并聯合 Plucker 相機編碼一起共 15 維信息作為多視圖編碼器的輸入。
為了更好地編碼多視圖輸入,相較于直接使用圖像/視頻領域常見的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 結構來處理多視圖輸入。相較于使用稠密點云作為輸入的方法,本文的 3D VAE Encoder 更高效自然地擁有來自多種輸入格式的豐富的 3D 信息,并能夠同時壓縮顏色與幾何信息。
基于 3D 點云結構化隱空間表達
雖然上述過程已經將 3D 物體壓縮為 multi-view latent , 本文中研究者認為該隱空間并不適合直接用于 3D diffusion 的訓練。首先,
的維度
較高,在高分辨率下訓練開銷巨大。其次,multi-view latent
并非原生的 3D 表達,無法直觀靈活地用于 3D 編輯任務.
為了解決上述缺陷,研究者提出在點云結構的 3D 隱空間表達進行 3D diffusion 的學習。具體地,他們使用 Cross Attention 操作將特征
投影到從輸入物體表面采樣得到的稀疏的 3D 點云 上。最終的點云結構化隱變量
被用于 diffusion 生成模型的訓練。
高質量 3D 高斯上采樣/解碼
在得到點云結構化隱變量后,研究者首先使用 3D Transformer 結構對其進一步解碼,得到深層次特征。
在此基礎上,他們通過 K 個上采樣模塊將低分辨率點云逐步上采樣至高分辨率高斯點云,其中每一個模塊都由 transformer 實現: 。該設計同時支持不同細節層次 (Level of Details) 的 3D 資產輸出,提升了本文方法的實用性。
與此同時,該上采樣設計能夠有效保證較高的高斯利用率 (98% 以上),而傳統多視圖方法 (LGM) 由于視角重疊問題僅有 50% 的高斯利用率。
VAE 模型訓練
本文的 3D VAE 模型可端到端學習,并同時使用 2D Rendering loss 和幾何 loss 共同監督:
其中為多視圖重建損失,
為 VAE KL 約束,
約束物體表面幾何,
用于提升 3D 材質真實性。在實驗數據上,研究者使用目前最大規模的開源 3D 數據集 Objaverse 來進行 VAE 訓練,并公布了 DiT-L/2 尺寸的 VAE 預訓練模型供用戶使用。
Cascaded 3D Generation with Flow Matching
級聯 3D 生成框架
在第二階段,研究者在訓練完成的 3D VAE space 上進行 Flow Matching 訓練。在使用文本/單目圖像作為輸入條件時,他們均使用 Cross Attention 進行條件信息編碼并送入 DiT 框架中進行訓練。同時分為兩個階段單獨學習幾何 (稀疏點云) 和紋理 (點云結構的低維特征)。
具體而言,研究者首先訓練一個稀疏點云上的 Flow Matching 模型:
在此基礎上,研究者將點云輸出作為條件信息進一步輸出細節紋理特征:
該生成范式有效的支持了幾何 - 紋理解耦的生成與編輯。
實驗結果
Image-conditioned 3D Generation | 圖生 3D
考慮到 3D 內容創作更多采用圖片作為參考,本文方法同樣支持在給定單目圖像條件下實現高質量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩定的表現:
數值結果:
可視化結果:
Text-conditioned 3D Generation | 文生 3D
在大規模 3D 數據集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持從文本描述直接生成豐富,帶有細節紋理的高質量 3D 資產,并支持 textured-mesh 的導出。生成過程僅需數秒即可完成。可視化對比結果如下:
在數值指標上,GaussianAnything 同樣優于投稿時最優的原生 text-conditioned 3D 生成方法。
更多內容請參考原論文與項目主頁。