ICLR 2025 | 原生3D+流匹配，現有SOTA被GaussianAnything超越

作者：機器之心 2025-03-11 13:13:28

在 ICLR 2025 中，來自南洋理工大學 S-Lab、上海 AI Lab 、北京大學以及香港大學的研究者提出的基于 Flow Matching 技術的全新 3D 生成框架 GaussianAnything。

蘭宇時，MMLab@NTU博士生，導師為 Chen Change Loy。本科畢業于北京郵電大學，目前主要研究興趣為基于神經渲染的 3D 生成模型、3D 重建與編輯。

盡管 3D 內容生成技術取得了顯著進展，現有方法仍在輸入格式、潛空間設計和輸出表示上面臨挑戰。

在 ICLR 2025 中，來自南洋理工大學 S-Lab、上海 AI Lab、北京大學以及香港大學的研究者提出的基于 Flow Matching 技術的全新 3D 生成框架 GaussianAnything，針對現有問題引入了一種交互式的點云結構化潛空間，實現了可擴展的、高質量的 3D 生成，并支持幾何-紋理解耦生成與可控編輯能力。

該方法在 Objaverse 數據集上進行了大規模訓練，并在文本、圖像、點云引導的 3D 生成任務中超越了現有的原生 3D 生成方法。

目前，項目所有模型和測試/訓練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動混合精度 (AMP) 訓練、flash-attention 以及 BF16 等加速技巧。

論文項目主頁: https://nirvanalan.github.io/projects/GA/
論文代碼: https://github.com/NIRVANALAN/GaussianAnything
Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
個人主頁: https://nirvanalan.github.io/
論文標題：GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

研究背景

近年來，以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了快速的進展，在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統一圖片/視頻生成的 LDM 框架的基礎上，近期關于原生 (native) 3D diffusion model 的研究也展現了更優的泛化性，更快的生成速度與更好的可編輯性。

然而，一些關于原生 3D diffusion 模型的設計挑戰仍然存在: (1) 3D VAE 輸入格式，(2) 3D 隱空間結構設計，(3) 3D 輸出表征選擇。

為了解決上述問題，研究者提出基于 Flow Matching 的可控點云結構化隱空間 3D 生成模型 GaussianAnything，支持多模態可控的高效、高質量的 3D 資產生成。

方法

方法概覽圖 (3D VAE 部分)：

研究者提出的 3D-aware flow matching 模型主要包含以下三個部分:

利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點云結構的 3D 隱空間。
在 3D 隱空間中訓練幾何 + 紋理的級聯流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點云引導的 3D 物體生成。
使用 3D VAE Decoder 上采樣生成的點云隱變量，并解碼為稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

結構化的高效、高質量 3D 壓縮

高效的 3D 物體編碼

首先，和圖片/視頻 LDM 模型類似，3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型，且該模型的效果決定了 3D 生成模型的上限。因此，研究者采取了以下設計來提升原生 3D VAE 的性能:

在 3D 編碼器端，相較于目前普遍使用的基于稠密點云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來作為輸入 3D 物體的等效表達，并聯合 Plucker 相機編碼一起共 15 維信息作為多視圖編碼器的輸入。

為了更好地編碼多視圖輸入，相較于直接使用圖像/視頻領域常見的 U-Net 模型，研究者使用基于 3D-attention 的 Transformer [3] 結構來處理多視圖輸入。相較于使用稠密點云作為輸入的方法，本文的 3D VAE Encoder 更高效自然地擁有來自多種輸入格式的豐富的 3D 信息，并能夠同時壓縮顏色與幾何信息。

基于 3D 點云結構化隱空間表達

雖然上述過程已經將 3D 物體壓縮為 multi-view latent , 本文中研究者認為該隱空間并不適合直接用于 3D diffusion 的訓練。首先，的維度較高，在高分辨率下訓練開銷巨大。其次，multi-view latent 并非原生的 3D 表達，無法直觀靈活地用于 3D 編輯任務.

為了解決上述缺陷，研究者提出在點云結構的 3D 隱空間表達進行 3D diffusion 的學習。具體地，他們使用 Cross Attention 操作將特征投影到從輸入物體表面采樣得到的稀疏的 3D 點云上。最終的點云結構化隱變量被用于 diffusion 生成模型的訓練。

高質量 3D 高斯上采樣/解碼

在得到點云結構化隱變量后，研究者首先使用 3D Transformer 結構對其進一步解碼，得到深層次特征。

在此基礎上，他們通過 K 個上采樣模塊將低分辨率點云逐步上采樣至高分辨率高斯點云，其中每一個模塊都由 transformer 實現: 。該設計同時支持不同細節層次 (Level of Details) 的 3D 資產輸出，提升了本文方法的實用性。

與此同時，該上采樣設計能夠有效保證較高的高斯利用率 (98% 以上)，而傳統多視圖方法 (LGM) 由于視角重疊問題僅有 50% 的高斯利用率。

VAE 模型訓練

本文的 3D VAE 模型可端到端學習，并同時使用 2D Rendering loss 和幾何 loss 共同監督:

其中為多視圖重建損失，為 VAE KL 約束，約束物體表面幾何，用于提升 3D 材質真實性。在實驗數據上，研究者使用目前最大規模的開源 3D 數據集 Objaverse 來進行 VAE 訓練，并公布了 DiT-L/2 尺寸的 VAE 預訓練模型供用戶使用。

Cascaded 3D Generation with Flow Matching

級聯 3D 生成框架

在第二階段，研究者在訓練完成的 3D VAE space 上進行 Flow Matching 訓練。在使用文本/單目圖像作為輸入條件時，他們均使用 Cross Attention 進行條件信息編碼并送入 DiT 框架中進行訓練。同時分為兩個階段單獨學習幾何 (稀疏點云) 和紋理 (點云結構的低維特征)。

具體而言，研究者首先訓練一個稀疏點云上的 Flow Matching 模型：