成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

ICLR 2025 | 原生3D+流匹配,現有SOTA被GaussianAnything超越

人工智能 新聞
在 ICLR 2025 中,來自南洋理工大學 S-Lab、上海 AI Lab 、北京大學以及香港大學的研究者提出的基于 Flow Matching 技術的全新 3D 生成框架 GaussianAnything。

蘭宇時,MMLab@NTU博士生,導師為 Chen Change Loy。本科畢業于北京郵電大學,目前主要研究興趣為基于神經渲染的 3D 生成模型、3D 重建與編輯。

盡管 3D 內容生成技術取得了顯著進展,現有方法仍在輸入格式、潛空間設計和輸出表示上面臨挑戰。

在 ICLR 2025 中,來自南洋理工大學 S-Lab、上海 AI Lab、北京大學以及香港大學的研究者提出的基于 Flow Matching 技術的全新 3D 生成框架 GaussianAnything,針對現有問題引入了一種交互式的點云結構化潛空間,實現了可擴展的、高質量的 3D 生成,并支持幾何-紋理解耦生成與可控編輯能力。

該方法在 Objaverse 數據集上進行了大規模訓練,并在文本、圖像、點云引導的 3D 生成任務中超越了現有的原生 3D 生成方法。

目前,項目所有模型和測試/訓練代碼均已全面開源至 Github/Huggingface, 并支持多卡、自動混合精度 (AMP) 訓練、flash-attention 以及 BF16 等加速技巧。

圖片

  • 論文項目主頁: https://nirvanalan.github.io/projects/GA/
  • 論文代碼: https://github.com/NIRVANALAN/GaussianAnything
  • Gradio demo 地址: https://huggingface.co/spaces/yslan/GaussianAnything-AIGC3D
  • 個人主頁: https://nirvanalan.github.io/
  • 論文標題:GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

圖片

研究背景

近年來,以可微渲染和生成模型為核心的神經渲染技術 (Neural Rendering) 取得了快速的進展,在新視角合成、3D 物體生成和編輯上取得了令人滿意的效果。在統一圖片/視頻生成的 LDM 框架的基礎上,近期關于原生 (native) 3D diffusion model 的研究也展現了更優的泛化性,更快的生成速度與更好的可編輯性。

然而,一些關于原生 3D diffusion 模型的設計挑戰仍然存在: (1) 3D VAE 輸入格式,(2) 3D 隱空間結構設計,(3) 3D 輸出表征選擇。

為了解決上述問題,研究者提出基于 Flow Matching 的可控點云結構化隱空間 3D 生成模型 GaussianAnything,支持多模態可控的高效、高質量的 3D 資產生成。

方法

方法概覽圖 (3D VAE 部分):

圖片

研究者提出的 3D-aware flow matching 模型主要包含以下三個部分:

  1. 利用編碼器 (3D VAE Encoder) 將 3D 物體的 RGB-D (epth)-N (ormal) 多視圖渲染圖壓縮到點云結構的 3D 隱空間。
  2. 在 3D 隱空間中訓練幾何 + 紋理的級聯流匹配模型 (Flow Matching model), 支持圖片、文字、和稀疏點云引導的 3D 物體生成。
  3. 使用 3D VAE Decoder 上采樣生成的點云隱變量,并解碼為稠密的表面高斯 (Surfel Gaussian)。

Point-cloud structured 3D VAE

結構化的高效、高質量 3D 壓縮

高效的 3D 物體編碼

首先,和圖片/視頻 LDM 模型類似,3D 隱空間生成模型也同樣需要與之適配的 3D VAE 模型,且該模型的效果決定了 3D 生成模型的上限。因此,研究者采取了以下設計來提升原生 3D VAE 的性能:

在 3D 編碼器端,相較于目前普遍使用的基于稠密點云 (dense point cloud) 的方法 (CLAY [1], Craftsman [2]), 研究者選擇使用多視圖 RGB-D (epth)-N (ormal) 渲染圖來作為輸入 3D 物體的等效表達,并聯合 Plucker 相機編碼一起共 15 維信息圖片作為多視圖編碼器的輸入。

為了更好地編碼多視圖輸入,相較于直接使用圖像/視頻領域常見的 U-Net 模型,研究者使用基于 3D-attention 的 Transformer [3] 結構來處理多視圖輸入圖片相較于使用稠密點云作為輸入的方法,本文的 3D VAE Encoder 更高效自然地擁有來自多種輸入格式的豐富的 3D 信息,并能夠同時壓縮顏色與幾何信息。

基于 3D 點云結構化隱空間表達

雖然上述過程已經將 3D 物體壓縮為 multi-view latent圖片 , 本文中研究者認為該隱空間并不適合直接用于 3D diffusion 的訓練。首先,圖片的維度圖片較高,在高分辨率下訓練開銷巨大。其次,multi-view latent 圖片并非原生的 3D 表達,無法直觀靈活地用于 3D 編輯任務.

為了解決上述缺陷,研究者提出在點云結構的 3D 隱空間表達進行 3D diffusion 的學習。具體地,他們使用 Cross Attention 操作圖片將特征圖片投影到從輸入物體表面采樣得到的稀疏的 3D 點云 上。最終的點云結構化隱變量圖片被用于 diffusion 生成模型的訓練。

高質量 3D 高斯上采樣/解碼

在得到點云結構化隱變量后,研究者首先使用 3D Transformer 結構對其進一步解碼圖片,得到深層次特征。

在此基礎上,他們通過 K 個上采樣模塊將低分辨率點云逐步上采樣至高分辨率高斯點云,其中每一個模塊都由 transformer 實現: 圖片該設計同時支持不同細節層次 (Level of Details) 的 3D 資產輸出,提升了本文方法的實用性。

與此同時,該上采樣設計能夠有效保證較高的高斯利用率 (98% 以上),而傳統多視圖方法 (LGM) 由于視角重疊問題僅有 50% 的高斯利用率。

VAE 模型訓練

本文的 3D VAE 模型可端到端學習,并同時使用 2D Rendering loss 和幾何 loss 共同監督:

圖片

其中圖片為多視圖重建損失,圖片為 VAE KL 約束,圖片約束物體表面幾何,圖片用于提升 3D 材質真實性。在實驗數據上,研究者使用目前最大規模的開源 3D 數據集 Objaverse 來進行 VAE 訓練,并公布了 DiT-L/2 尺寸的 VAE 預訓練模型供用戶使用。

Cascaded 3D Generation with Flow Matching

級聯 3D 生成框架

圖片

在第二階段,研究者在訓練完成的 3D VAE space 上進行 Flow Matching 訓練。在使用文本/單目圖像作為輸入條件時,他們均使用 Cross Attention 進行條件信息編碼并送入 DiT 框架中進行訓練。同時分為兩個階段單獨學習幾何 (稀疏點云) 和紋理 (點云結構的低維特征)。

具體而言,研究者首先訓練一個稀疏點云上的 Flow Matching 模型:

圖片

在此基礎上,研究者將點云輸出作為條件信息進一步輸出細節紋理特征:

圖片

該生成范式有效的支持了幾何 - 紋理解耦的生成與編輯。

實驗結果

Image-conditioned 3D Generation | 圖生 3D

考慮到 3D 內容創作更多采用圖片作為參考,本文方法同樣支持在給定單目圖像條件下實現高質量 3D 生成。相比于多視圖生成 + 重建的兩階段方法,本文方案在 3D 生成效果、多樣性以及 3D 一致性上有更穩定的表現:

數值結果:

圖片

可視化結果:

圖片

Text-conditioned 3D Generation | 文生 3D

在大規模 3D 數據集 Objaverse 上,研究者基于 Flow Matching 的 3D 生成模型支持從文本描述直接生成豐富,帶有細節紋理的高質量 3D 資產,并支持 textured-mesh 的導出。生成過程僅需數秒即可完成。可視化對比結果如下:

圖片

在數值指標上,GaussianAnything 同樣優于投稿時最優的原生 text-conditioned 3D 生成方法。

圖片

更多內容請參考原論文與項目主頁。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-04-24 11:23:11

3D檢測雷達

2025-03-10 08:25:00

機器人AI模型

2024-04-23 09:30:07

3D模型

2024-03-27 10:20:31

模型場景

2012-11-26 12:39:07

商教投影機

2025-03-03 08:50:00

AI目標檢測模型

2025-03-21 09:30:42

2025-02-27 13:00:00

2025-04-25 09:05:00

2025-02-07 15:00:00

語音識別算法AI

2025-02-21 09:35:00

3DAI生成

2023-11-02 09:22:13

自動駕駛框架

2025-02-19 14:10:00

AI3D生成

2024-06-17 12:33:34

2022-03-07 10:04:09

機器學習訓練模型

2024-10-15 13:07:38

2025-02-14 10:56:58

2018-03-15 07:12:18

區塊鏈3D打印分布式

2025-04-28 12:28:27

2025-05-28 00:00:00

MIT3D形狀
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩欧美精品在线 | 日本三级电影在线看 | 天堂av影院| 亚洲aⅴ | 天天干狠狠 | 国产福利在线 | 中文字幕第一页在线 | 亚洲理论在线观看电影 | 国产综合久久久久久鬼色 | 日韩一区二区三区视频 | 欧美日韩视频 | 蜜桃av鲁一鲁一鲁一鲁 | 亚洲美女av网站 | 特黄毛片 | 久久美国| 精品欧美一区二区久久久伦 | 欧美日韩精品一区二区 | 二区久久| 99在线资源 | 精品久 | 日本久久www成人免 成人久久久久 | 国产三区av | 亚洲天堂中文字幕 | 性欧美xxxx | 热久久性 | 伊人伊成久久人综合网站 | 国产99免费视频 | www.亚洲一区 | 国产精品久久国产精品99 | 中文字幕亚洲视频 | 最新免费av网站 | 久久不卡| 午夜小视频在线观看 | 四虎影视| www四虎com| 亚洲欧美日韩高清 | 日批免费在线观看 | 免费高潮视频95在线观看网站 | 日韩av免费在线观看 | 激情亚洲 | 久久精品成人热国产成 |