成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025滿分論文:開源三維生成框架Craftsman3D&Dora革新三維資產生成與編輯

人工智能 新聞
本文提出的 Dora-VAE,創新性地將顯著邊緣采樣算法與雙交叉注意力機制相結合,極大地提升了三維變分自編碼器(3D-VAE)的重建質量與壓縮性能。

香港科技大學譚平教授團隊在 CVPR 2025 發表兩項三維生成技術框架,核心代碼全部開源,助力三維生成技術的開放與進步。其中 Craftman3D 獲得三個評委一致滿分,并被全球多家知名企業如全球最大的多人在線游戲創作平臺 Roblox, 騰訊混元 Hunyuan3D-2,XR 實驗室的 XR-3DGen 和海外初創公司 CSM 的 3D 創作平臺等重量級項目的引用與認可。

相關技術已融入光影煥像的三維生成平臺及產品,用戶只需簡單操作,就能開啟專屬三維創作之旅。

  • 光影煥像 3D 生成平臺(主站):https://triverse.ai/zh-cn/
  • 光影煥像 3D 生成平臺(國內備用):https://triverse.lightillusions.com/zh-cn/

本文中 Craftman3D 的共同一作李威宇、劉嘉瑞和閻鴻禹均為香港科技大學博士研究生。Dora 的第一作者為香港科技大學博士陳銳。均為香港科技大學譚平教授組的在讀博士生。

三維內容的創建對于游戲、影視、AR/VR 乃至具身智能的環境仿真中具備關鍵作用。不過,傳統三維建模方式要求建模者掌握大量專業知識,且需投入大量人工操作,這使得建模過程極為耗時,極具挑戰性,對于非專業用戶而言更是如此。過高的時間與人力成本,已然成為限制這些領域發展的主要瓶頸。近年來,基于 AI 的三維內容生成技術逐步改變了這一局面。借助自動化生成技術,三維內容創建的門檻大幅降低,讓更廣泛的用戶群體能夠高效地構建三維數字內容。

當前原生三維生成模型主要由兩部分構成:一是 3D-VAE(3D Variational Auto Encoder)變分自編碼器,它通過 Encoder 網絡將三維模型壓縮編碼至潛在空間(latent space),并通過 Decoder 網絡解碼重構出三維模型;二是基于 3D-VAE 構建的潛在擴散模型(latent diffusion model)用于處理文本或圖像輸入的三維模型生成。三維生成大模型所呈現的細節上限,在很大程度上取決于 3D-VAE 對三維幾何的編碼與重建能力。為提升三維模型編解碼過程中的幾何細節豐富度,香港科技大學譚平團隊聯合字節跳動豆包大模型團隊與光影煥像團隊,共同提出了 Dora 模型來改進三維原生 VAE。

在 3D-VAE 模型的基礎上,香港科技大學與光影煥像團隊進一步提出了 Craftsman3D 算法方案,該方案借鑒了傳統建模流程,能夠快速生成高質量的 3D 模型,以進一步生成滿足設計師對高質量三維模型的生成要求。此方法在 CVPR 中獲得審稿人一致滿分評價,它融合了原生 3D 大模型以及實時幾何細節優化兩大部分:首先由原生三維大模型生成初始模型,隨后通過實時可交互幾何細化操作,短短幾十秒內即可生成具備高質量幾何細節的三維模型。

圖片

  • Dora 開源代碼:https://github.com/Seed3D/Dora/
  • Dora 項目主頁:https://aruichen.github.io/Dora/

本文提出的 Dora-VAE,創新性地將顯著邊緣采樣算法與雙交叉注意力機制相結合,極大地提升了三維變分自編碼器(3D-VAE)的重建質量與壓縮性能。在訓練階段,該方法能夠精準識別出具有較高幾何復雜性的區域,并對其優先處理,從而有效改善了對精細幾何特征的保留情況,讓變分自編碼器能夠著重關注那些傳統均勻采樣方式容易忽視的關鍵幾何細節。在實現高質量重建的同時,相較于當前 SOTA 方法(Xcube),Dora-VAE 在 3D 形狀壓縮率方面實現了超過 8 倍的提升 。

當前,三維變分自編碼器的運行機制是:通過在三維網格表面進行點采樣來完成形狀編碼,而后利用解碼器對原始三維網格進行重建。經過深入且細致的研究,研究人員察覺現有方法普遍采用均勻采樣(uniform sampling)策略,從而導致重建性能受限。為了驗證這一發現,研究人員選取了具有復雜幾何細節的鍵盤(如下圖 (a) 所示)作為實驗對象,對其進行點云采樣,并將不同采樣策略在多種采樣密度下的點云分布情況進行了可視化呈現(如下圖 (b)(c) 所示)。實驗結果清晰地顯示:即便提升了采樣率,采用均勻采樣方式(如下圖 (b) 所示)依舊無法有效地保留鍵盤按鍵等銳利特征(sharp feature)。這一簡潔直觀的實驗有力地證實了,均勻采樣在本質上對幾何細節的捕捉能力形成了制約,而這種制約進一步對變分自編碼器的重建精度以及所訓練擴散模型的生成質量產生了不良影響。

圖片

受重要性采樣理念的啟發,研究人員設計了顯著邊緣采樣(Sharp Edge Sampling, SES)算法,該算法能夠基于幾何顯著性實現自適應點采樣。具體而言,SES 算法首先識別網格中具有顯著二面角的邊緣(這些邊緣所在區域往往對應高幾何復雜度區域),并沿顯著區域進行點采樣。與此同時,為了保證三維模型表面的覆蓋完整性,研究人員依舊會進行表面均勻點采樣。因此,最終生成的采樣點云圖片由表面均勻采樣點圖片與顯著區域采樣點圖片聯合構成:圖片

圖片


顯著邊緣檢測(Salient Edges Detection)


給定一個三維網格,研究人員通過計算相鄰面間的二面角獲得顯著邊緣集合圖片。對于每條由相鄰面圖片圖片共享的邊圖片,研究人員通過下式計算其二面角圖片


圖片

其中圖片圖片分別表示面圖片圖片的法向量。顯著邊緣集合圖片包含所有二面角超過預設閾值圖片的邊:圖片,令圖片表示顯著邊緣的數量。

顯著點采樣(Salient Points Sampling)

針對每條顯著邊緣圖片,研究人員將其兩個頂點圖片圖片納入顯著頂點集合圖片,相連邊緣產生的重復頂點僅保留一份:圖片。令圖片表示該集合中唯一幾何頂點的數量。給定顯著區域目標點數圖片,當顯著頂點過多時,通過最遠點采樣法 (Farthest Point Sampling, FPS) 進行頂點下采樣;當顯著頂點不足,通過對顯著邊緣增加采樣來補充數據,從而得到顯著區域采樣點圖片

圖片

基于 SES 算法,研究人員提出 Dora-VAE,在保持緊湊潛在表征的同時實現了高保真度的三維重建。為充分利用 SES 采樣獲得的富含細節的點云數據,研究人員設計了雙交叉注意力編碼架構,該架構在特征編碼過程中能有效融合顯著區域與均勻區域的特征表達。具體而言,研究人員沿用 3DShape2VecSet 的做法,首先分別對均勻采樣點云圖片和顯著區域采樣點云圖片進行最遠點下采樣:

圖片

其中圖片圖片分別表示來自均勻采樣點云圖片和顯著區域采樣點云圖片的下采樣點云數量。研究人員隨后分別計算均勻點與顯著點的交叉注意力特征:

圖片

最終點云特征 C 通過融合雙向注意力計算結果獲得:圖片

遵循 3DShape2VecSet,研究人員利用特征 C 通過自注意力模塊預測占據區域圖片,整個模型圖片通過最小化均方誤差損失進行優化:

圖片

研究人員通過三個指標評估重建質量:使用 1M 采樣點對比輸入網格與不同 3D VAEs 解碼結果的差異,包括:1) F-score;2) 倒角距離 (CD);3) 尖銳法線誤差 (SNE)。為公平比較,研究人員同時給出潛在編碼長度 (LCL)。結果表明,Dora-VAE 在 Dora-bench 中所有的指標都達到了最佳。

圖片

  • Craftman3d開源代碼:https://github.com/wyysf-98/CraftsMan3D/
  • Craftman3d項目主頁:https://craftsman3d.github.io/

在訓練 3D-VAE 的基礎上,CraftsMan3D 通過汲取傳統建模流程的經驗,精心設計了兩階段的技術方案:第一階段使用原生三維大模型進行初始模型生成。算法先使用 multi-view image diffusion 進行多視圖生成,然后將多視圖輸入到 3D-DiT 擴散模型中來生成拓撲規則的幾何和紋理。第二階段為幾何細化階段,團隊使用法向圖超分的方案實現高質量法向估計,然后通過可微渲染實現法線圖引導的幾何細節優化。

圖片

階段一:基于 DiT 的原生三維大模型

團隊提出了將三維擴散模型與多視圖擴散模型相結合的原生三維生成方案。具體來說,算法使用 3D-VAE 將幾何壓縮到潛在空間,然后使用 3D-DiT 擴散模型在潛在空間進行生成。對于單個參考圖像或文本提示輸入,首先將其輸入到多視圖擴散模型中以獲得多視圖圖像作為三維擴散模型的輸入,然后使用三維擴散模型從中學習生成三維幾何圖形。

團隊設計了完善的數據篩選 - 幾何水密化 - 渲染等數據處理流程,形成了強大的數據處理平臺以支撐原生三維大模型的訓練數據。

圖片

階段二:高質量幾何細節優化

受限于 3D 大模型常用的隱式表達方案和 VAE 的壓縮特性,原生三維生成的物體往往難以具備很高頻的幾何細節。因此,論文提出了第二階段交互式幾何細節優化,通過法相貼圖生成和反向 “烘焙” 優化的方式捕捉高頻的幾何細節,從而產生高質量的三維資產。

圖片

具體來說,該部分通過基于表面法線貼圖的擴散模型來實現法線圖細節增強,并通過顯式三角網格優化增加三維幾何細節。團隊在原版 stable diffusion 的基礎上使用法線數據集微調,并借助 tile 插件實現法相貼圖的超分辨率生成。通過這種方式模型既擁有幾何細節生成能力,還保留了原有的泛化能力。進一步基于法線貼圖優化直接優化三維網格頂點,只需 10 秒,即可在用戶繪制的區域添加幾何細節,并完全保持其他區域的幾何形狀。

圖片

該技術還支持趣味擴展功能:以人物照片為輸入,可生成與輸入圖像面部特征匹配的 3D 模型,實現 3D 資產快速換臉。

圖片


使用Craftman3D三維生成技術方案,普通用戶無需復雜操作即可快速搭建出精美的三維模型和場景。無論是游戲開發、影視制作還是建筑室內設計、具身感知虛擬場景,各類創意都能輕松實現。如下圖所示,場景中的所有物體均由 Craftman3D 自動生成。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-14 12:03:29

2024-06-17 12:33:34

2023-08-01 14:14:14

2024-10-06 13:00:00

AI模型

2024-08-14 16:30:00

3D AIGC

2025-03-27 09:26:30

2021-05-10 21:34:04

騰訊云存儲

2021-12-22 10:04:11

模型人工智能3D

2010-09-03 09:28:30

2025-03-24 13:32:43

2022-05-20 15:28:25

3D算法

2023-06-13 08:00:00

Python開源Open3D庫

2023-08-05 13:53:34

2013-08-08 13:31:51

歐特克

2009-11-10 12:55:26

VB.NET三維模型

2023-06-08 14:09:00

研究訓練

2013-04-17 16:22:53

2023-09-12 11:30:44

自動駕駛技術

2009-11-10 12:48:17

VB.NET三維模型

2024-12-12 08:28:11

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日夜精品视频 | 国产在线网站 | 成人二区 | 欧美电影在线观看网站 | 亚洲夜夜爽 | 午夜亚洲 | 五月综合激情网 | 在线免费观看亚洲 | 国产精品国产a级 | 9久久精品 | 欧美亚洲日本 | 国产一二三区精品视频 | 中文字幕亚洲欧美日韩在线不卡 | 特级黄色毛片 | 国产精品一区二区在线播放 | 视频在线观看亚洲 | 日本黄色免费片 | 美女视频一区 | 欧美一区二区在线观看 | 国产免费a| 久久精品视频亚洲 | 91在线看| 青青草国产在线观看 | 一区二区三区视频在线 | 精品99爱视频在线观看 | 亚洲在线免费 | 99久9| 欧美日韩国产精品一区二区 | 亚洲视频一区 | 全部免费毛片在线播放网站 | 九九色综合 | 免费观看国产视频在线 | 久久久国产精品一区 | 亚洲一区二区av | 亚洲国产aⅴ成人精品无吗 欧美激情欧美激情在线五月 | 久久与欧美 | 欧美精品在线免费 | 成人综合伊人 | 国产综合精品一区二区三区 | 男人的天堂久久 | 在线精品一区二区 |