成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

3D 版 SORA 來(lái)了!DreamTech 推出全球首個(gè)原生 3D-DiT 大模型 Direct3D

人工智能 新聞
這是首個(gè)公開發(fā)布的原生三維生成路線的 3D 大模型,通過(guò)采用 3D Diffusion Transformer (3D-DiT),解決了長(zhǎng)期以來(lái)困擾行業(yè)的高質(zhì)量三維內(nèi)容生成難題。

2024 年 5 月,DreamTech 官宣了其高質(zhì)量 3D 生成大模型 Direct3D,并公開了相關(guān)學(xué)術(shù)論文 Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer。

圖片

鏈接:https://arxiv.org/abs/2405.14832

這是首個(gè)公開發(fā)布的原生三維生成路線的 3D 大模型,通過(guò)采用 3D Diffusion Transformer (3D-DiT),解決了長(zhǎng)期以來(lái)困擾行業(yè)的高質(zhì)量三維內(nèi)容生成難題。

圖片

堅(jiān)持原生 3D 技術(shù)路線并取得突破

此前,3D AIGC 通常采用的技術(shù)路線是 2D-to-3D lifting,即通過(guò) 2D 圖像模型升維得到 3D 模型,代表性方案包括早期以 Google 公司提出的 DreamFusion 為代表的 Score Distillation Sampling (SDS) ,以及以 Adobe 公司提出的 Instant3D 為代表的 Large Reconstruction Model (LRM)。雖然 3D 數(shù)據(jù)被逐步引入模型訓(xùn)練過(guò)程以提升質(zhì)量,但 2D 升維技術(shù)存在多頭多面、空腔、遮擋等固有問(wèn)題,現(xiàn)有解決方案難以滿足商業(yè)應(yīng)用對(duì)通用三維生成的要求。

圖片

去年初,業(yè)內(nèi)部分人員開始嘗試原生 3D 路線,即不經(jīng)過(guò)中間的多視角 2D 圖片或者多視角迭代優(yōu)化直接獲得 3D 模型,這條技術(shù)路線可以避開 2D 升維的缺陷,展現(xiàn)了獲取高質(zhì)量、無(wú)畸形、無(wú)殘缺、可商用 3D 內(nèi)容的潛力。原生 3D 路線在原理上相較 2D 升維方法具有顯著的優(yōu)勢(shì),然而,其模型訓(xùn)練及算法開發(fā)一直存在諸多挑戰(zhàn),其中最關(guān)鍵的問(wèn)題有:

  1. 高效的 3D 模型表征:圖像和視頻可以直接通過(guò) 2D/2.5D 的矩陣表征壓縮獲得 latent feature,相比之下, 3D 數(shù)據(jù)拓?fù)鋸?fù)雜、表征維度更高。如何對(duì)三維數(shù)據(jù)進(jìn)行高效壓縮,進(jìn)而對(duì) 3D latent space 進(jìn)行三維數(shù)據(jù)分布的分析與學(xué)習(xí),是一直困擾行業(yè)人員的難題。
  2. 高效的 3D 訓(xùn)練架構(gòu): DiT 架構(gòu)最先應(yīng)用在圖像生成領(lǐng)域并取得了巨大成功,包括 Stable Diffusion 3 (SD3)、Hunyuan-DiT 都采用了 DiT 架構(gòu);在視頻生成領(lǐng)域,OpenAI SORA 采用 DiT 架構(gòu)成功實(shí)現(xiàn)遠(yuǎn)超 Runway 和 Pika 的視頻生成效果;而在 3D 生成領(lǐng)域,受限于復(fù)雜拓?fù)渑c三維表征方法,原始的 DiT 架構(gòu)無(wú)法直接應(yīng)用于 3D mesh 生成。
  3. 高質(zhì)量大規(guī)模 3D 訓(xùn)練數(shù)據(jù): 3D 訓(xùn)練數(shù)據(jù)的質(zhì)量和規(guī)模直接決定了生成模型的質(zhì)量及泛化能力,行業(yè)內(nèi)普遍認(rèn)為至少需要千萬(wàn)規(guī)模的高質(zhì)量 3D 訓(xùn)練數(shù)據(jù)才可以達(dá)到 3D 大模型的訓(xùn)練要求。然而 3D 數(shù)據(jù)在全世界范圍內(nèi)都極其缺乏,盡管有諸如 ObjaverseXL 這樣千萬(wàn)規(guī)模級(jí)別的 3D 訓(xùn)練數(shù)據(jù)集,但其中絕大多數(shù)都是低質(zhì)量的簡(jiǎn)單結(jié)構(gòu),可用的高質(zhì)量 3D 數(shù)據(jù)占比不足 5%。如何獲得足夠數(shù)量的高質(zhì)量的 3D 數(shù)據(jù)是一個(gè)世界性的難題。

圖片

針對(duì)以上核心難題,DreamTech 提出了全球首個(gè)原生 3D-DiT 大模型 Direct3D。通過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證,Direct3D 的三維模型生成質(zhì)量顯著超越了目前主流的 2D 升維方法,這主要得益于以下三點(diǎn):

  1. D3D-VAE: Direct3D 提出了類似 OpenAI SORA 的 3D VAE (Variational Auto-Encoder) 來(lái)提取 3D 數(shù)據(jù)的 latent feature,將 3D 數(shù)據(jù)的表征復(fù)雜度從原本的 N^3 降低到了 n^2 (n<<N) 的緊湊 3D latent space,并通過(guò) decoder 網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)原始 3D mesh 近乎無(wú)損的恢復(fù)。通過(guò)使用 3D latent feature,Direct3D 將原本訓(xùn)練 3D-DiT 的運(yùn)算和內(nèi)存需求量降低了超過(guò)兩個(gè)數(shù)量級(jí),使得大規(guī)模 3D-DiT 模型訓(xùn)練成為了可能。
  2. D3D-DiT: Direct3D 采用了 DiT 架構(gòu)并對(duì)原始 DiT 進(jìn)行了改進(jìn)優(yōu)化,引入了針對(duì)輸入圖像的語(yǔ)義級(jí)與像素級(jí)對(duì)齊模塊,可實(shí)現(xiàn)輸出模型與任意輸入圖像的高度對(duì)齊。
  3. DreamTech 3D 數(shù)據(jù)引擎: Direct3D 在訓(xùn)練中使用了大量高質(zhì)量 3D 數(shù)據(jù),這些數(shù)據(jù)絕大部分由 DreamTech 自研的數(shù)據(jù)合成引擎制作而成。DreamTech 合成引擎建立了數(shù)據(jù)清洗、標(biāo)注等全自動(dòng)數(shù)據(jù)處理流程,已積累生產(chǎn)了超過(guò) 2000 萬(wàn)的高質(zhì)量 3D 數(shù)據(jù),補(bǔ)全了原生 3D 算法落地的最后一塊拼圖。值得一提的是,OpenAI 在 2023 年  Shap-E 和 Point-E 的訓(xùn)練過(guò)程中嘗試使用了百萬(wàn)規(guī)模的 3D 合成數(shù)據(jù),而對(duì)比 OpenAI 的數(shù)據(jù)合成方案,DreamTech 合成的 3D 數(shù)據(jù)規(guī)模更大,且質(zhì)量更高。

采用 DiT 架構(gòu)

3D 領(lǐng)域再次驗(yàn)證 Scaling Law 

技術(shù)架構(gòu)上,Direct3D 采用與 OpenAI SORA 相似的 Diffusion Transformer (DiT)。DiT 架構(gòu)是當(dāng)前最先進(jìn)的 AIGC 大模型架構(gòu),結(jié)合了 Diffusion 與 Transformer 兩大架構(gòu)的優(yōu)勢(shì),滿足可擴(kuò)展(Scalable)的要求,即提供給模型更多的數(shù)據(jù)量及更多的大模型參數(shù)量,DiT 可達(dá)到甚至超越人類的生成質(zhì)量。目前 DiT 技術(shù)的實(shí)踐項(xiàng)目包括圖像生成方向上的 Stable Diffusion 3 (Stablility AI,2024 年 2 月)、Hunyuan-DiT (騰訊,2024 年 5 月),視頻生成方向上的 SORA (OpenAI, 2024 年 2 月),DreamTech 的 Direct3D 則是全球首個(gè)公開的 3D 內(nèi)容生成方向上的 DiT 實(shí)踐。

DiT 架構(gòu)符合并多次驗(yàn)證了 Scaling Law。

圖片

在大語(yǔ)言模型上,Scaling Law 已經(jīng)充分證明了有效性,隨著參數(shù)量和訓(xùn)練數(shù)據(jù)的增加,大模型的智能程度將極大提高;在圖像生成領(lǐng)域上,從 SD1 的參數(shù)量 0.8B 到 SD3 的 8B, Dall-E 3 參數(shù)量 12B,都展示了 Scaling Law 的有效性;在視頻生成領(lǐng)域,SORA 相比 Runway、Pika 等,據(jù)推測(cè)其技術(shù)實(shí)現(xiàn)上主要是將模型架構(gòu)換成了 DiT,以及在模型參數(shù)量與訓(xùn)練數(shù)據(jù)上都提升了一個(gè)數(shù)量級(jí),展示了震驚世界的生成效果,無(wú)論是視頻分辨率、視頻時(shí)長(zhǎng)還是視頻生成質(zhì)量都得到了極大提升。

3D 領(lǐng)域也是如此,Direct3D-1B 向行業(yè)展示了首個(gè)可行的原生 3D-DiT 架構(gòu),利用自研的高質(zhì)量數(shù)據(jù)合成引擎,增加訓(xùn)練數(shù)據(jù)量及增大模型參數(shù)量,生成結(jié)果穩(wěn)步提升,未來(lái) 3D 生成領(lǐng)域?qū)⒂?Direct3D (或其衍生架構(gòu)) 完全取代現(xiàn)有的 LRM 或 SDS 方案。目前,DreamTech 團(tuán)隊(duì)正在穩(wěn)步推進(jìn) Direct3D 的 scale up,計(jì)劃年底前推出 15B 參數(shù)的 Direct3D-XL,同時(shí)將訓(xùn)練模型的高質(zhì)量 3D 數(shù)據(jù)增加 5 倍以上,3D 生成屆時(shí)將迎來(lái)里程碑時(shí)刻。

3D 內(nèi)容生成質(zhì)量達(dá)到商用級(jí)別

隨著 Direct3D 的推出,3D 生成領(lǐng)域大步跨越進(jìn)入了商用時(shí)代。以 3D 打印為例,使用 SDS、LRM 等技術(shù)方案生成的模型都會(huì)存在如下問(wèn)題:

  1. 模型幾何結(jié)構(gòu)扭曲,容易出現(xiàn)多頭多尾;
  2. 模型存在很多尖銳的毛刺;
  3. 表面過(guò)度平滑,缺少細(xì)節(jié);
  4. mesh 面片數(shù)少,精細(xì)結(jié)構(gòu)無(wú)法保證。

這些問(wèn)題的存在導(dǎo)致此前各類方案生成的模型無(wú)法在 3D 打印機(jī)中正常打印,還需要人工進(jìn)行調(diào)整修補(bǔ)。Direct3D 因?yàn)椴扇〉氖窃?3D 技術(shù)路線,訓(xùn)練集中僅使用 3D 數(shù)據(jù),其所生成的 3D 模型質(zhì)量也更接近原始質(zhì)量,完美解決了幾何結(jié)構(gòu)、模型精度、表面細(xì)節(jié)、mesh 面片數(shù)量等核心問(wèn)題。Direct3D 所生成的模型質(zhì)量已經(jīng)超出了家用打印機(jī)的精度上限,只有更高規(guī)格的商用及工業(yè)打印機(jī)才能充分還原所生成模型的精細(xì)度。

圖片

此前, SDS、LRM 等技術(shù)方案受限于 3D 模型特征表達(dá)形式,一般生成的模型 mesh 面片數(shù)都在 5-20 萬(wàn)左右,且很難再提高,然而在商業(yè)使用中,3D 模型的 mesh 面片數(shù)量往往需要達(dá)到 100-500 萬(wàn)以上。Direct3D 提出了更精細(xì)的 3D 特征表達(dá)范式,使得所生成的模型 mesh 面片數(shù)沒(méi)有上限,可以達(dá)到并超過(guò) 1000 萬(wàn),滿足各類商業(yè)場(chǎng)景需要。

隨著 Direct3D 模型參數(shù)量及訓(xùn)練數(shù)據(jù)量的增加,3D 生成可以應(yīng)用到的行業(yè)會(huì)越來(lái)越多,包括萬(wàn)億級(jí)別的游戲、動(dòng)漫行業(yè),預(yù)計(jì)在 2025 年底之前,3D 生成將實(shí)現(xiàn)大部分游戲、動(dòng)畫、影視建模的替代工作,在各行業(yè)大規(guī)模投入使用。

Direct3D 實(shí)踐

基于 Direct3D 大模型,DreamTech 推出了兩款嘗鮮產(chǎn)品,目前已經(jīng)開放申請(qǐng)測(cè)試(點(diǎn)擊閱讀原文,跳轉(zhuǎn):www.neural4d.com)。

其一是面向 C 端用戶的 Animeit!,Animeit! 可將用戶輸入的任意圖片 / 文字對(duì)象轉(zhuǎn)換為二次元風(fēng)格的高質(zhì)量 3D 人物形象,并且 3D 人物具備骨骼節(jié)點(diǎn)以用于動(dòng)作綁定,在 Animeit! 上用戶可以與個(gè)性化的 3D AI 伙伴直接對(duì)話并進(jìn)行動(dòng)作交互。

Animeit! 所生成的二次元角色精細(xì)度極高,臉部輪廓細(xì)節(jié)清晰可辨,手部細(xì)節(jié)凸顯、手指粒粒分明,這是此前的 3D 生成技術(shù)路線無(wú)法達(dá)到的質(zhì)量水平,已可用于二次元社區(qū) MMD 制作。

另一款產(chǎn)品則為面向創(chuàng)作者的 3D 內(nèi)容創(chuàng)作平臺(tái),用戶可以像使用 Midjourney 這類平臺(tái)一樣,通過(guò)文本描述在 1 分鐘之內(nèi)獲得高質(zhì)量 3D 模型,不需要等待長(zhǎng)時(shí)間的 refinement;用戶也可以僅上傳單張圖片,稍作等待即可獲得高質(zhì)量且還原精準(zhǔn)的 3D 模型。


責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2009-09-04 16:10:06

C# Direct3D

2012-11-26 12:51:44

木材3D打

2011-05-26 10:05:07

優(yōu)派投影機(jī)

2011-08-26 14:50:23

2011-05-26 10:08:14

2024-03-25 08:00:00

3DAI

2024-12-10 09:40:00

AI3D模型

2013-09-02 15:46:06

OpenGLWindows

2020-08-26 10:37:21

阿里3D

2019-11-18 10:22:01

深度學(xué)習(xí)編程人工智能

2011-10-06 13:30:45

宏碁投影儀

2025-03-27 09:26:30

2023-12-06 13:36:00

模型數(shù)據(jù)

2015-04-27 15:35:42

Cocos3D場(chǎng)景編輯器

2011-09-22 10:07:52

奧圖碼投影儀

2013-11-18 17:33:48

微軟Windows 8.1應(yīng)用

2011-04-26 14:21:20

3DJVC投影機(jī)

2012-08-13 17:11:37

Silverlight

2023-03-03 21:42:18

鴻蒙

2011-05-03 11:07:46

2D3D麗訊
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久在线看 | 欧美aaaaaaaaaa | 国产aⅴ精品 | 久久视频一区 | 成人性视频免费网站 | 亚洲毛片在线观看 | 久久综合久久久 | 九色综合网 | 亚洲一区不卡在线 | 国产十日韩十欧美 | 成人免费视频网站在线看 | 久久久男人的天堂 | 日韩在线高清 | 国产精品一区久久久 | 国产乱码久久久久久 | 日韩欧美一区二区三区 | 激情五月婷婷综合 | 麻豆久久久久 | 四色成人av永久网址 | 天天天天天操 | 日日干日日 | 天天操天天操 | 97成人精品 | 久久一区二区三区四区 | 亚洲国产aⅴ成人精品无吗 亚洲精品久久久一区二区三区 | 欧美毛片免费观看 | 一区二区三区中文字幕 | 午夜精品一区二区三区在线观看 | 91久久精品一区二区二区 | 国产精品区二区三区日本 | 狠狠色香婷婷久久亚洲精品 | 午夜www | 久久精品91久久久久久再现 | 欧美国产激情 | 免费国产视频 | 成人二区| 国产免费自拍 | 午夜a√ | 国产成人a亚洲精品 | 欧美一区免费 | 久草热播|