影視級(jí)3D生成新王：Direct3D-S2全面開(kāi)源！8塊GPU超越閉源登頂HF

2025-06-09 15:25:43

3D生成模型高光時(shí)刻來(lái)臨！DreamTech聯(lián)手南大、復(fù)旦、牛津發(fā)布的Direct3D-S2登頂HuggingFace熱榜。僅用8塊GPU訓(xùn)練，效果超閉源模型，直指影視級(jí)精細(xì)度。

HuggingFace是全球最大的開(kāi)源大模型社區(qū)，匯集了來(lái)自世界各地的上百個(gè)開(kāi)源大模型。

其趨勢(shì)榜（HuggingFace Trending）展示了各類(lèi)開(kāi)源大模型在全球開(kāi)發(fā)者中的受歡迎程度，DeepSeek、Qwen等大模型就因曾登頂HuggingFace榜單而獲得了全球開(kāi)發(fā)者的關(guān)注與熱議。可以說(shuō)，這是當(dāng)前最具權(quán)威性的榜單之一。

最近一周，由DreamTech推出的Direct3D-S2 3D大模型登頂HuggingFace 3D modeling應(yīng)用趨勢(shì)榜，并在涵蓋文本、圖像和視頻的綜合榜單上躍居至第4位。

這個(gè)大模型不僅贏得了海外知名AI精選博主AK (@_akhaliq) 的推薦，還在全球3D及AI領(lǐng)域的開(kāi)發(fā)者和愛(ài)好者中引起了廣泛關(guān)注。

Direct3D-S2僅需8張GPU訓(xùn)練，生成效果遠(yuǎn)超數(shù)百?gòu)圙PU訓(xùn)練的閉源商用模型，訓(xùn)練效率提升近20倍，相比現(xiàn)有的大模型，token吞吐量從4K提升到256K，直接提高64倍，目標(biāo)直指影視級(jí)別高精細(xì)度3D模型生成。

許多開(kāi)發(fā)者表示Direct3D-S2就是「最強(qiáng)開(kāi)源3D大模型」，直呼「3D生成的概念神」。

為什么一個(gè)3D大模型能在AI行業(yè)引起如此高的關(guān)注度呢？

從DreamTech團(tuán)隊(duì)發(fā)布的論文中，我們或許能找到答案。Direct3D-S2所實(shí)現(xiàn)的突破性進(jìn)展，不僅提升了3D模型的精度與效率，也開(kāi)啟了新的應(yīng)用場(chǎng)景和技術(shù)可能性。

這不僅是對(duì)技術(shù)邊界的探索，也是其在AI領(lǐng)域創(chuàng)新能力的一次重要展示。

論文地址：https://arxiv.org/pdf/2505.17412

從游戲角色、電影特效，到VR體驗(yàn)和3D打印產(chǎn)品，背后都離不開(kāi)一個(gè)關(guān)鍵技術(shù)——3D建模。它就是數(shù)字世界的基礎(chǔ)手藝，但傳統(tǒng)建模過(guò)程復(fù)雜又耗時(shí)。

AI正在改變這一切。近年來(lái)，越來(lái)越多的公司開(kāi)始用來(lái)替代人工建模，AI不僅更快，效果也越來(lái)越逼真。微軟、Meta、騰訊、字節(jié)跳動(dòng)等行業(yè)巨頭，以及眾多創(chuàng)新企業(yè)紛紛發(fā)力，推出了各種AI 3D生成工具，掀起了一場(chǎng)技術(shù)熱潮。

而在所有探索中，如何讓AI生成的3D模型更清晰、更精細(xì)，已經(jīng)成為大家最關(guān)心的問(wèn)題之一。

為什么高分辨率的3D生成

如此具有挑戰(zhàn)性？

現(xiàn)在AI已經(jīng)能輕松生成高清的圖片和視頻了，但為什么利用AI進(jìn)行高質(zhì)量的3D建模卻仍舊這么難？這背后有兩個(gè)關(guān)鍵原因。

3D數(shù)據(jù)比2D復(fù)雜得多。圖像和視頻只是平面信息，而3D模型要完整地表達(dá)一個(gè)物體在空間中的形狀，它的細(xì)節(jié)是「立方級(jí)」的復(fù)雜度。也就是說(shuō)，分辨率越高，需要處理的token數(shù)量會(huì)呈立方倍增長(zhǎng)。比如，把分辨率從128提升到256，token數(shù)量的差別不是2倍，而是23=8倍。
AI模型本身的計(jì)算壓力也很大。目前主流的AI架構(gòu)Transformer在處理大量細(xì)節(jié)時(shí)會(huì)變得特別吃力，Transoform核心的Attention（注意力）機(jī)制的運(yùn)算復(fù)雜度是隨著數(shù)據(jù)token數(shù)量呈平方增長(zhǎng)的。這意味著，當(dāng)你想要更精細(xì)的模型時(shí)，算力需求幾乎是指數(shù)爆炸式上升。

舉個(gè)例子：即使是分辨率為256級(jí)的3D生成任務(wù)，通常也需要?jiǎng)佑?2至64塊高端GPU進(jìn)行訓(xùn)練。

而如果要生成1024級(jí)分辨率甚至影視級(jí)別超高精細(xì)度的3D任務(wù)，則需要幾千甚至上萬(wàn)塊GPU訓(xùn)練。這種訓(xùn)練方式成本高昂，技術(shù)挑戰(zhàn)也非常大。

如何在有限的資源下實(shí)現(xiàn)高質(zhì)量的3D生成，已經(jīng)成為整個(gè)行業(yè)都在攻克的核心難題。

DreamTech聯(lián)合南京大學(xué)、牛津大學(xué)提出了Direct3D-S2，解決了高分辨率3D生成的瓶頸問(wèn)題。

空間稀疏注意力機(jī)制

在Direct3D-S2中，DreamTech團(tuán)隊(duì)提出了一項(xiàng)核心創(chuàng)新——空間稀疏注意力機(jī)制（Spatial Sparse Attention, SSA）。

這一機(jī)制專(zhuān)為解決當(dāng)前Diffusion Transformer（DiT）在處理高分辨率3D生成時(shí)效率低、精細(xì)度差的問(wèn)題而設(shè)計(jì)，堪稱(chēng)3D生成領(lǐng)域的效率引擎。

優(yōu)點(diǎn)一：支持超大規(guī)模體素生成

通過(guò)自適應(yīng)3D空間分塊策略，SSA可以讓模型只關(guān)注真正重要的體素區(qū)域，避免大量冗余計(jì)算。

即使面對(duì)10243的超高分辨率，模型也能輕松處理數(shù)十萬(wàn)級(jí)tokens，token吞吐量提高64倍！

優(yōu)點(diǎn)二：保留幾何一致性

在大幅提高效率的同時(shí)，SSA并沒(méi)有犧牲質(zhì)量。

它基于空間幾何連續(xù)性概率分布對(duì)tokens進(jìn)行智能分塊，確保局部結(jié)構(gòu)完整、表面平滑自然，避免了傳統(tǒng)方法中常見(jiàn)的「斷裂」或「扭曲」現(xiàn)象。

稀疏SDF VAE以及稀疏DiT

除了SSA注意力機(jī)制的創(chuàng)新，Direct3D-S2還引入了適配SSA的全新架構(gòu)，包括稀疏SDF VAE和稀疏DiT，實(shí)現(xiàn)了從輸入到輸出的全流程效率提升。

端到端稀疏SDF自編碼器

Direct3D-S2首次將3D生成表征統(tǒng)一到SDF（符號(hào)距離函數(shù)）體素場(chǎng)中，無(wú)需依賴(lài)傳統(tǒng)的點(diǎn)云、多視角圖像或隱式空間等復(fù)雜轉(zhuǎn)換過(guò)程。

簡(jiǎn)化了訓(xùn)練流程，將模型訓(xùn)練的穩(wěn)定性和訓(xùn)練速度提升到極致。

多分辨率支持+稀疏條件機(jī)制

Direct3D-S2支持基于3D幾何空間的multi-scale訓(xùn)練與推理，僅用8塊A100 GPU，2天即可完成訓(xùn)練，整體效率提升4倍以上。

同時(shí)，借助稀疏條件機(jī)制，模型能聚焦于前景物體的關(guān)鍵區(qū)域，實(shí)現(xiàn)更高效的交叉注意力計(jì)算，從而顯著增強(qiáng)細(xì)節(jié)生成能力。

細(xì)節(jié)更豐富、結(jié)構(gòu)更精準(zhǔn)

在3D生成領(lǐng)域，細(xì)節(jié)決定成敗。

Direct3D-S2在生成質(zhì)量上的突破，正是體現(xiàn)在它對(duì)復(fù)雜幾何結(jié)構(gòu)和精細(xì)紋理的出色還原能力上。

在多項(xiàng)關(guān)鍵指標(biāo)對(duì)比中，Direct3D-S2全面超越當(dāng)前主流開(kāi)源3D生成模型，在所有數(shù)值評(píng)測(cè)中全部領(lǐng)先。

無(wú)論是細(xì)節(jié)豐富程度、幾何精度、表面光滑度，還是整體結(jié)構(gòu)的一致性，Direct3D-S2都展現(xiàn)出顯著優(yōu)勢(shì)。

不僅如此，在由數(shù)十位藝術(shù)家與開(kāi)發(fā)者參與的盲測(cè)評(píng)估中，Direct3D-S2也在「圖像一致性」與「幾何質(zhì)量」兩個(gè)核心維度上獲得最高評(píng)分。

這意味著，不僅數(shù)據(jù)亮眼，實(shí)際效果也真正能打動(dòng)專(zhuān)業(yè)人士。

與當(dāng)前流行的開(kāi)源3D生成大模型對(duì)比，Direct3D-S2在細(xì)節(jié)和精細(xì)度表現(xiàn)上超越了全部的開(kāi)源3D大模型。

盡管只使用8張A100顯卡和公開(kāi)數(shù)據(jù)集訓(xùn)練，Direct3D-S2在生成的模型細(xì)節(jié)上甚至超過(guò)了目前市面上幾乎全部的閉源商用模型。

換句話(huà)說(shuō)，Direct3D-S2不僅是目前最強(qiáng)的開(kāi)源3D生成大模型之一，更是首個(gè)在質(zhì)量和實(shí)用性上真正接近工業(yè)級(jí)應(yīng)用的開(kāi)源方案。

擁抱開(kāi)源，賦能全球開(kāi)發(fā)者

DreamTech始終秉持「技術(shù)共享」的理念，已將Direct3D-S2全面開(kāi)源，并采用最寬松的 MIT License協(xié)議，允許自由用于商業(yè)用途，堪稱(chēng)業(yè)界良心，這一舉措贏得了行業(yè)的廣泛贊譽(yù)。

為了讓全球開(kāi)發(fā)者更方便地體驗(yàn)與使用Direct3D-S2，DreamTech提供了多個(gè)開(kāi)放入口：

· GitHub項(xiàng)目地址（開(kāi)源代碼）：

https://github.com/DreamTechAI/Direct3D-S2

· 技術(shù)詳情與論文訪(fǎng)問(wèn)：

https://www.neural4d.com/research/direct3d-s2/

· HuggingFace在線(xiàn)體驗(yàn)Demo：

https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo

此外，DreamTech官網(wǎng)還提供更強(qiáng)版本模型及一系列實(shí)用功能，供用戶(hù)免費(fèi)使用，助力開(kāi)發(fā)者、藝術(shù)家和企業(yè)快速上手與落地應(yīng)用。

· DreamTech官網(wǎng)入口：

www.neural4d.com

創(chuàng)新無(wú)邊界，Direct3D-S2不僅是一次技術(shù)突破，更是推動(dòng)3D生成普及化的重要一步。

團(tuán)隊(duì)介紹

DreamTech深耕于3D及4D AI技術(shù)領(lǐng)域，致力于用創(chuàng)新的產(chǎn)品和服務(wù)提升全球AIGC創(chuàng)作者及消費(fèi)者的使用體驗(yàn)，公司的愿景是利用先進(jìn)的AI技術(shù)打造與真實(shí)世界無(wú)縫對(duì)接、實(shí)時(shí)互動(dòng)的時(shí)空智能體驗(yàn)，并通過(guò)模擬真實(shí)世界的復(fù)雜性和多樣性實(shí)現(xiàn)通用人工智能（AGI）。

責(zé)任編輯：張燕妮來(lái)源：新智元