影視級(jí)3D生成新王:Direct3D-S2全面開(kāi)源!8塊GPU超越閉源登頂HF
HuggingFace是全球最大的開(kāi)源大模型社區(qū),匯集了來(lái)自世界各地的上百個(gè)開(kāi)源大模型。
其趨勢(shì)榜(HuggingFace Trending)展示了各類(lèi)開(kāi)源大模型在全球開(kāi)發(fā)者中的受歡迎程度,DeepSeek、Qwen等大模型就因曾登頂HuggingFace榜單而獲得了全球開(kāi)發(fā)者的關(guān)注與熱議。可以說(shuō),這是當(dāng)前最具權(quán)威性的榜單之一。
最近一周,由DreamTech推出的Direct3D-S2 3D大模型登頂HuggingFace 3D modeling應(yīng)用趨勢(shì)榜,并在涵蓋文本、圖像和視頻的綜合榜單上躍居至第4位。
這個(gè)大模型不僅贏得了海外知名AI精選博主AK (@_akhaliq) 的推薦,還在全球3D及AI領(lǐng)域的開(kāi)發(fā)者和愛(ài)好者中引起了廣泛關(guān)注。
Direct3D-S2僅需8張GPU訓(xùn)練,生成效果遠(yuǎn)超數(shù)百?gòu)圙PU訓(xùn)練的閉源商用模型,訓(xùn)練效率提升近20倍,相比現(xiàn)有的大模型,token吞吐量從4K提升到256K,直接提高64倍,目標(biāo)直指影視級(jí)別高精細(xì)度3D模型生成。
許多開(kāi)發(fā)者表示Direct3D-S2就是「最強(qiáng)開(kāi)源3D大模型」,直呼「3D生成的概念神」。
為什么一個(gè)3D大模型能在AI行業(yè)引起如此高的關(guān)注度呢?
從DreamTech團(tuán)隊(duì)發(fā)布的論文中,我們或許能找到答案。Direct3D-S2所實(shí)現(xiàn)的突破性進(jìn)展,不僅提升了3D模型的精度與效率,也開(kāi)啟了新的應(yīng)用場(chǎng)景和技術(shù)可能性。
這不僅是對(duì)技術(shù)邊界的探索,也是其在AI領(lǐng)域創(chuàng)新能力的一次重要展示。
論文地址:https://arxiv.org/pdf/2505.17412
從游戲角色、電影特效,到VR體驗(yàn)和3D打印產(chǎn)品,背后都離不開(kāi)一個(gè)關(guān)鍵技術(shù)——3D建模。它就是數(shù)字世界的基礎(chǔ)手藝,但傳統(tǒng)建模過(guò)程復(fù)雜又耗時(shí)。
AI正在改變這一切。近年來(lái),越來(lái)越多的公司開(kāi)始用來(lái)替代人工建模,AI不僅更快,效果也越來(lái)越逼真。微軟、Meta、騰訊、字節(jié)跳動(dòng)等行業(yè)巨頭,以及眾多創(chuàng)新企業(yè)紛紛發(fā)力,推出了各種AI 3D生成工具,掀起了一場(chǎng)技術(shù)熱潮。
而在所有探索中,如何讓AI生成的3D模型更清晰、更精細(xì),已經(jīng)成為大家最關(guān)心的問(wèn)題之一。
為什么高分辨率的3D生成
如此具有挑戰(zhàn)性?
現(xiàn)在AI已經(jīng)能輕松生成高清的圖片和視頻了,但為什么利用AI進(jìn)行高質(zhì)量的3D建模卻仍舊這么難?這背后有兩個(gè)關(guān)鍵原因。
- 3D數(shù)據(jù)比2D復(fù)雜得多。圖像和視頻只是平面信息,而3D模型要完整地表達(dá)一個(gè)物體在空間中的形狀,它的細(xì)節(jié)是「立方級(jí)」的復(fù)雜度。也就是說(shuō),分辨率越高,需要處理的token數(shù)量會(huì)呈立方倍增長(zhǎng)。比如,把分辨率從128提升到256,token數(shù)量的差別不是2倍,而是23=8倍。
- AI模型本身的計(jì)算壓力也很大。目前主流的AI架構(gòu)Transformer在處理大量細(xì)節(jié)時(shí)會(huì)變得特別吃力,Transoform核心的Attention(注意力)機(jī)制的運(yùn)算復(fù)雜度是隨著數(shù)據(jù)token數(shù)量呈平方增長(zhǎng)的。這意味著,當(dāng)你想要更精細(xì)的模型時(shí),算力需求幾乎是指數(shù)爆炸式上升。
舉個(gè)例子:即使是分辨率為256級(jí)的3D生成任務(wù),通常也需要?jiǎng)佑?2至64塊高端GPU進(jìn)行訓(xùn)練。
而如果要生成1024級(jí)分辨率甚至影視級(jí)別超高精細(xì)度的3D任務(wù),則需要幾千甚至上萬(wàn)塊GPU訓(xùn)練。這種訓(xùn)練方式成本高昂,技術(shù)挑戰(zhàn)也非常大。
如何在有限的資源下實(shí)現(xiàn)高質(zhì)量的3D生成,已經(jīng)成為整個(gè)行業(yè)都在攻克的核心難題。
DreamTech聯(lián)合南京大學(xué)、牛津大學(xué)提出了Direct3D-S2,解決了高分辨率3D生成的瓶頸問(wèn)題。
空間稀疏注意力機(jī)制
在Direct3D-S2中,DreamTech團(tuán)隊(duì)提出了一項(xiàng)核心創(chuàng)新——空間稀疏注意力機(jī)制(Spatial Sparse Attention, SSA)。
這一機(jī)制專(zhuān)為解決當(dāng)前Diffusion Transformer(DiT)在處理高分辨率3D生成時(shí)效率低、精細(xì)度差的問(wèn)題而設(shè)計(jì),堪稱(chēng)3D生成領(lǐng)域的效率引擎。
優(yōu)點(diǎn)一:支持超大規(guī)模體素生成
通過(guò)自適應(yīng)3D空間分塊策略,SSA可以讓模型只關(guān)注真正重要的體素區(qū)域,避免大量冗余計(jì)算。
即使面對(duì)10243的超高分辨率,模型也能輕松處理數(shù)十萬(wàn)級(jí)tokens,token吞吐量提高64倍!
優(yōu)點(diǎn)二:保留幾何一致性
在大幅提高效率的同時(shí),SSA并沒(méi)有犧牲質(zhì)量。
它基于空間幾何連續(xù)性概率分布對(duì)tokens進(jìn)行智能分塊,確保局部結(jié)構(gòu)完整、表面平滑自然,避免了傳統(tǒng)方法中常見(jiàn)的「斷裂」或「扭曲」現(xiàn)象。
稀疏SDF VAE以及稀疏DiT
除了SSA注意力機(jī)制的創(chuàng)新,Direct3D-S2還引入了適配SSA的全新架構(gòu),包括稀疏SDF VAE和稀疏DiT,實(shí)現(xiàn)了從輸入到輸出的全流程效率提升。
端到端稀疏SDF自編碼器
Direct3D-S2首次將3D生成表征統(tǒng)一到SDF(符號(hào)距離函數(shù))體素場(chǎng)中,無(wú)需依賴(lài)傳統(tǒng)的點(diǎn)云、多視角圖像或隱式空間等復(fù)雜轉(zhuǎn)換過(guò)程。
簡(jiǎn)化了訓(xùn)練流程,將模型訓(xùn)練的穩(wěn)定性和訓(xùn)練速度提升到極致。
多分辨率支持+稀疏條件機(jī)制
Direct3D-S2支持基于3D幾何空間的multi-scale訓(xùn)練與推理,僅用8塊A100 GPU,2天即可完成訓(xùn)練,整體效率提升4倍以上。
同時(shí),借助稀疏條件機(jī)制,模型能聚焦于前景物體的關(guān)鍵區(qū)域,實(shí)現(xiàn)更高效的交叉注意力計(jì)算,從而顯著增強(qiáng)細(xì)節(jié)生成能力。
細(xì)節(jié)更豐富、結(jié)構(gòu)更精準(zhǔn)
在3D生成領(lǐng)域,細(xì)節(jié)決定成敗。
Direct3D-S2在生成質(zhì)量上的突破,正是體現(xiàn)在它對(duì)復(fù)雜幾何結(jié)構(gòu)和精細(xì)紋理的出色還原能力上。
在多項(xiàng)關(guān)鍵指標(biāo)對(duì)比中,Direct3D-S2全面超越當(dāng)前主流開(kāi)源3D生成模型,在所有數(shù)值評(píng)測(cè)中全部領(lǐng)先。
無(wú)論是細(xì)節(jié)豐富程度、幾何精度、表面光滑度,還是整體結(jié)構(gòu)的一致性,Direct3D-S2都展現(xiàn)出顯著優(yōu)勢(shì)。
不僅如此,在由數(shù)十位藝術(shù)家與開(kāi)發(fā)者參與的盲測(cè)評(píng)估中,Direct3D-S2也在「圖像一致性」與「幾何質(zhì)量」兩個(gè)核心維度上獲得最高評(píng)分。
這意味著,不僅數(shù)據(jù)亮眼,實(shí)際效果也真正能打動(dòng)專(zhuān)業(yè)人士。
與當(dāng)前流行的開(kāi)源3D生成大模型對(duì)比,Direct3D-S2在細(xì)節(jié)和精細(xì)度表現(xiàn)上超越了全部的開(kāi)源3D大模型。
盡管只使用8張A100顯卡和公開(kāi)數(shù)據(jù)集訓(xùn)練,Direct3D-S2在生成的模型細(xì)節(jié)上甚至超過(guò)了目前市面上幾乎全部的閉源商用模型。
換句話(huà)說(shuō),Direct3D-S2不僅是目前最強(qiáng)的開(kāi)源3D生成大模型之一,更是首個(gè)在質(zhì)量和實(shí)用性上真正接近工業(yè)級(jí)應(yīng)用的開(kāi)源方案。
擁抱開(kāi)源,賦能全球開(kāi)發(fā)者
DreamTech始終秉持「技術(shù)共享」的理念,已將Direct3D-S2全面開(kāi)源,并采用最寬松的 MIT License協(xié)議,允許自由用于商業(yè)用途,堪稱(chēng)業(yè)界良心,這一舉措贏得了行業(yè)的廣泛贊譽(yù)。
為了讓全球開(kāi)發(fā)者更方便地體驗(yàn)與使用Direct3D-S2,DreamTech提供了多個(gè)開(kāi)放入口:
· GitHub項(xiàng)目地址(開(kāi)源代碼):
https://github.com/DreamTechAI/Direct3D-S2
· 技術(shù)詳情與論文訪(fǎng)問(wèn):
https://www.neural4d.com/research/direct3d-s2/
· HuggingFace在線(xiàn)體驗(yàn)Demo:
https://huggingface.co/spaces/wushuang98/Direct3D-S2-v1.0-demo
此外,DreamTech官網(wǎng)還提供更強(qiáng)版本模型及一系列實(shí)用功能,供用戶(hù)免費(fèi)使用,助力開(kāi)發(fā)者、藝術(shù)家和企業(yè)快速上手與落地應(yīng)用。
· DreamTech官網(wǎng)入口:
www.neural4d.com
創(chuàng)新無(wú)邊界,Direct3D-S2不僅是一次技術(shù)突破,更是推動(dòng)3D生成普及化的重要一步。
團(tuán)隊(duì)介紹
DreamTech深耕于3D及4D AI技術(shù)領(lǐng)域,致力于用創(chuàng)新的產(chǎn)品和服務(wù)提升全球AIGC創(chuàng)作者及消費(fèi)者的使用體驗(yàn),公司的愿景是利用先進(jìn)的AI技術(shù)打造與真實(shí)世界無(wú)縫對(duì)接、實(shí)時(shí)互動(dòng)的時(shí)空智能體驗(yàn),并通過(guò)模擬真實(shí)世界的復(fù)雜性和多樣性實(shí)現(xiàn)通用人工智能(AGI)。