成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

北大團(tuán)隊(duì)引領(lǐng)3D生成與對齊革新:OctGPT打破擴(kuò)散模型壟斷

人工智能 新聞
最近,北京大學(xué)陳寶權(quán)教授帶領(lǐng)團(tuán)隊(duì)在三維形狀生成和三維數(shù)據(jù)對齊方面取得新的突破。

近年來,智能三維形狀生成(3D AIGC)技術(shù)迅速崛起,正成為推動(dòng)數(shù)字內(nèi)容創(chuàng)作革新的關(guān)鍵力量,特別是在游戲、影視、虛擬現(xiàn)實(shí)和工業(yè)設(shè)計(jì)等領(lǐng)域表現(xiàn)出巨大的應(yīng)用潛力。

隨著技術(shù)的不斷進(jìn)步,三維內(nèi)容的生成質(zhì)量與效率持續(xù)提升,成為業(yè)界與學(xué)界廣泛關(guān)注的焦點(diǎn)。

最近,北京大學(xué)陳寶權(quán)教授帶領(lǐng)團(tuán)隊(duì)在三維形狀生成三維數(shù)據(jù)對齊方面取得新的突破。

在三維數(shù)據(jù)生成方面,團(tuán)隊(duì)提出了3D自回歸模型新范式,有望打破3D擴(kuò)散模型在三維生成方面的壟斷地位。

該論文已被SIGGRAPH 2025接收,合作者為王鵬帥助理教授,以及博士生魏斯桐和本科生王瑞環(huán)、周傳智。

在三維數(shù)據(jù)對齊方面,團(tuán)隊(duì)設(shè)計(jì)了一種僅需單個(gè)先驗(yàn)即可實(shí)現(xiàn)同類物體對齊的框架,并構(gòu)建了當(dāng)前類別覆蓋最廣的規(guī)范化3D數(shù)據(jù)集,為三維形狀生成提供了數(shù)據(jù)基礎(chǔ)。

該論文已被CVPR 2025接收,合作者為陳文拯助理教授、王玉潔博士、高慶哲博士和秦學(xué)英教授,以及博士生金立、戴啟宇。

SIGGRAPH 2025:OctGPT:3D自回歸模型新范式

圖片

一、AIGC:從圖像生成到3D生成

近年來,基于自回歸范式的GPT模型在語言、圖像和視頻生成領(lǐng)域取得了一系列突破。

例如,最新的GPT-4o憑借其原生多模態(tài)架構(gòu),在圖像生成方面掀起了轟動(dòng):它不僅延續(xù)了前代卓越的語言理解能力,還通過跨模態(tài)協(xié)同,輕松產(chǎn)出高質(zhì)量、多風(fēng)格的視覺內(nèi)容。

然而,現(xiàn)有的自回歸模型尚不能很好地完成高質(zhì)量的三維生成任務(wù),這一技術(shù)缺口恰恰對應(yīng)著虛擬現(xiàn)實(shí)、電影工業(yè)及游戲開發(fā)等場景中快速增長的3D內(nèi)容需求。

隨著生成式AI技術(shù)的持續(xù)演進(jìn),如何將多模態(tài)理解能力延伸至三維空間,已成為推動(dòng)下一代AI生成系統(tǒng)發(fā)展的關(guān)鍵命題。

△OctGPT能夠?qū)崿F(xiàn)無條件、類別、文本和圖片條件的高質(zhì)量三維形狀生成和場景級別生成

二、3D自回歸生成模型的挑戰(zhàn)

當(dāng)前主流的三維生成技術(shù)雖已取得顯著突破,但高度依賴擴(kuò)散模型的生成范式仍存在顯著局限。

盡管擴(kuò)散模型在連續(xù)空間建模方面表現(xiàn)優(yōu)異,其與GPT類離散序列生成模型在架構(gòu)設(shè)計(jì)上的本質(zhì)差異,導(dǎo)致二者難以實(shí)現(xiàn)技術(shù)融合。

近年來,學(xué)術(shù)界雖已涌現(xiàn)出多項(xiàng)基于GPT的三維生成成果,但這一領(lǐng)域仍面臨諸多挑戰(zhàn)。

首先,GPT的預(yù)測機(jī)制依賴于序列建模,而現(xiàn)有的三維數(shù)據(jù)序列化方案往往忽略物體的層次結(jié)構(gòu)與局部關(guān)聯(lián)性,導(dǎo)致模型收斂緩慢、生成質(zhì)量受限。

針對這一問題,我們提出了一種全新的序列化方法,顯著提升了生成效果。

此外,以往方法的序列長度通常只有約1K,難以捕捉復(fù)雜的局部細(xì)節(jié)。

我們將序列長度擴(kuò)展近50倍,使模型能夠精準(zhǔn)地建模大尺度、高分辨率的三維形狀。

圖片

△現(xiàn)有的3D自回歸生成模型受限于有限的序列長度,細(xì)節(jié)質(zhì)量不足

三、新解決方案:OctGPT

OctGPT探索了基于八叉樹Octree和GPT架構(gòu)的三維生成路徑。

用戶可以通過多種條件進(jìn)行控制,比如文本、圖像、草圖等等,驅(qū)動(dòng)模型進(jìn)行高質(zhì)量的三維場景和物體的生成。

這一成果不僅有望打破擴(kuò)散模型在三維生成領(lǐng)域的技術(shù)壟斷,更開辟了多模態(tài)原生模型向三維空間拓展的新范式。

OctGPT使用一種基于八叉樹的多尺度三維序列化形狀表達(dá)。

八叉樹的遞歸分裂機(jī)制自然地表達(dá)了多尺度層次特征,其Z型曲線排序策略有效保留空間局部性,為GPT的自回歸預(yù)測提供理想的序列化基礎(chǔ)。

△OctGPT的模型框架

四、OctGPT的核心技術(shù)架構(gòu)

OctGPT的整體框架包括一個(gè)基于八叉樹的多尺度序列化表達(dá)和基于窗口注意力機(jī)制的高效自回歸模型。

1)八叉樹多尺度序列化表達(dá)

△八叉樹結(jié)構(gòu)和Z字形序列

首先,根據(jù)輸入的三維形狀構(gòu)建八叉樹。八叉樹的節(jié)點(diǎn)狀態(tài)被編碼為0/1信號:0代表空節(jié)點(diǎn),1代表細(xì)分節(jié)點(diǎn),如上圖(a)的淺色和深色節(jié)點(diǎn)所示。

然后按照Z字形進(jìn)行多尺度序列化,如上圖(b)和(c)Z字形序列所示。我們將不同層次的序列結(jié)構(gòu)由淺到深拼接成多尺度的0/1序列

隨后,使用了基于八叉樹的VQVAE,用于將八叉樹表達(dá)轉(zhuǎn)為完整、光滑的三維模型。

最后,GPT則是逐步生成多尺度的0/1序列。這一類似于二分查找的方式逐層的推理空間結(jié)構(gòu),極大地簡化了建模目標(biāo),加速了收斂。

2)多尺度自回歸模型

△多尺度自回歸模型

為了表達(dá)復(fù)雜的三維形狀,OctGPT將序列長度拓展至50k的量級。為了加速訓(xùn)練,模型采用了基于八叉樹的Transformer(OctFormer,SIGGRAPH 2023),并通過交替使用膨脹注意力(如上圖b)與移位窗口注意力模塊(如上圖c),實(shí)現(xiàn)跨窗口的Token交互,并將訓(xùn)練速度加速13倍。

OctGPT設(shè)計(jì)了尺度敏感的Teacher Forcing Mask(如上圖a),在序列生成過程中,按深度層級從淺至深順序預(yù)測,同一八叉樹層內(nèi)允許Token按照隨機(jī)順序并行生成,同時(shí)確保深層Token的預(yù)測能夠得到已生成的淺層Token信息。

在推理時(shí),OctGPT采用了多個(gè)token并行預(yù)測的策略,將推理速度加速69倍。基于上述創(chuàng)新,OctGPT能夠使用4個(gè)4090 GPU在三天內(nèi)完成訓(xùn)練。

五、結(jié)果展示

此處展示了OctGPT在ShapeNet和Objverse上的生成結(jié)果。OctGPT能夠生成高質(zhì)量的三維模型,展現(xiàn)出強(qiáng)大的生成能力。

△Objaverse上文本條件生成結(jié)果

△ShapeNet上無條件生成結(jié)果

△Objaverse上無條件生成結(jié)果

△在ShapeNet上與現(xiàn)有SOTA方法的定性對比

△在ShapeNet上與現(xiàn)有SOTA方法的定量對比

六、總結(jié)與展望

OctGPT探索了基于八叉樹結(jié)構(gòu)的GPT模型在三維數(shù)據(jù)生成任務(wù)中的應(yīng)用潛力。

具體創(chuàng)新體現(xiàn)在以下三個(gè)方面:其一,通過八叉樹結(jié)構(gòu)對稀疏三維數(shù)據(jù)進(jìn)行編碼,有效提升了計(jì)算效率;其二,基于八叉樹構(gòu)建了具有層次性和局部性的多尺度0/1序列,確保序列化過程中空間特征的完整保留;其三,采用Transformer架構(gòu)直接進(jìn)行序列化預(yù)測,實(shí)現(xiàn)了對三維空間特性的端到端建模。

盡管三維數(shù)據(jù)的稀疏性、層次性與序列性看似相互獨(dú)立甚至存在矛盾,但本研究成功證明在八叉樹神經(jīng)網(wǎng)絡(luò)框架下,三者能夠有機(jī)統(tǒng)一。

這一突破性成果不僅有望打破擴(kuò)散模型在三維生成任務(wù)中的壟斷地位,更為原生多模態(tài)三維建模技術(shù)開辟了創(chuàng)新路徑。

論文地址:https://arxiv.org/abs/2504.09975

項(xiàng)目主頁:https://github.com/octree-nn/octgpt

CVPR 2025 Highlight:大規(guī)模三維數(shù)據(jù)對齊

CVPR 2025 Highlight論文: 基于幾何和語義一致性的One-shot 3D物體規(guī)范化,為三維生成技術(shù)和具身智能的快速發(fā)展提供了堅(jiān)實(shí)基礎(chǔ)。

該工作由北京大學(xué)陳寶權(quán)研究團(tuán)隊(duì)主導(dǎo),山東大學(xué)合作完成。

一、3D物體對齊及其重要性

在三維世界里,“對齊”一個(gè)物體,意味著將它擺放到一個(gè)標(biāo)準(zhǔn)的姿態(tài)——不歪、不倒、朝向統(tǒng)一。

就像我們看到一個(gè)歪著的杯子,腦海中會(huì)自動(dòng)將它“扶正”來理解它此時(shí)的朝向、把手、底部位置。

這樣的對齊操作看似簡單,卻是讓AI真正“看懂”3D物體的關(guān)鍵一步。

隨著具身智能和3D生成技術(shù)的快速發(fā)展,AI不僅要“看見”物體,還要“理解”它們的位置、朝向和語義。

比如,下圖中的機(jī)械臂之所以能成功倒出一杯咖啡,正是因?yàn)樗鼫?zhǔn)確理解了杯子的朝向和語義功能部位。

另一方面,在3D內(nèi)容生成領(lǐng)域,研究也表明:如果訓(xùn)練時(shí)使用了規(guī)范化的3D數(shù)據(jù),可以顯著提高生成物體的一致性和質(zhì)量

從機(jī)器人操作到三維生成,物體對齊都在背后發(fā)揮著基礎(chǔ)而關(guān)鍵的作用

然而,如何實(shí)現(xiàn)任意類別、任意初始位姿3D物體的高效對齊,仍然十分具有挑戰(zhàn)性。

△3D對齊數(shù)據(jù)在具身智能和3D生成的作用,素材來自Youtube

二、3D物體對齊的挑戰(zhàn)

在現(xiàn)實(shí)世界中,要讓智能體真正理解和操作三維物體,一個(gè)帶有朝向、位置和尺寸標(biāo)注的規(guī)范3D數(shù)據(jù)集至關(guān)重要。

它不僅讓模型能統(tǒng)一學(xué)習(xí)標(biāo)準(zhǔn)姿態(tài),還能支持類別識(shí)別、語義分析等下游任務(wù)。

然而,獲取這樣的數(shù)據(jù)極具挑戰(zhàn):

1)人工標(biāo)注嚴(yán)重依賴經(jīng)驗(yàn),流程繁瑣且易出錯(cuò)。在使用計(jì)算機(jī)輔助3D標(biāo)注時(shí),通常需通過2D界面對3D物體手動(dòng)調(diào)整,交互效率依然不高;

2)基于學(xué)習(xí)的自動(dòng)化對齊方法本身也依賴充足的先驗(yàn)樣本才能訓(xùn)練,而現(xiàn)實(shí)中的物體分布呈嚴(yán)重長尾——例如在Objaverse-LVIS中,超93%的類別樣本不足100個(gè),遠(yuǎn)遠(yuǎn)滿足不了現(xiàn)有方法所需的充足先驗(yàn)樣本。

因此,無論是人工流程,還是基于學(xué)習(xí)的自動(dòng)化方法,目前都難以支撐對大規(guī)模、任意類別3D物體進(jìn)行高效高質(zhì)量規(guī)范化。這也讓如何高效對齊三維物體成為當(dāng)前研究的核心挑戰(zhàn)之一。

△長尾分布問題:對Objaverse-LVIS類別物體數(shù)量統(tǒng)計(jì)

三、提出的解決方法

為突破上述3D物體規(guī)范化中“標(biāo)注難、樣本少”的雙重困境,我們提出了一種全新的One-shot物體對齊方法:只需一個(gè)規(guī)范化物體作為先驗(yàn),結(jié)合2D基礎(chǔ)模型的語義能力,即可自動(dòng)對任意姿態(tài)下的同類3D物體進(jìn)行高質(zhì)量規(guī)范化。

相比以往依賴大量訓(xùn)練數(shù)據(jù)或手工操作的方案,我們的方法無需繁瑣流程,也不怕長尾類別,在樣本稀缺的場景下表現(xiàn)尤為出色

實(shí)驗(yàn)結(jié)果顯示,我們的方法顯著提升了3D物體規(guī)劃化的精度和魯棒性。進(jìn)一步地,我們將該方法應(yīng)用于Objaverse-LVIS數(shù)據(jù)集,并通過渲染進(jìn)行清洗和挑選,構(gòu)建了目前已知覆蓋類別最廣的規(guī)范化3D物體數(shù)據(jù)集——Canonical Objaverse Dataset(COD),涵蓋1,054個(gè)類別、32,000個(gè)對齊物體,現(xiàn)已開放下載。

同時(shí),我們會(huì)持續(xù)擴(kuò)大規(guī)范數(shù)據(jù)集的規(guī)模。

△現(xiàn)有方法依賴于大量的先驗(yàn)條件(如多個(gè)已規(guī)范化模型),我們提出的one-shot方法僅需一個(gè)先驗(yàn)?zāi)P图纯蓪?shí)現(xiàn)有效的類別級規(guī)范化(左圖)。我們構(gòu)建了規(guī)范化的Objaverse數(shù)據(jù)集(右圖),該數(shù)據(jù)集在現(xiàn)有的規(guī)范化三維數(shù)據(jù)集中涵蓋了最多的類別。

規(guī)范化的3D物體數(shù)據(jù),來自COD數(shù)據(jù)集。

四、 方法簡介

如圖所示,我們希望以一個(gè)同類的物體作為先驗(yàn)?zāi)P停渌矬w作為測試物體和先驗(yàn)?zāi)P瓦M(jìn)行對齊。

算法的核心思想是,結(jié)合2D基礎(chǔ)模型提供的語義信息和3D物體的幾何信息進(jìn)行規(guī)范化。

整個(gè)框架由三個(gè)主要階段組成:zero-shot物體語義對應(yīng)關(guān)系建立(左圖)、規(guī)范化位姿假設(shè)生成(中圖)以及最終標(biāo)準(zhǔn)位姿選擇(右圖)。

△算法框架

在算法框架設(shè)計(jì)時(shí),我們面臨兩個(gè)主要難點(diǎn):

1)2D基礎(chǔ)模型在處理任意姿態(tài)下的物體時(shí)易出現(xiàn)檢測錯(cuò)誤,導(dǎo)致3D語義信息獲取不穩(wěn)定;

2)同類物體間存在顯著幾何差異,僅依賴語義或幾何信息進(jìn)行對齊均存在局限,因此亟需設(shè)計(jì)一種能夠有效聯(lián)合利用稀疏語義與幾何信息的對齊機(jī)制。

為此,我們提出:

1)基于支撐面的初始化策略:利用算法自動(dòng)檢測物體的多個(gè)支撐面,并以其在水平面上穩(wěn)定靜止的狀態(tài)作為初始化位姿,顯著提高了語義分割模塊的的穩(wěn)定性與準(zhǔn)確性。

2)語義-幾何聯(lián)合能量函數(shù):我們設(shè)計(jì)了結(jié)合語義置信度與幾何一致性的能量函數(shù),在對齊過程中實(shí)現(xiàn)了語義主導(dǎo)大致朝向、幾何引導(dǎo)細(xì)節(jié)對齊的協(xié)同優(yōu)化機(jī)制,從而更有效地完成物體規(guī)范化。

最終,在Objaverse和ShapeNet等數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了我們方法在對齊精度與魯棒性方面的顯著優(yōu)勢,較現(xiàn)有主流方法表現(xiàn)更優(yōu),并展現(xiàn)出良好的泛化能力。

△3D物體規(guī)范化過程,來自COD數(shù)據(jù)集。

五、總結(jié)及展望

我們提出了一種新穎的one-shot三維物體規(guī)范化框架,只需一個(gè)先驗(yàn)?zāi)P停纯赏瓿蓪ν悇e中其他物體的規(guī)范化對齊。

通過引入大型語言模型(LLMs)與視覺-語言模型(VLMs),結(jié)合提出的支撐面的位姿采樣策略,我們實(shí)現(xiàn)了對物體的zero-shot語義感知,并通過將語義引導(dǎo)的粗對齊與幾何驅(qū)動(dòng)的精細(xì)對齊相結(jié)合,實(shí)現(xiàn)了3D物體的自動(dòng)化高效對齊。

在多個(gè)模擬與真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法不僅精度優(yōu)于現(xiàn)有方法,還能有效處理長尾類別,具備強(qiáng)大的泛化能力。

基于這一方法,我們進(jìn)一步構(gòu)建了COD數(shù)據(jù)集(Canonical Objaverse Dataset),涵蓋1054個(gè)類別、超過3萬個(gè)規(guī)范化物體,展現(xiàn)了我們框架在大規(guī)模3D數(shù)據(jù)集構(gòu)建中的可擴(kuò)展性。

為滿足不同任務(wù)對3D數(shù)據(jù)的多樣化需求,無論是3D生成任務(wù)對高質(zhì)量網(wǎng)格和材質(zhì)的要求,還是藝術(shù)創(chuàng)作類應(yīng)用對平整面片和可拆解部件的偏好,我們將持續(xù)擴(kuò)展標(biāo)注數(shù)據(jù)規(guī)模,豐富標(biāo)注維度,并歡迎更多研究者加入,共同打造更豐富、更高質(zhì)量、更貼近社區(qū)實(shí)際需求的三維物體數(shù)據(jù)集。

項(xiàng)目主頁:https://jinli998.github.io/One-shot_3D_Object_Canonicalization/

規(guī)范數(shù)據(jù)集鏈接:https://github.com/JinLi998/CanonObjaverseDataset

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-12-07 13:07:59

3D模型訓(xùn)練

2025-02-13 08:26:26

2024-12-10 09:40:00

AI3D模型

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2021-08-13 15:07:02

模型人工智能深度學(xué)習(xí)

2024-09-20 16:20:00

2024-03-05 11:31:00

AI數(shù)據(jù)

2024-05-06 12:24:00

模型訓(xùn)練

2024-05-06 11:37:20

自動(dòng)駕駛3D

2025-02-14 09:02:19

2023-07-14 09:41:01

3DAI

2023-04-24 16:25:47

3D開發(fā)

2024-01-08 13:34:00

模型訓(xùn)練

2024-02-07 12:13:03

AI模型

2024-01-29 06:50:00

3D模型

2024-03-20 15:51:00

AI數(shù)據(jù)

2025-06-13 14:13:26

3D場景生成模型

2025-04-09 13:11:27

2024-07-16 12:02:11

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 真人毛片| 亚洲视频中文 | 青青草原精品99久久精品66 | 一区二区av | 国产精品久久久久久久久久久久久久 | 久久91精品 | 特黄视频 | 一区二区三区在线免费观看 | 一区二区三区在线看 | 国产成人精品在线 | www.性色| 国产综合精品 | 欧美精品一区二区三区蜜桃视频 | 99精品久久久国产一区二区三 | 亚洲综合在线播放 | 国产成人精品一区二区三区 | 欧美三级在线 | 99视频| 国产精品久久久久久福利一牛影视 | 日本成人片在线观看 | 91高清免费 | 密室大逃脱第六季大神版在线观看 | 青久草视频 | 久久久久久久国产 | 欧美xxxⅹ性欧美大片 | 日韩中文一区二区三区 | 狠狠躁18三区二区一区 | 国产成人福利 | 精品一二区 | 国产一区二区精品在线 | 亚洲国产一区视频 | 在线日韩欧美 | 青青草免费在线视频 | 91亚洲精品国偷拍自产在线观看 | 第四色影音先锋 | 欧美中文字幕一区 | 97视频免费 | 一区二区在线不卡 | 91影库 | a级免费视频 | 国产亚洲一区二区三区 |