成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

看3.2億幀視頻學會3D生成,智源開源See3D:只需單圖即可生成3D場景

人工智能 新聞
國內智源研究院推出了首個利用大規模無標注的互聯網視頻學習的3D生成模型See3D—See Video, Get 3D。

近日,著名AI學者、斯坦福大學教授李飛飛團隊WorldLabs推出首個「空間智能」模型,僅輸入單張圖片,即可生成一個逼真的3D世界,這被認為是邁向空間智能的第一步。

幾乎同時,國內智源研究院推出了首個利用大規模無標注的互聯網視頻學習的3D生成模型See3D—See Video, Get 3D。

圖片

△See3D支持從文本、單視圖和稀疏視圖到3D的生成,同時還可支持3D編輯與高斯渲染

不同于傳統依賴相機參數(pose-condition)的3D生成模型,See3D采用全新的視覺條件(visual-condition)技術,僅依賴視頻中的視覺線索,生成相機方向可控且幾何一致的多視角圖像。

這一方法不依賴于昂貴的3D或相機標注,能夠高效地從多樣化、易獲取的互聯網視頻中學習3D先驗。

See3D不僅支持零樣本和開放世界的3D生成,還無需微調即可執行3D編輯、表面重建等任務,展現出在多種3D創作應用中的廣泛適用性。

相關的模型、代碼、Demo均已開源,更多技術細節請參考See3D論文。

論文地址:https://arxiv.org/abs/2412.06699項目地址:https://vision.baai.ac.cn/see3d

效果展示

1. 解鎖3D互動世界:輸入圖片,生成沉浸式可交互3D場景,實時探索真實空間結構。

(備注:為了實現實時交互式渲染,當前對3D模型和渲染過程進行了簡化,離線渲染真實效果更佳。)

實時3D交互

2. 基于稀疏圖片的3D重建:輸入稀疏的(3-6張)圖片,模型可生成一個精細化的3D場景。

△基于6張視圖的3D重建

△基于3張視圖的3D重建

3. 開放世界3D生成:根據文本提示,生成一副藝術化的圖片,基于此圖片,模型可生成一個虛擬化的3D場景。

開放世界3D生成樣例

4. 基于單視圖的3D生成:輸入一張真實場景圖片,模型可生成一個逼真的3D場景。

△基于單張圖片的3D生成

研究動機

3D數據具有完整的幾何結構和相機信息,能夠提供豐富的多視角信息,是訓練3D模型最直接的選擇。然而,現有方法通常依賴人工設計(designed artists)、立體匹配(stereo matching)或運動恢復結構(Structure from Motion, SfM)等技術來收集這些數據。

盡管經過多年發展,當前3D數據的積累規模依然有限,例如DLV3D(0.01M)、RealEstate10K(0.08M)、MVImgNet(0.22M)和Objaverse(0.8M)。這些數據的采集過程不僅耗時且成本高昂,還可能難以實施,導致其數據規模難以擴展,無法滿足大規模應用的需求。

與此不同,人類視覺系統無需依賴特定的3D表征,僅通過連續多視角的觀察即可建立對3D世界的理解。單幀圖像難以實現這一點,而視頻因其天然包含多視角關聯性和相機運動信息,具備揭示3D結構的潛力。

更重要的是,視頻來源廣泛且易于獲取,具有高度的可擴展性?;诖耍琒ee3D提出“SeeVideo,Get3D”的理念,旨在通過視頻中的多視圖信息,讓模型像人類一樣,學習并推理物理世界的三維結構,而非直接建模其幾何形態。

方法介紹

為了實現可擴展的3D生成,See3D提供了一套系統化的解決方案,具體包括:

1)數據集:團隊提出了一個視頻數據篩選流程,自動去除源視頻中多視角不一致或觀察視角不充分的視頻,構建了一個高質量、多樣化的大規模多視角圖像數據集WebVi3D。該數據集涵蓋來自1600萬個視頻片段的3.2億幀圖像,可通過自動化流程隨互聯網視頻量的增長而不斷擴充。

△WebVi3D數據集樣本展示

2)模型:標注大規模視頻數據的相機信息成本極高,且在缺乏顯式3D幾何或相機標注的情況下,從視頻中學習通用3D先驗是更具挑戰的任務。為解決這一問題,See3D引入了一種新的視覺條件——通過向掩碼視頻數據添加時間依賴噪聲,生成一種純粹的2D歸納視覺信號。這一視覺信號支持可擴展的多視圖擴散模型(MVD)訓練,避免對相機條件的依賴,實現了“僅通過視覺獲得3D”的目標,繞過了昂貴的3D標注。

圖片See3D方法展示

3)3D生成框架:See3D學到的3D先驗能夠使一系列3D創作應用成為可能,包括基于單視圖的3D生成、稀疏視圖重建以及開放世界場景中的3D編輯等,支持在物體級與場景級復雜相機軌跡下的長序列視圖的生成。

圖片基于See3D的多視圖生成

優勢

a) 數據擴展性:模型的訓練數據源自海量互聯網視頻,相較于傳統3D數據集,構建的多視圖數據集(16M)在規模上實現了數量級的提升。隨著互聯網的持續發展,該數據集可持續擴充,進一步增強模型能力的覆蓋范圍。

b) 相機可控性:模型可支持在任意復雜的相機軌跡下的場景生成,既可以實現場景級別的漫游,也能聚焦于場景內特定的物體細節,提供靈活多樣的視角操控能力。

c) 幾何一致性:模型可支持長序列新視角的生成,保持前后幀視圖的幾何一致性,并遵循真實三維幾何的物理規則。即使視角軌跡發生變化,返回時場景依然保持高逼真和一致性。

總結

通過擴大數據集規模,See3D為突破3D生成的技術瓶頸提供了新的思路,所學習到的3D先驗為一系列3D創作應用提供了支持。希望這項工作能夠引發3D研究社區對大規模無相機標注數據的關注,避免高昂的3D數據采集成本,同時縮小與現有強大閉源3D解決方案之間的差距。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-16 12:02:11

2024-03-20 15:51:00

AI數據

2021-09-14 10:11:46

谷歌3D舞蹈生成模型FACT

2023-07-14 09:41:01

3DAI

2024-07-31 15:30:05

2025-01-07 13:19:48

模型AI訓練

2012-08-13 17:11:37

Silverlight

2023-12-14 12:51:28

LLM3D場景

2011-09-22 10:07:52

奧圖碼投影儀

2023-05-16 14:17:00

數字人

2024-07-04 09:26:16

2012-11-26 12:51:44

木材3D打

2011-10-06 13:30:45

宏碁投影儀

2021-03-08 15:40:46

開源技術 軟件

2020-08-26 10:37:21

阿里3D

2013-11-21 19:36:56

暢游游戲引擎Genesis-3D

2024-09-20 16:20:00

2011-05-26 10:05:07

優派投影機

2025-01-14 09:24:46

2025-02-05 11:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 美国十次成人欧美色导视频 | 夜夜精品浪潮av一区二区三区 | 成人午夜性成交 | 一区二区精品在线 | 精品久久久网站 | 啪啪免费网 | 99精品视频网 | 欧美精品一区二区三区在线播放 | 午夜精品福利视频 | 免费爱爱视频 | 亚洲国产精品成人无久久精品 | 欧美性tv | 国产高清精品一区二区三区 | 欧美日韩黄色一级片 | 国产欧美精品一区二区 | 孰女乱色一区二区三区 | 99视频精品 | 日韩欧美亚洲综合 | 久久久免费少妇高潮毛片 | 成人久久久 | 交专区videossex农村 | 欧美日韩激情 | 日韩精品一区二区三区中文在线 | 欧美一级三级 | 国产精品久久久久一区二区三区 | 国产高清视频一区 | 午夜精品视频一区 | 日韩中文字幕高清 | 在线观看国产精品视频 | 国产精品天堂 | 国产精品久久久久久模特 | 国产亚洲精品久久久久动 | 精品视频999 | 久久久久久久国产 | 国产在线视频网 | 国产成人精品免高潮在线观看 | 国产综合av| 久久久久久久网 | 一区二区三区中文字幕 | 欧美日本在线观看 | 国产精品成人国产乱 |