成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝? 精華

發布于 2025-5-14 09:31
瀏覽
0收藏

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

文章鏈接:https://arxiv.org/pdf/2505.05474 
Git 鏈接:https://github.com/hzxie/Awesome-3D-Scene-Generation 

亮點直擊

  • 綜述了3D場景生成SOTA方法;
  • 組織為四種范式:程序化生成基于神經網絡的3D生成基于圖像的生成和基于視頻的生成;
  • 分析了它們的技術基礎、權衡和代表性結果,并回顧了常用數據集、評估協議和下游應用;
  • 討論了生成能力、3D表示、數據和標注以及評估中的關鍵挑戰,并概述了包括更高真實度、物理感知和交互生成以及統一感知生成模型等有前景的方向;
  • 回顧了場景編輯、人-場景交互、具身智能、機器人和自動駕駛中的關鍵應用,并強調了生成AI、3D視覺和具身智能交叉領域的有前景方向。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

3D場景生成旨在為沉浸式媒體、機器人技術、自動駕駛和具身智能等應用合成具有空間結構、語義意義和逼真效果的環境。早期基于程序規則的方法具備可擴展性,但多樣性有限。最近在深度生成模型(如GANs、擴散模型)和3D表示(如NeRF、3D高斯)方面的進展,使得學習真實世界場景分布成為可能,提高了真實度、多樣性和視圖一致性。最近的進展如擴散模型,通過將生成重新框定為圖像或視頻合成問題,連接了3D場景合成與逼真效果。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

范圍。 本次調研主要關注3D場景表示中的3D場景生成方法。值得注意的是,這些生成方法旨在合成多樣化的3D場景,而3D重建方法只能從給定輸入生成單一場景。對于重建方法的回顧,可參考[59], [60]。此外,本次調研不包括一般視頻生成 [38], [61] 和一般3D對象生成[62], [63], [64] 方法,盡管它們在3D場景生成中展示了一些能力。該調查是對現有3D生成模型綜述[51][52][53][54][55]的重要補充——由于當前尚無研究能全面概述3D場景生成技術及其相關核心見解。


組織。 下圖2展示了本次調研的結構。下文中先提供基礎概念,包括任務定義和公式化、3D場景表示和生成模型。隨后將現有方法分為四種類型,詳細說明每個類別的范式、優點和缺點。然后介紹相關數據集和評估指標。還回顧了與3D場景生成相關的各種下游任務。最后討論當前挑戰、未來方向,并總結該綜述。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

前置知識

任務定義與公式化

3D場景生成將輸入(例如,隨機噪聲、文本、圖像或其他條件)映射到3D場景表示,使用生成模型。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

生成的場景在空間上是連貫的,隱式或顯式地定義了3D幾何結構,并支持多視圖渲染或3D重建。

3D場景表示

在計算機視覺和圖形學中,已經開發和使用了多種3D場景表示。在本節中,我們概述了關鍵的3D場景表示,討論它們的結構、屬性及其在3D場景生成中的適用性。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

生成模型

生成模型通過學習統計模式(例如,AR 模型、VAEs、GANs、擴散模型)或應用預定義規則(例如,程序生成器)來合成數據。前者通過逼近數據分布以生成新穎的輸出,后者則通過確定性或隨機邏輯構建結構化的 3D 場景,而無需學習先驗知識。本節簡要介紹 3D 場景生成中的代表性生成模型,突出它們的特征和機制。

自回歸模型(Autoregressive Models,AR 模型) 按順序生成數據,其中每個元素都依賴于先前生成的元素。AR 模型的一個常見形式是將數據的聯合概率分布分解為條件概率的乘積:

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

方法:分層分類法

我們根據其生成范式將現有方法分為四類,如下圖3到下圖6所示:

  • 程序生成使用預定義規則、強制約束或來自LLM的先驗知識創建3D場景,產生與圖形引擎無縫集成的高質量輸出。
  • 基于神經3D的生成采用3D感知生成架構來合成場景布局以進行對象放置或直接生成3D表示,如體素、點云、網格、NeRF和3D高斯。
  • 基于圖像的生成使用2D圖像生成器來合成圖像,可以一步完成或迭代進行,有時隨后進行3D重建以保證幾何一致性。
  • 基于視頻的生成使用視頻生成器來創建具有空間運動的3D場景和隨時間演變的4D場景,捕捉空間和時間的動態變化。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

程序生成

程序生成方法通過遵循預定義的規則或約束自動生成3D場景。它們廣泛用于計算機圖形學中創建多樣化的環境,包括地形、植被、河流、道路、房間、建筑物和整個城市。如下表1所示,程序生成方法提供了高效率和空間一致性,但通常需要精心調整以實現逼真性和用戶控制。這些方法的范式如圖3所示,可以進一步分類為基于規則、基于優化和基于LLM的生成。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

基于規則的生成

基于規則的程序生成涵蓋了一系列通過顯式規則和算法構建3D場景的方法。這些方法直接生成場景幾何,然后進行渲染以便可視化。常見技術包括基于分形、基于語法、驅動仿真和基于示例的生成。

分形

是在各個尺度上表現出自相似性的數學結構。基于分形的方法廣泛應用于地形建模和紋理合成,因為它們能夠高效地生成視覺上復雜的圖案,同時需要的存儲量很小。諸如中點位移,如 [124], [125] 和分數布朗運動 [126] (fBM) 等技術生成類似自然景觀的多尺度細節。

基于語法的方法

由一組符號、一個初始公理和一組重寫規則組成。每個生成的符號編碼用于復雜形狀生成的幾何命令。CityEngine擴展了L系統用于生成道路網絡和建筑幾何以創建城市。[6] 基于形狀語法 [128] 來建模高度詳細的3D建筑物。

基于仿真的程序生成

通過建模自然和人工過程來創建逼真的3D環境。一些方法仿真侵蝕效應和水文以生成高保真度的地形。植被仿真在資源競爭和氣候變化下仿真植物生長。在城市環境中,基于生態系統的方法用植被填充城市,而其他方法則仿真城市增長和資源分配以生成有機演變的聚落。


基于示例的程序方法被提出以提高可控性。這些技術采用用戶提供的小示例,通過擴展其邊界或匹配特征來生成更大的場景。逆向程序生成試圖對生成過程提供高級控制。這些方法應用優化函數從程序算法中推斷參數或學習場景排列的全局分布。


上述技術通常結合使用,以利用其互補優勢生成大規模、多樣化的場景。例如,Citygen集成了道路網絡和建筑生成以創建城市景觀,而Infinigen結合了材料、地形、植物和生物生成器以生成無限自然場景。

基于優化的生成

基于優化的生成將場景合成表述為一個優化問題,最小化編碼預定義約束的目標。這些約束通常源自物理規則、功能或設計原則,被嵌入到成本函數中,并通過隨機或基于采樣的方法進行優化。或者,統計方法從數據中學習空間關系,并通過概率采樣指導布局過程。一些系統支持用戶定義的約束和用戶交互,以實現可控且語義上有意義的生成。


一些方法將物理和空間約束表述為成本函數,并應用隨機優化方法進行場景生成。物理層次的約束包括對象相互穿透、穩定性和摩擦 。布局層次的約束,包括功能關系(例如,共現、可達性)、室內設計指南(例如,對稱性、對齊、共圓性)和人類行為模式,也被考慮在內。用戶可以指定場景類型、大小和布局等高級約束,從而實現更可控且語義上有意義的場景合成。利用現有的程序生成管道,Infinigen Indoors引入了一個約束規范API,允許用戶定義自定義約束并實現高度可控的場景生成。


其他方法采用數據驅動模型,從標注數據中學習對象排列模式,將場景生成轉化為概率采樣問題。貝葉斯網絡常用于捕捉對象之間的條件依賴關系,如[151], [152], [153],而基于圖的模型,如[154], [155], [156] 則建模空間層次結構或關系結構,以提高空間推理和對象放置的準確性。

基于LLM的生成

大語言模型 (LLMs) 和視覺-語言模型(VLMs) 通過啟用文本驅動的場景合成,允許用戶通過自然語言描述指定環境,提供了更大的靈活性和用戶對場景設計的控制,引入了程序生成的新范式。


一些方法使用LLMs生成場景布局,如對象參數和場景圖。基于這些布局,可以通過對象檢索或形狀生成獲得3D幾何。具體來說,LayoutGPT使用生成提示和結構模板引導LLMs生成對象參數以檢索資產。CityCraft使用LLMs指導土地利用規劃,并從數據庫中檢索建筑資產以構建詳細的城市環境。[168]使用基于圖的對象表示更有效地建模對象間語義。為了支持更具風格化和多樣化的場景生成,GraphDreamer和Cube通過LLMs生成場景圖,將節點視為對象,并通過3D對象生成模型實現組合場景生成。場景語言引入了一種基于語言的場景表示,由程序、詞匯和嵌入組成,可以由LLMs生成并使用傳統、神經或混合圖形管道進行渲染。


其他方法利用LLMs作為代理,通過調整基于規則系統的參數或修改程序生成軟件中的操作來控制程序生成。[173]使用LLMs微調基于規則的景觀生成中的參數,通過學習的先驗知識優化程序工作流程。3D-GPT和SceneCraft生成Python腳本以控制現有程序框架,如Infinigen和Blender,允許直接操作程序資產。Holodeck通過與LLM進行多輪對話生成3D環境,包括地板和墻壁紋理化、門窗生成、對象選擇和放置。CityX和SceneX使用多代理系統完成不同階段的生成,通過Blender渲染生成布局、地形、建筑和道路的Python代碼。WorldCraft進一步結合了對象生成和動畫模塊。

基于神經網絡的3D生成

基于神經網絡的3D生成方法使用在具有3D標注的數據集上訓練的生成模型來生成3D場景表示。最近在NeRF和3D高斯方面的進展進一步提升了保真度和真實感。如上表1所示,這些方法在視圖和語義一致性方面表現出色,但它們的可控性和效率仍然有限。如上圖4所示,這些方法根據控制生成3D場景布局的空間安排分為四類:場景參數、場景圖、語義布局和隱式布局。

場景參數

場景參數提供了一種緊湊的方式來表示對象排列,隱式地捕捉對象間的關系,而無需依賴顯式場景圖。這些參數通常包括對象的位置、大小、方向、類別和形狀潛在編碼。如上圖4a所示,這些方法首先生成場景參數作為中間表示,然后用于合成最終的3D場景。


DeepSynth、FastSynth、[178] 和 Sync2Gen采用基于CNN的架構,利用自上而下的基于圖像的場景表示,通過預測參數順序插入對象。后續工作探索了更先進的模型,如transformer和擴散模型。ATISS、SceneFormer、COFS和 [182] 使用transformer自回歸地生成對象參數。RoomDesigner通過解耦布局和形狀生成來完善此過程,確保室內場景中的形狀兼容性。CASAGPT利用長方體作為中間對象表示,以更好地避免對象碰撞。DeBaRA采用擴散模型進行對象參數生成,而 PhyScene進一步整合物理約束以實現物理合理性和交互性。


為了提高文本驅動場景生成的可控性,RelScene使用 BERT在隱空間中對齊空間關系與文本描述。DiffuScene利用隱空間擴散模型從文本輸入生成對象參數,然后進行對象檢索。Ctrl-Room [190] 和 SceneFactor采用LDMs從文本提示生成粗略的對象布局,分別通過全景生成和幾何擴散模型獲得細粒度外觀。Epstein等人 [192]、SceneWiz3D和 DreamScene采用多階段方法,首先生成初始對象布局,然后使用Score Distillation Sampling (SDS)細化對象幾何,最后進行全局細化步驟以提高組合一致性。


人類運動和交互常常影響環境的組織,運動模式和物理接觸為對象和場景布局的安排提供信息。Pose2Room引入了一種端到端生成模型,從人類運動中預測房間內家具的邊界框。SUMMON和 MIME通過生成與人類場景接觸對齊的網格對象,進一步提高語義一致性和物理適應性。[198] 提出了一種多條件擴散模型,整合文本提示以增強可控性。為了確保物理上合理的布局,不發生接觸或碰撞,INFERACT在物理環境中使用強化學習同時仿真人類運動優化場景布局生成。

場景圖

場景圖提供了3D場景的結構化、符號化表示,節點代表對象,邊捕捉它們的空間關系。結合場景圖可以讓生成模型強制執行空間約束并保持關系一致性,從而促進結構良好的3D環境的創建。遵循圖4b中說明的范式,場景圖,無論是由模型生成還是作為輸入提供,作為布局先驗指導解碼過程,通過對象檢索或形狀生成創建3D場景表示。


早期的數據驅動方法,如[200]、[201]、[202]、[203] 使用場景圖表示對象之間的空間關系,作為通過對象檢索和放置生成3D場景的藍圖。后續工作增強了圖表示并引入了先進的生成模型。PlanIT采用深度圖生成模型合成場景圖,隨后使用基于圖像的網絡進行對象實例化。GRAINS采用遞歸VAE學習場景結構為層次圖,可解碼為對象邊界框。3D-SLN使用場景圖作為3D場景布局生成的結構先驗,確保空間一致性,并進一步結合可微渲染合成逼真的圖像。Meta-Sim和 MetaSim2使用場景圖構建場景生成,優化視覺真實感參數并使用渲染引擎合成多樣化的3D場景。


以前的方法允許從場景圖生成場景,但依賴于對象檢索或直接合成,限制了幾何多樣性。為了解決這一問題,Graph-to-3D引入了一個基于圖的VAE,聯合優化布局和形狀。SceneHGN將場景表示為從高級布局到細粒度對象幾何的層次圖,使用層次VAE進行結構生成。CommonScenes和 EchoScene提出場景圖擴散模型,具有布局和形狀的雙分支設計,捕捉全局場景-對象關系和局部對象間交互。MMGDreamer引入混合模態圖以精細控制對象幾何。


最近的方法通過整合人類輸入提高了可控性。SEK在條件擴散模型中將場景知識編碼為場景圖,用于草圖驅動場景生成。InstructScene將文本編碼器與基于圖的生成模型集成,用于文本驅動場景合成。為了將基于場景圖的生成推廣到更廣泛的場景,[211]將場景圖映射到鳥瞰圖(BEV)嵌入圖,指導擴散模型進行大規模戶外場景合成。HiScene利用VLM引導的遮擋推理和基于視頻擴散的非遮擋補全,從單個等距視圖生成可編輯的3D場景,具有組合對象身份。

語義布局

語義布局作為一種中間表示,編碼了3D場景的結構和語義組織。它為3D場景生成提供了高級指導,確保對象和場景元素的放置可控且一致。如上圖4c所示,語義布局,無論是用戶提供的還是生成的,作為生成模型的精確約束,指導3D場景生成,同時允許通過紋理提示進行風格控制。


二維語義布局由一個二維語義地圖組成,有時包括從俯視角度觀察的高度圖等附加地圖。CC3D生成一個基于二維語義地圖的3D特征體積,作為神經渲染的NeRF。BerfScene結合位置編碼和低通濾波,使3D表示與鳥瞰圖(BEV)地圖等變,支持可控且可擴展的3D場景生成。Frankenstein將場景組件編碼為一個緊湊的三平面,通過條件在二維語義布局上的擴散過程生成。BlockFusion引入了一種潛在的三平面外推機制,用于無限場景擴展。結合語義地圖的高度圖可以直接將二維布局轉換為3D體素世界,這對于建筑結構和地形高程提供重要先驗的城市和自然場景至關重要。InfiniCity利用InfinityGAN生成無限規模的二維布局,然后用于創建一個密閉的語義體素世界,通過神經渲染合成紋理。對于自然場景生成,SceneDreamer使用神經哈希網格捕捉各種景觀的可泛化特征,建模一個空間和場景變化的超空間。為解決城市環境中建筑的多樣性,CityDreamer和 GaussianCity將生成過程分解為不同的背景和建筑組件。CityDreamer4D進一步整合動態交通系統以生成一個廣闊的四維城市。


三維語義布局相比二維提供了增強的能力來表示更復雜的3D布局,提高了可控性,通常通過使用體素或3D邊界框實現。GANcraft使用體素作為3D語義布局,優化一個帶有偽真實和對抗訓練的神經場。UrbanGIRAFFE和 DisCoScene 將場景分解為物品、對象和天空,采用組合神經場進行場景生成。通過結合分數蒸餾采樣(SDS) [195],3D語義布局提供了更好的文本引導場景生成控制,提高了生成場景與文本描述的對齊。Comp3D、CompoNeRF、Set-the-Scene和 Layout-your3D使用預定義的可定制布局作為對象代理生成3D場景與組合NeRF。SceneCraft和 Layout2Scene 通過蒸餾預訓練的擴散模型生成室內場景。Urban Architect 結合幾何和語義約束與SDS,利用可擴展的哈希網格確保城市場景生成中的更好視圖一致性。

隱式布局

隱式布局是編碼3D場景空間結構的特征圖。如上圖4d所示,這些布局表現為不同維度的潛在特征。編碼器學習將3D場景布局信息嵌入潛在特征圖中,隨后由解碼器用于生成NeRF、3D高斯或體素網格形式的3D場景。


最近在NeRF和3D高斯等表示方面的進展使神經網絡能夠直接從潛在特征圖生成和渲染高保真RGB圖像。一些方法利用這些表示生成具有照片真實感的外觀一致的3D場景。NeRF-VAE使用VAE編碼跨多個場景的共享信息。GIRAFFE將場景表示為組合生成神經場,以將對象與背景解耦。GSN和 Persistent Nature采用基于GAN的架構生成二維潛在網格作為隱式場景布局,沿相機射線采樣以指導NeRF渲染。GAUDI使用擴散模型聯合學習場景特征和相機姿態,將其解碼為三平面和姿態以進行基于NeRF的渲染控制。NeuralField-LDM將NeRF場景分解為包含3D體素、2D BEV和1D全局表示的層次潛在結構。然后在這個三隱空間上訓練層次擴散模型以進行生成。Director3D使用一個高斯驅動的多視圖隱空間擴散模型生成沿生成軌跡的像素對齊和無界的3D高斯,隨后進行SDS細化。Prometheus和 SplatFlow從多視圖圖像中學習壓縮隱空間,并將該隱空間解碼為像素對齊的3DGS表示。


另一分支的工作更專注于生成語義結構和場景幾何,通常使用體素網格作為表示。這些方法不能立即渲染,但可以通過外部渲染管道進行紋理化。[232] 引入離散和隱空間擴散模型生成和完成由多個對象組成的3D場景,表示為語義體素網格。由于體素網格帶來的計算挑戰,DiffInDScene、PDD、X3和 LT3SD使用層次擴散管道高效生成大規模和細粒度3D場景。SemCity使用三平面表示3D語義場景,允許在擴散過程中通過操控三平面空間進行生成和編輯。NuiScene將局部場景塊編碼為向量集,并使用擴散模型生成鄰近塊以實現無限的戶外場景。DynamicCity通過使用Padded Rollout展開Hexplane為2D特征圖并應用擴散進行去噪,解決動態場景生成,支持4D場景生成。

基于圖像的生成

有限的帶標注3D數據集可用性限制了3D場景的生成。基于圖像的生成嘗試彌合2D和3D生成之間的差距。如上表1所示,它們提供了照片真實感和多樣性,具有高效的每幀處理,但在深度準確性、長距離語義一致性和視圖一致性方面存在困難。這些方法分為兩類:整體生成和迭代生成,如上圖5所示。整體生成在單步中生成完整的場景圖像,而迭代生成通過外推逐步擴展場景,生成一系列圖像。

整體生成

如上圖5a所示,3D場景生成中的整體生成通常依賴于全景圖像,這些圖像提供完整的360° × 180°視野,確保空間連續性和明確的幾何約束。這使它們在減輕透視視圖中出現的場景不一致性方面特別有效。


給定一個RGB圖像,早期的方法,如[240], [241], [242], [243], [244], [245]使用GAN進行圖像擴展以填充全景中的遮擋區域。更近期的方法采用先進的生成模型(例如,CoModGAN 和 VQGAN)以獲得更大的多樣性和內容控制。ImmerseGAN利用 CoModGAN 進行用戶可控的生成。OmniDreamer和 Dream360使用 VQGAN 生成多樣化和高分辨率的全景圖。利用隱空間擴散模型(LDM)的進展,PanoDiffusion通過將深度整合到雙模擴散框架中來增強場景結構意識。


文本到圖像模型(例如,CLIP, LDM)使文本驅動的全景生成成為可能。Text2Light使用 CLIP 進行基于文本的生成,并使用分層采樣器根據輸入文本提取并拼接全景片段。一些方法,如[252], [253]利用擴散模型生成高分辨率的平面全景圖。然而,它們未能保證圖像邊界的連續性,這是創建無縫觀看體驗的關鍵。為了解決這一問題,MVDiffusion, DiffCollage, 和 CubeDiff生成多視圖一致的圖像并將它們對齊成閉環全景以實現平滑過渡。StitchDiffusion, Diffusion360, PanoDiff, 和 PanFusion在邊界采用填充和裁剪策略以保持連續性。


最近的方法將單視圖全景生成擴展到多視圖以進行沉浸式場景探索,主要遵循兩種策略:一種是直接使用擴散模型生成多視圖全景圖像[259],另一種是應用3D重建(例如,表面重建,如[190], [260], [261], NeRF [108], 和3D高斯splatting,如[109], [262], [263], [264], [265])作為后處理。在此背景下,LayerPano3D [109] 將生成的全景分解為基于深度的層,填充未見內容以幫助創建復雜的場景層次結構。


另一個研究方向專注于從衛星圖像生成幾何一致的街景全景圖。一些方法,如[266], [267], [268]將幾何先驗整合到基于GAN的框架中以學習跨視圖映射。其他方法,如[269], [270], [271]從衛星圖像中估計3D結構并合成紋理以渲染街景全景圖。

迭代生成

如上圖5b所示,迭代生成從一個初始2D圖像開始,該圖像可以由用戶提供或從文本提示生成。為了生成大規模的3D場景,這些方法沿預定義的軌跡逐步外推場景。通過逐步擴展和優化內容,它們不斷優化3D場景表示,增強幾何和結構一致性。


給定一個單一圖像,早期方法推斷3D場景表示并使用它們渲染新視圖。這些表示包括點云,如[110], [272], [273], [274], 多平面圖像[275], [276], 深度圖[277], 和網格[278]。盡管能夠快速渲染,這些表示由于其有限的空間范圍限制了攝像機運動。為了實現不受限制的攝像機運動,Infinite Nature, InfiniteNature-Zero, Pathdreamer, 和 SGAM 遵循“渲染-優化-重復”的方式,迭代地扭曲以前的視圖并擴展缺失區域。DiffDreamer通過使用擴散模型在多個過去和未來幀上進行條件處理來改善多視圖一致性。GFVS和 LOTR不使用顯式3D表示,而是直接編碼圖像和攝像機姿態,使用transformer生成新視圖。Tseng等人, Photoconsistent-NVS, 和 ODIN使用姿態引導的擴散模型改善長期視圖合成一致性。


CAT3D使用多視圖LDM從輸入圖像生成新視圖,然后進行3D重建以進行交互式渲染。類似地,Bolt3D通過多視圖擴散生成場景外觀和幾何,但直接輸出3D高斯以避免耗時的優化。

文本驅動的場景生成通過利用預訓練的文本到圖像擴散模型提高多樣性和可控性。這些方法無需廣泛的領域特定訓練,通過迭代地移動攝像機視圖,根據文本提示擴展圖像。


PanoGen, AOG-Net, PanoFree, OPaMa, 和 Invisible Stitch迭代地在透視視圖中擴展圖像并將它們無縫拼接成一個全景場景。其他方法利用深度估計器如[294], [295], [296]將RGB圖像合并成統一的3D場景。SceneScape, Text2Room, 和 iControl3D使用3D網格作為中間代理逐步融合擴散生成的圖像成一致的3D場景表示。WonderJourney采用點云表示并利用VLM引導的再生成策略確保視覺保真。Text2NeRF和 3D-SceneDreamer采用基于NeRF的表示以減少幾何和外觀中的錯誤積累,提高在不同場景中的適應性。Scene123進一步通過使用GAN框架增強照片真實感,其中判別器將視頻生成器的輸出與場景生成器的輸出進行比較。通過引入3D高斯splatting, LucidDreamer, Text2Immersion, WonderWorld, RealmDreamer, BloomScene, 和 WonderTurbo采用3D高斯作為3D場景表示以獲得更高質量和更快的渲染。利用強大的大型重建模型,如[306], [307], [308], [309], [310]的最新進展,SynCity通過迭代執行圖像擴展、3D對象生成和拼接實現高質量3D場景的無訓練生成。


另一個研究方向同時進行迭代視圖合成和圖像動畫以從單一圖像構建動態3D場景。3D Cinemagraphy和 Make-It-4D使用分層深度圖像(LDIs)構建特征點云并通過運動估計和3D場景流動畫場景。3D-MOM首先通過從單一圖像生成多視圖圖像優化3D高斯,然后通過估計跨視圖的一致運動優化4D高斯。

視頻生成

最近的視頻擴散模型取得了顯著進展,能夠生成高質量的視頻內容。基于這些進展,視頻驅動的3D場景生成方法可以生成圖像序列,從而合成沉浸式和動態環境。如表1所示,它們通過序列生成提供了高度的真實感和多樣性,受益于幀之間的時間一致性。然而,它們在確保一致的視圖對齊方面面臨挑戰。這些方法可以分為兩階段和單階段類別,其范式如圖6所示。

兩階段生成

如上圖6a所示,兩階段生成將生成過程分為兩個階段,每個階段分別針對多視圖空間一致性和多幀時間一致性。為了進一步提高視圖一致性,這些生成的序列隨后用于優化動態3D場景表示(例如,4D高斯, 可變形高斯)。VividDream首先通過迭代圖像擴展構建靜態3D場景,然后渲染覆蓋整個場景的多視圖視頻,并應用時間反轉來對其進行動畫處理,創建跨視點的動態視頻。PaintScene4D首先使用視頻擴散從文本描述生成視頻,然后通過在每個時間戳進行迭代扭曲和圖像擴展進行細化,以保持多視圖一致性。類似地,4Real,DimensionX, 和 Free4D首先生成一致的參考視頻,然后使用幀條件視頻生成擴展視角。

單階段生成

如上圖6b所示,單階段生成將生成過程整合為一個單一過程,隱式地捕捉時空一致性,以在統一模型中從任何視點和時間步生成單視圖或多視圖視頻。一些方法,如[318], [319], [320], [321], [322], [323], [324], [325] 采用視頻擴散模型進行迭代視圖外推,然后進行3DGS優化以構建靜態場景。為了生成動態場景,GenXD [119] 和 CAT4D采用不同的多視圖-時間策略來構建能夠生成所有時間戳的多視圖視頻模型。StarGen和 Streetscapes使用過去的幀作為視頻生成的指導,通過自回歸方法增強長距離場景合成。通過利用全景圖像的自然多視圖3D先驗,4K4DGen從靜態全景中采樣透視圖像,對其進行動畫處理,并將其對齊成動態全景。360DVD, Imagine360, Genex, 和 DynamicScaler將全景約束整合到視頻擴散模型中以生成球形一致的全景視頻。


在視頻游戲和自動駕駛的場景生成中,這些方法通過整合各種控制信號作為條件來增強控制和真實感。在開放世界游戲環境中,龐大的數據集包括用戶輸入和渲染視頻,使得模型如 DIAMOND, GameNGen, Oasis, GameGenX, 和 WORLDMEM能夠根據用戶交互預測未來幀,創建響應式虛擬環境作為神經游戲引擎。在自動駕駛中,模型如 DriveDreamer, MagicDrive, DriveWM, 和 GAIA-1利用文本、邊界框、鳥瞰圖(BEV)地圖和駕駛員動作等輸入來控制復雜駕駛場景的視頻生成。最近的工作進一步增強視圖一致性,如[340], [341], [342], [343], [344], [345], [346], [347], [348], [349], [350],擴展控制能力,如[118], [351], [352], [353], [354],通過占用實現3D級控制,如[355], [356], [357], [358], [359],支持多模態輸出,如[360], [361], [362],并提高生成速度如[363] 和序列長度,如[364], [365], [366], [367]。

數據集和評估

數據集

我們在下表3中總結了用于3D場景生成的常用數據集,并按場景類型將其分為三類:室內、自然和城市。

從程序化生成到AIGC:3D場景生成技術如何跨越"虛假→真實"鴻溝?-AI.x社區

室內數據集

現有的室內數據集要么是通過RGB或RGB-D傳感器從真實世界場景中收集的,要么是通過專業設計的3D CAD家具模型制作的。真實世界數據集是通過深度、單反或全景相機等傳感器從物理場景中收集的。早期的數據集提供帶有語義標簽的RGB-D或全景圖像(例如,NYUv2, 2D-3D-S),而最近的數據集如ScanNet和Matterport3D則提供密集網格和實例級標注的3D重建。

  • SUN360包含67,583張高分辨率360°×180°全景圖像,采用等矩形格式,手動分類為80種場景類型。
  • NYUv2提供1,449張密集標注的RGB-D圖像,來自464個室內場景,涵蓋每像素語義和實例級對象。
  • SUN-RGBD提供10,335張RGB-D圖像和重建的點云,具有豐富的標注,包括房間類型、2D多邊形、3D邊界框、相機姿態和房間布局。
  • SceneNN提供來自100個室內場景的502K RGB-D幀,具有重建網格、紋理模型、相機姿態以及面向對象和軸對齊的邊界框。
  • 2D-3D-S包括來自六個室內區域的超過70,000張全景圖像,帶有對齊的深度、表面法線、語義標簽、點云、網格、全局XYZ地圖和完整相機元數據。
  • Laval Indoor提供2.2K高分辨率室內全景(7768×3884),具有來自家庭、辦公室和工廠等各種環境的HDR照明。
  • Matterport3D包含來自90棟建筑的194,400個RGB-D視圖的10,800張全景圖像,具有密集的相機軌跡、對齊的深度圖和語義標簽。
  • ScanNet提供來自707個不同空間的1,513次掃描中的2.5M RGB-D幀,具有相機姿態、表面重建、密集3D語義標簽和對齊的CAD模型。
  • Replica提供18個場景中35個房間的高質量3D重建,具有PBR紋理、HDR照明和語義標注。
  • RealEstate10K包含來自10K YouTube視頻的1000萬幀,具有每幀相機參數的室內和室外場景。
  • 3DSSG提供來自3RScan的478個室內房間的場景圖,具有93個對象屬性、40種關系類型和534個語義類。
  • HM3D提供1,000個高分辨率3D重建,涵蓋住宅、商業和公共建筑的室內空間。
  • **ScanNet++**包括使用激光掃描儀、單反和iPhone RGB-D收集的1,000多個場景,具有細粒度語義和長尾類別。
  • DL3DV-10K包含來自65個室內和半室外地點的10,510個視頻序列中的51.2M幀,具有反射和不同照明等多樣的視覺條件。


合成室內數據集克服了真實世界的限制,如有限的多樣性、遮擋和昂貴的標注。使用設計的布局和紋理化的3D資產,數據集如SUNCG和3D-FRONT提供大規模、多樣化的場景。一些如[383], [384]利用高級渲染技術生成具有準確2D標簽的照片級真實圖像。

  • SceneSynth包括130個室內場景(例如,書房、廚房、客廳),具有來自Google 3D Warehouse的1,723個獨特模型。
  • SUNCG提供45,622個手動設計的場景,具有404K個房間和5.7M個對象實例,來自84個類別的2,644個網格。
  • Structured3D包括來自3,500個專業設計房屋的196.5K張圖像,具有詳細的3D標注(例如,線條、平面)。
  • Hypersim提供77.4K張具有PBR材料和照明的照片級真實渲染,用于真實視圖合成。
  • 3D-FRONT提供6,813個專業設計的房屋和18,797個多樣化布置的房間,填充來自3D-FUTURE的高質量紋理化3D對象。
  • SG-FRONT增強3D-FRONT的場景圖標注。

自然數據集

自然場景的數據集仍然有限,主要是由于在開放的戶外環境中進行大規模收集和標注的困難。然而,已經有一些顯著的努力推動了該領域的研究。

  • Laval Outdoor提供205個高分辨率HDR全景圖,涵蓋多樣化的自然和城市場景。
  • LHQ提供來自Unsplash和Flickr的91,693張精選風景圖像,旨在用于高質量圖像生成任務。
  • ACID包含來自891個YouTube視頻的沿海地區的2.1M無人機收集幀,具有通過結構從運動獲得的3D相機軌跡。

城市數據集

城市數據集是通過真實世界圖像或使用游戲引擎合成的,提供2D或3D圖像和標注。真實世界數據集主要關注駕駛場景,由于過去十年自動駕駛的顯著關注,代表數據集有KITTI, Waymo, 和 nuScenes。另一個主要來源是Google的街景和航拍視圖,如HoliCity和GoogleEarth。這些數據集提供豐富的標注,如語義分割和實例分割。

  • KITTI數據集在卡爾斯魯厄收集,包含立體和光流對、39.2公里的視覺里程計,以及使用Velodyne LiDAR、GPS/IMU和帶灰度和彩色相機的立體相機設備進行的超過200K的3D對象標注。
  • SemanticKITTI擴展了KITTI,提供完整360°LiDAR掃描的密集逐點語義。
  • KITTI-360擴展了KITTI,提供73.7公里的駕駛數據、超過150K的圖像、10億3D點,以及使用兩個180°魚眼側攝像機、一個前立體攝像機和兩個LiDAR的設備進行的密集2D/3D標簽。
  • Cityscapes提供來自50個城市的街景視頻,擁有5K像素級和20K粗略標注,用于強監督和弱監督。
  • Waymo提供來自1,150個20秒場景(總共6.4小時)的1M幀,包含12M 3D和9.9M 2D框,使用5個LiDAR和5個高分辨率針孔攝像機在舊金山、山景城和鳳凰城采集。
  • nuScenes提供來自波士頓和新加坡的1,000個20秒場景的1.4M圖像和390K LiDAR掃描,使用6個攝像機、1個LiDAR、5個雷達、GPS和IMU,具有23個類別的3D框跟蹤。
  • HoliCity將6,300個高分辨率全景圖(13312×6656)與倫敦市中心的CAD模型對齊,用于圖像-CAD融合。
  • OmniCity提供來自紐約市25K地點的100K+像素標注的街景、衛星和全景圖像。
  • GoogleEarth提供來自400條Google Earth軌跡的24K紐約圖像,包含2D/3D語義和實例掩碼以及相機參數。
  • OSM數據集來源于Open Street Map,提供80多個全球城市的鳥瞰語義地圖、高度場和道路、建筑及土地使用的矢量數據。

真實世界的標注成本高且視角有限。像CARLA和CityTopia這樣的合成數據集在游戲引擎中構建,提供豐富的街景和無人機視圖以及豐富的2D/3D標注。

  • CARLA是一個基于Unreal Engine的開源仿真器,提供多樣化的城市環境、傳感器仿真(攝像機、LiDAR、雷達)以及可定制的駕駛場景,控制天氣、照明、交通和行人行為,支持RGB圖像的無限渲染及相應的2D/3D標注。
  • CarlaSC提供來自CARLA仿真器中43.2K幀語義場景,收集自8個地圖中的24個序列,在不同交通條件下使用虛擬LiDAR傳感器。
  • Virtual-KITTI-2使用Unity復制5個KITTI序列,提供在不同條件下具有密集標注的深度、分割、光流和對象跟蹤的照片級真實視頻。
  • CityTopia提供來自Unreal Engine中11個程序生成城市的37.5K照片級真實幀,具有精細的2D/3D標注,特點是多樣化的照明和航拍/街景視角。

評估

評估3D場景生成方法對于在不同領域比較不同方法至關重要。已經提出了各種指標來評估生成場景的關鍵方面,包括幾何準確性、結構一致性、視覺真實感、多樣性和物理合理性。本節總結并討論了3D場景生成中常用的評估指標,強調它們與不同生成范式和重點的相關性。

基于指標的評估

保真度通過使用圖像和視頻生成指標來評估生成場景的視覺質量和真實感,特別是對于可渲染輸出如NeRFs、3D高斯或圖像序列。Frechet Inception Distance (FID)、Kernel Inception Distance (KID)和Inception Score (IS)被廣泛用于評估渲染圖像與真實樣本之間的分布相似性。FID和KID計算從預訓練的Inception網絡提取的特征分布之間的統計距離,而IS基于分類置信度測量圖像質量和多樣性。SwAVFID、FDD和FIDCLIP探索替代特征空間以更好地與人類評估相關。無參考圖像質量指標如Natural Image Quality Evaluator (NIQE)、Blind/Referenceless Image Spatial Quality Evaluator (BRISQUE)用于直接從圖像統計估計感知質量。CLIP-IQA結合CLIP特征與學習的IQA模型以更好地在文本或語義條件下與人類感知對齊。為了在3D空間中特定評估照片真實感,F3D是FID的3D適應,基于具有3D CNN架構的預訓練自動編碼器。除了感知評分,一些指標評估生成樣本與真實樣本之間的分布對齊。Minimum Matching Distance (MMD)量化跨分布最近點之間的平均成對距離,Coverage (COV)測量生成樣本覆蓋目標分布的程度,1-Nearest Neighbor Accuracy (1-NNA) 通過使用最近鄰檢索對樣本進行分類來估計模式崩潰或過擬合。


空間一致性指標評估生成場景的3D幾何和多視圖對齊。對于深度誤差,可以使用最先進的單目深度估計模型獲得偽真實深度圖,而場景的深度圖可以使用可靠的運動結構(SfM)管道如COLMAP獲得。對于相機姿態誤差,COLMAP也用于從渲染序列估計相機軌跡。這些預測值與真實值之間的距離使用距離函數計算,如L2距離、RMSE和尺度不變均方根誤差(SI-RMSE)。


時間一致性是評估動態場景或基于視頻輸出的生成3D場景的關鍵指標。流變形誤差(FE)通過計算兩個幀之間光流的變形誤差來測量視頻的時間穩定性。Frechet Video Distance (FVD)基于FID的基本原理,引入了一種不同的特征表示,除了每幀的質量外,還捕捉視頻的時間一致性。專注于生成視頻中的復雜運動模式,Frechet Video Motion Distance (FVMD) 設計基于關鍵點跟蹤的顯式運動特征,通過Frechet距離測量這些特征之間的相似性,以評估生成視頻的運動一致性。


可控性評估響應用戶輸入的能力。CLIP Score利用預訓練的CLIP模型測量生成圖像與條件文本之間的對齊,反映生成如何忠實地遵循用戶指定的提示。


多樣性意味著產生多樣化輸出的能力。類別分布KL散度(CKL)比較合成場景中的對象類別分布與訓練集的分布,較低的散度表明更好的多樣性。場景分類準確性(SCA)使用訓練的分類器區分真實和生成場景,測量合成場景的分布與真實場景的匹配程度。


合理性衡量生成場景遵循物理和語義約束的程度。碰撞率衡量場景中所有生成對象中發生碰撞的對象比例。越界對象面積 (OBA) 評估場景中累積的越界對象面積。

基于基準的評估

為了促進對多樣化3D場景生成方法的公平、可重復和全面的評估,最近的研究越來越多地采用標準化的基準套件,這些套件整合了多個指標、任務配置和質量維度。這一趨勢標志著從僅依賴孤立的定量指標轉向采用更整體的、任務對齊的評估,更好地反映現實世界應用的復雜性。


Q-Align采用大型多模態模型 (LMMs) 來預測與人類判斷一致的視覺質量分數。它涵蓋三個核心維度:圖像質量評估 (IQA)、圖像美學評估 (IAA) 和視頻質量評估 (VQA)。在推理過程中,收集平均意見分數并重新加權以獲得 LMM 預測分數。


VideoScore通過在大規模人類反饋數據集上訓練來實現視頻質量評估。它提供了五個方面的評估:視覺質量 (VQ)、時間一致性 (TC)、動態程度 (DD)、文本到視頻對齊 (TVA) 和事實一致性 (FC)。


VBench和 VBench++ 是用于視頻生成的全面且多功能的基準套件。它們包括視頻生成中的16個維度(例如,主體身份不一致、運動平滑度、時間閃爍和空間關系等)。VBench-2.0 [420] 進一步解決與內在忠實度相關的更復雜的挑戰,包括常識推理、基于物理的真實感、人類運動和創意組合。


WorldScore統一了對3D、4D和視頻模型生成世界能力的評估。它將3D場景生成的評估形式化為由相機軌跡指導的下一個場景生成任務序列,聯合測量各種細粒度特征中的可控性、質量和動態性。

人工評估

用戶研究仍然是捕捉3D場景生成難以通過自動化指標量化的主觀質量(如視覺吸引力、真實感和感知一致性)的重要組成部分。


參與者通常被要求根據多個方面對生成場景進行排序或評分,包括照片真實感、美學、輸入對齊(例如文本或布局)、跨視圖的3D一致性以及物理或語義合理性。理想情況下,參與者應包括領域專家(例如,3D藝術家、設計師、研究人員)和普通用戶。專家可能提供更具批判性和結構化的見解,而非專家則更好地反映普通用戶的印象。


盡管人工評估資源密集且本質上主觀,但它們通過在現實世界背景中捕捉人類偏好來補充其他評估方法,提供了基本的定性見解。像Prolific 和 Amazon Mechanical Turk (AMT) 這樣的平臺促進了多樣化參與者的招募,并使用戶研究的規模化更高效。

應用和任務

3D場景生成的快速進展使得在多個相關領域中實現了多樣化的應用。本節重點介紹3D場景生成應用的關鍵領域,包括3D場景編輯、人景交互、具身智能、機器人技術和自動駕駛。

3D場景編輯

3D場景編輯涉及從單個對象修改到完整環境定制的場景外觀和結構的改變。它廣泛包括紋理編輯,專注于生成風格化或真實的表面外觀,以及布局編輯,涉及物理和語義合理的對象排列。


紋理化和風格化旨在根據用戶規格創建美觀和風格化的外觀。雖然最近的進展在掃描網格或合成室內數據集上取得了令人印象深刻的成果,但它們受限于重建的不完整幾何或廣泛的手動建模。為了解決這些限制,最近的方法利用3D場景生成來合成完整且語義一致的場景,直接支持紋理生成任務。


方法如 Ctrl-Room、ControlRoom3D、RoomTex 和 DreamSpace采用整體生成技術來創建全景房間紋理,然后進行詳細的細化。除了直接生成,3D場景生成還促進了紋理化方法的評估。InstanceTex在現有數據集和由 EchoScene生成的新場景中生成紋理,提高了基準評估的多樣性和魯棒性。


3D場景布局編輯專注于在場景中排列對象以產生語義上有意義和物理合理的配置。幾種方法,如 LEGO-Net、CabiNet和 DeBaRA,處理現有場景的重新排列。這些方法使用對象級屬性,如類別標簽、位置和方向,以產生更有組織和規律的排列。一些方法支持更互動和動態的布局編輯。例如,SceneExpander和 SceneDirector通過直觀的用戶交互啟用實時編輯,如修改房間形狀或移動對象,并自動更新周圍對象以保持空間一致性。最近在組合生成 NeRF 的進展進一步推動布局控制的邊界,使得隱式表示的編輯成為可能。


DisCoScene、Neural Assets和 Lift3D通過調整控制信號(如空間位置或潛在特征)實現對象級編輯,允許靈活和可控的場景操作。

人類-場景交互

人類-場景交互(Human-Scene Interaction,HSI)關注于建模人類如何與其環境互動并對其產生影響。逼真的角色動畫和行為建模需要合成虛擬角色與其環境之間可信的交互。HSI 的最新進展在生成逼真且物理上合理的人類動作方面取得了顯著成果 ,同時也能創建與特定動作序列相匹配的場景。


為了在場景環境的條件下生成人體動作,一些方法,如[437], [440], [441], [442] 直接從包含掃描室內場景和捕捉到的人體動作的數據集中學習。然而,這些數據集在可擴展性方面通常有限,并且局限于靜態場景,無法建模動態的人物-物體交互。另一些工作,如[438], [439], [446], [447], [448] 則使用帶有強化學習的仿真環境來生成物理上合理的動作。然而,由于高昂的搭建成本,這些仿真通常依賴于簡化的場景,從而在合成訓練與現實世界應用之間引入了“仿真到現實差距”(sim-to-real gap),因為現實環境更加復雜和多樣。


近期如 GenZI的工作初步解決了這一問題,通過將二維圖像中生成的人體提升到三維,實現了對新場景的零樣本泛化。盡管 GenZI 仍依賴于預設計的合成場景進行評估,但它突顯了將場景生成與動作生成結合起來,以更有效地擴展 HSI 數據的潛力。集成高質量的三維場景生成對于推動可擴展且逼真的 HSI 研究至關重要,特別是在同時考慮人體可達性、動作可行性和場景語義的情況下。

具身智能

在具身智能中,智能體與環境交互,以發展高級語義理解和目標導向行為。三維場景生成通過提供視覺和功能上豐富的環境來支持這一點,使得導航、探索和指令執行等任務成為可能,重點在于認知推理而非精確的物理控制。


仿真環境通常基于重建的現實世界數據或手工設計的場景構建,但這兩種方法都有局限性:現實世界數據集存在質量和標注問題,而手工創建則勞動密集且難以擴展。在這種背景下,三維場景生成為具身智能研究創建仿真環境提供了一種可擴展、多樣化且物理合理的替代方案。


對于室內環境,ProcTHOR使用程序生成來創建遵循現實布局和物理約束的場景。


Holodeck利用大語言模型(LLM)根據用戶提供的提示自動生成匹配的三維環境。InfiniteWorld 進一步通過不同紋理擴展資產,以生成更加多樣化和風格化的場景。


PhyScene將物理與交互性約束集成到條件擴散模型中,以合成物理上可信的交互環境。Architect采用基于圖像的迭代修復方法,用大型家具和小物體填充場景,豐富了場景的復雜性。超越室內設置,程序化方法也實現了城市級別的仿真。MetaUrban、GRUtopia和 URBAN-SIM構建了多樣化、大規模的城市環境供具身智能體使用。EmbodiedCity提供了一個基于真實城市的高質量三維真實環境,支持多種智能體、連續決策制定以及系統化的具身智能基準任務。

機器人技術

在機器人技術中,三維場景生成使得在物理真實的環境中學習低層次技能(如操控和控制)成為可能。這些場景通常嵌入在仿真器中,其中對動力學和接觸的準確建模對于訓練機器人在現實中有效地感知、規劃和行動至關重要。


仿真環境已成為開發機器人在復雜操控和運動等多種任務中能力的核心工具。然而,近期的機器人學習方法 仍需要大量人工來構建這些環境及相應的演示,限制了機器人學習在即便是仿真世界中的可擴展性。RoboGen和 RoboVerse通過“提議-生成-學習”循環自動化任務、場景和監督的生成,在該循環中,智能體提出技能,生成具有合理物體布局的環境,并以最小的人類輸入進行學習。Eurekaverse進一步通過使用大語言模型逐步生成多樣化且日益具有挑戰性的地形,形成適應性課程以進行跑酷訓練。


除了顯式構建仿真環境外,三維場景生成還可作為世界模型,用于預測未來幀,以視覺方式表示預期動作,使機器人能夠在虛擬環境中仿真并預測復雜操控任務。面向機器人的視頻生成模型旨在根據文本或圖像等輸入合成視頻,特別是幫助機器人通過預測未來動作序列以物理上可行的方式可視化和規劃復雜操控任務。一些方法,如[477], [478], [479] 并不直接生成視頻幀,而是利用 NeRFs 和動態三維高斯模型來捕捉現實環境的空間和語義復雜性,從而實現更準確的動作估計和規劃。

自動駕駛

三維場景生成在自動駕駛中日益重要,它提供了可控、可擴展且多樣化的真實環境仿真。這些能力有助于克服現實數據集和環境的局限性,支持自動駕駛系統的關鍵組件,如預測建模和數據生成。


一些3D場景生成方法作為自動駕駛的世界模型,支持未來場景預測、風險預判以及更安全、更高效的動作規劃。一些方法,如[39], [118], [337], [338], [339], [355], [364], [366] 專注于預測未來視頻幀,而另一些方法 [480], [481], [482], [483], [484] 則生成三維占據信息以顯式建模環境。借助高保真生成,DriveArena和 DrivingSphere引入了閉環仿真器,用于訓練和評估自動駕駛智能體,使其能在閉環方式中持續學習和演化。


自動駕駛需要大規模、多樣化的數據集,但現實世界的數據集(如 nuScenes、KITTI和 Waymo)成本高昂,且很少捕捉到關鍵的極端情況。可控的視頻生成方法,比如[341], [343], [344], [345], [353] 通過靈活控制天氣、光照和交通條件,合成多樣化的駕駛場景,特別是用于罕見和安全關鍵事件。

挑戰與未來方向

挑戰

盡管近期取得了諸多進展,3D 場景生成仍有巨大改進潛力。


生成能力。 現有的生成模型在同時滿足照片真實感、3D 一致性和可控性方面存在權衡。程序化和基于神經網絡的 3D 方法在生成幾何一致、空間布局可控的場景方面表現出色,但在生成真實感紋理和光照方面常常表現不足。相比之下,基于圖像和視頻的生成模型在視覺真實感方面表現優異,但難以保持 3D 一致性,導致如幾何失真、不現實的物體交互或不可信的物理動態等偽影。因此,當前模型仍難以合成復雜的、多物體的場景,這些場景既要在視覺上可信,又要在物理上合理。


3D 表示。 3D 場景表示的演進經歷了以幾何為中心的體素網格和點云格式,這些格式難以捕捉真實感外觀,再到 NeRFs,其提高了視覺質量但效率低下且缺乏顯式幾何。近期如 3D 高斯模型的進展在效率上有所提升,但仍缺乏幾何基礎,限制了其在重光照或物理交互等任務中的適用性。基于網格和貝塞爾三角形的方法在一定程度上通過引入顯式的表面表示緩解了這些限制,但主要局限于物體級別的生成。在場景層面,緊湊、物理上有意義且視覺上真實的表示仍然是一個未解決的難題,阻礙了可控和可泛化的 3D 場景生成的進展。


數據與標注。 3D 場景生成的進展與數據集質量密切相關。合成數據集提供了精確的標注,但由于當前游戲引擎的渲染限制,其內容多樣性有限、照片真實感不足。相比之下,真實世界掃描提供了視覺上真實的圖像,但通常缺乏足夠的標注。雖然基于圖像和視頻的生成方法減少了對標注的需求,但它們仍難以捕捉準確的 3D 幾何,常常導致空間失真。此外,現有數據集很少包含豐富的元數據,如物理可供性、材質屬性或交互線索,這限制了其在機器人、具身智能和物理仿真等更廣泛應用中的潛力。


評估。 3D 場景生成中一個持續的挑戰是缺乏統一的評估協議。方法通常依賴于不同的評估指標,導致難以進行一致比較。基準測試工作在一定程度上通過引入標準化且符合人類直覺的評估框架緩解了這一問題。然而,當前的基準測試主要基于文本或圖像進行條件設定,較少支持布局、動作或軌跡等其他輸入形式。此外,評估仍主要集中于圖像和視頻的保真度,未能充分評估底層的 3D 幾何和物理合理性。近期如 Eval3D的工作引入了一個開始涵蓋 3D 結構、語義和幾何一致性的基準,但它仍局限于物體級別生成,缺乏場景級別的復雜性。

未來方向

鑒于已取得的重大進展以及上述關鍵挑戰,我們認為未來的 3D 場景生成研究可以在以下方向上繼續推進。


更高保真度。 高保真的3D場景生成要求在幾何、紋理、光照和多視角一致性方面具備協調性。當前方法常常在幾何精度和視覺豐富性之間做出權衡,未來模型應致力于彌合結構與外觀之間的鴻溝。關鍵目標包括改進材質和光照建模、跨視角保持一致的物體身份,以及捕捉諸如陰影和遮擋等細微線索。實現場景級別的保真度還意味著將局部細節與全局空間和語義一致性對齊,從而生成更真實、更有用的 3D 環境。


具備物理意識的生成。 盡管視覺方面取得了令人印象深刻的進展,當前方法往往忽視了生成場景的物理合理性。為了確保物體的放置和關節符合物理定律,未來的工作應在生成過程中引入物理先驗、約束或仿真。將基于物理的反饋機制(如可微分仿真器)整合進來,是實現結構、語義與物理行為聯合優化的一個有前景的路徑。這些能力對于具身智能和機器人尤為重要,因為智能體依賴物理一致的環境進行有效的規劃和控制。


交互式場景生成。 近期在4D場景生成方面的進展使得可以構建包含可移動物體的動態環境。然而,這些場景仍然在很大程度上是非交互式的,物體不會響應用戶輸入或環境變化。因此,當前的生成模型產生的是被動而非響應式的體驗。一個關鍵的未來方向是交互式場景生成,其中場景包含能夠對物理交互、用戶指令或上下文變化作出有意義響應的交互物體。實現這一目標需要模型超越幾何和運動,融入對物體可供性、因果關系和多智能體動態的推理能力。


統一的感知-生成架構。 一個有前景的前沿方向是將感知與生成統一在一個共享模型下。諸如分割、重建和場景合成等任務可以從共同的空間和語義先驗中受益。

此外,生成任務本質上要求理解輸入模態。一個統一的架構可以利用雙向能力:通過感知基礎增強生成性能,并通過生成建模提升場景理解。這類模型可以作為具身智能體的通用主干,支持在視覺、語言和三維空間表示之間的聯合推理。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/F-HZOGGvTrgev0yhM1FMmg??

已于2025-5-14 09:35:20修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久精品97| 亚洲欧洲在线观看视频 | 成人精品视频在线 | 欧美a级成人淫片免费看 | 国产欧美日韩在线播放 | 免费视频一区二区 | 亚洲精品久久 | 免费在线h视频 | 99视频在线免费观看 | 在线观看中文字幕av | 成人午夜免费在线视频 | 三级av网址 | 国产成人一区二区三区 | 97精品超碰一区二区三区 | 精品乱码一区二区三四区视频 | 暖暖日本在线视频 | 欧美性网 | 日韩精品成人 | 欧美在线视频一区二区 | 久久亚洲春色中文字幕久久久 | 国产精品久久久久久久粉嫩 | 成人黄色在线观看 | 欧洲成人午夜免费大片 | 99国产精品99久久久久久粉嫩 | 999久久久久久久久6666 | 成人午夜在线 | 欧美日韩成人影院 | 国产精品久久久久久一区二区三区 | 成人视屏在线观看 | 欧美老妇交乱视频 | 国产日韩欧美在线 | 亚洲精品一区二区网址 | 欧美一级一区 | 亚洲一区视频在线 | 久久最新精品视频 | www.久 | 91福利在线观看视频 | 国产高清视频在线播放 | 日韩在线精品 | 久久久久香蕉视频 | 日韩中文在线视频 |