通向AGI的未來之路!首篇2D/視頻/3D/4D統一生成框架全景綜述(港科大&中山等)
文章鏈接: https://arxiv.org/pdf/2503.04641
亮點直擊
- 首次統一2D、視頻、3D和4D生成研究的綜述,為該研究領域提供了結構化和全面的概述。
- 從數據維度增長的角度,通過多模態生成模型的視角,系統性地回顧了現實世界模擬的方法。
- 從多個角度調查了常用數據集、其特性以及相應的評估指標。
- 它指出了開放的研究挑戰,旨在為該領域的進一步探索提供指導。
理解并復現現實世界是通用人工智能(AGI)研究中的一個關鍵挑戰。為實現這一目標,許多現有方法(例如世界模型)旨在捕捉支配物理世界的基本原理,從而實現更精確的模擬和有意義的交互。然而,當前的方法通常將不同模態(包括2D(圖像)、視頻、3D和4D表示)視為獨立領域,忽略了它們之間的相互依賴性。此外,這些方法通常專注于現實的孤立維度,而沒有系統地整合它們之間的聯系。本綜述提出了一種多模態生成模型的統一綜述,探討了現實世界模擬中數據維度的演進。具體而言,本綜述從2D生成(外觀)開始,隨后轉向視頻(外觀+動態)和3D生成(外觀+幾何),最后以整合所有維度的4D生成為終點。據我們所知,這是首次嘗試在單一框架內系統性地統一2D、視頻、3D和4D生成的研究。為指導未來研究,全面回顧了數據集、評估指標和未來方向,并為新研究者提供了啟發。本綜述作為橋梁,推動了多模態生成模型和現實世界模擬在統一框架內的研究進展。
1 引言
幾十年來,研究界一直致力于開發能夠封裝物理世界基本原理的系統,這是實現通用人工智能(AGI)的關鍵基石。這一努力的核心是通過機器模擬現實世界,旨在通過多模態生成模型的視角捕捉現實的復雜性。由此產生的世界模擬器有望推動對現實世界的理解,并解鎖諸如虛擬現實 、游戲、機器人和自動駕駛等變革性應用。
“世界模擬器”一詞最早由 Ha David提出,借鑒了認知科學中的心理模型概念。基于這一視角,現代研究將模擬器定義為一個抽象框架,使智能系統能夠通過多模態生成模型模擬現實世界。這些模型將現實世界的視覺內容和時空動態編碼為緊湊的表示形式。由于幾何、外觀和動態共同決定了生成內容的真實感,這三個方面得到了廣泛研究。傳統的現實世界模擬方法長期以來依賴于結合幾何、紋理和動態的圖形技術。具體而言,幾何和紋理建模用于創建物體,而關鍵幀動畫和基于物理的模擬等方法則用于模擬物體隨時間的運動和行為。
盡管取得了巨大進展,但這些傳統方法通常需要大量的手動設計、啟發式規則定義和計算密集型處理,限制了其可擴展性和對多樣化場景的適應性。近年來,基于學習的方法,特別是多模態生成模型,通過提供數據驅動的現實模擬方法,徹底改變了內容創作。這些方法減少了對人工努力的依賴,提高了跨任務的泛化能力,并實現了人與模型之間的直觀交互。例如,Sora 因其逼真的模擬能力而備受關注,展示了早期對物理定律的理解。此類生成模型的出現引入了新的視角和方法,通過減少對大量手動設計和計算密集型建模的需求,同時增強多樣化模擬場景中的適應性和可擴展性,解決了傳統方法的局限性。
盡管現有的生成模型為合成不同數據維度中的逼真內容提供了強大的技術,但現實世界表現出固有的高維復雜性,目前仍缺乏一項系統整合這些跨維度進展的全面綜述。本綜述旨在通過從數據維度增長的角度統一現實世界模擬的研究,填補這一空白,如下圖 1 所示。具體而言,從 2D 生成(僅外觀)開始,然后通過分別引入動態和幾何維度,擴展到視頻和 3D 生成。最后,通過整合所有維度,以 4D 生成為終點。
總結而言,本綜述做出了三項關鍵貢獻。首先,它從數據維度增長的角度,通過多模態生成模型的視角,系統性地回顧了現實世界模擬的方法。據我們所知,這是首次統一 2D、視頻、3D 和 4D 生成研究的綜述,為該研究領域提供了結構化和全面的概述。其次,它從多個角度調查了常用數據集、其特性以及相應的評估指標。第三,它指出了開放的研究挑戰,旨在為該領域的進一步探索提供指導。
希望本綜述能夠為新研究者提供有價值的見解,并促進經驗豐富的研究者進行批判性分析。本綜述的組織結構如下:第 2 節介紹了深度生成模型的基礎概念;第 3 節介紹了 2D、視頻、3D 和 4D 生成四個關鍵范式;第 4 節回顧了這些范式的數據集和評估指標;第 5 節概述了未來方向;第 6 節總結了本綜述。
2 預備知識
2.1 生成對抗網絡(GANs)
2.2 變分自編碼器(VAEs)
2.3 自回歸模型(AR Models)
其中, d是序列長度。最近,許多研究致力于使用自回歸模型對圖像中的像素進行順序建模 [19]–[21]。
2.4 歸一化流(Normalizing Flows, NFs)
2.5 擴散模型
3 范式
本節從數據維度增長的角度介紹了模擬現實世界的方法。首先從外觀建模的 2D 生成(第 3.1 節)開始,然后通過引入動態和幾何維度,擴展到視頻生成(第 3.2 節)和 3D 生成(第 3.3 節)。最后,通過整合這三個維度,介紹了 4D 生成(第 3.4 節)的最新進展。
3.1 2D 生成
近年來,生成模型領域取得了顯著進展,尤其是在文本到圖像生成方面。文本到圖像生成因其能夠通過捕捉現實世界的外觀從文本描述中生成逼真圖像而備受關注。利用擴散模型、大語言模型(LLMs)和自編碼器等技術,這些模型實現了高質量且語義準確的圖像生成。
3.1.1 算法
Imagen 基于 GLIDE 的原則,但引入了顯著的優化和改進。Imagen 沒有從頭開始訓練任務特定的文本編碼器,而是使用預訓練并凍結的語言模型,從而減少了計算需求。Imagen 測試了在圖像-文本數據集(如 CLIP)上訓練的模型,以及在純文本數據集(如 BERT 和 T5)上訓練的模型。這一實踐表明,擴大語言模型的規模比擴大圖像擴散模型更有效地提高了圖像保真度和文本一致性。
DALL-E(v1版本)使用了一種 Transformer 架構,將文本和圖像作為單一數據流進行處理。
DALL-E 2 利用了 CLIP 的強大語義和風格能力,采用生成擴散解碼器來逆轉 CLIP 圖像編碼器的過程。
DALL-E 3 在 DALL-E 2 的基礎上進一步改進,顯著提升了圖像保真度和文本對齊能力。它增強了文本理解能力,能夠從復雜描述中生成更準確和細致的圖像。DALL-E 3 與 ChatGPT集成,使用戶可以直接在 ChatGPT 界面中構思和完善提示,從而簡化生成詳細和定制化提示的過程。該模型生成的圖像具有更高的真實感,并與提供的文本更好地對齊,使其成為創意和專業應用的強大工具。
DeepFloyd IFDeepFloyd IF 以其卓越的 photorealism(超寫實主義)和高級語言理解能力而聞名。該系統采用模塊化設計,包括一個靜態文本編碼器和三個順序的像素擴散模塊。首先,基礎模型從文本描述生成 64×64 像素的圖像,然后通過兩個超分辨率模型將其增強到 256×256 像素,最終達到 1024×1024 像素。每個階段都使用基于 T5 Transformer 的靜態文本編碼器生成文本嵌入,隨后通過集成了交叉注意力和注意力池化機制的 U-Net 架構進行處理。
Stable Diffusion (SD)Stable Diffusion(SD),也稱為 Latent Diffusion Model(LDM),在有限的計算資源上提高了訓練和推理效率,同時生成高質量和多樣化的圖像。去噪過程在預訓練自編碼器的隱空間中進行,這些自編碼器將圖像映射到空間隱空間。底層的 U-Net 架構通過交叉注意力機制增強,以建模條件分布,條件可以包括文本提示、分割掩碼等。它使用 BERT 分詞器進行文本編碼,并在 LAION-400M數據集上訓練,生成分辨率為 256×256 的圖像(隱空間分辨率為 32×32)。
在 Stable Diffusion 的基礎上,SDXL 采用了三倍大的 U-Net 骨干網絡,并引入了額外的注意力塊和更大的交叉注意力上下文,通過使用第二個文本編碼器實現。此外,SDXL 還包含一個細化模型,通過后處理的圖像到圖像技術增強 SDXL 生成樣本的視覺保真度。
FLUX.1FLUX.1 采用了一種混合架構,集成了多模態和并行擴散 Transformer 塊,達到了 120 億參數的規模。通過使用流匹配(flow matching)這一簡單而有效的生成模型訓練技術,FLUX.1 超越了之前的最先進擴散模型。該套件還采用了旋轉位置嵌入和并行注意力層,極大地提高了模型性能和效率。
3.2 視頻生成
文本到視頻生成模型通過擴展文本到圖像框架來處理現實世界中的動態維度。根據不同的生成機器學習架構將這些模型分為三類。下圖 2 總結了最近的文本到視頻生成技術。如需更詳細的綜述,讀者可以參考該子領域的更多詳細綜述 [62], [63]。
3.2.1 算法
(1) 基于 VAE 和 GAN 的方法在擴散模型之前,視頻生成研究主要通過兩種方法推進:基于 VAE 和基于 GAN 的方法,每種方法都為視頻合成的挑戰提供了獨特的解決方案。基于 VAE 的方法從 SV2P的隨機動態發展到 VideoGPT 中 VQ-VAE與 Transformer 的結合,通過分層離散隱空間變量高效處理高分辨率視頻。FitVid的參數高效架構和對抗訓練的引入帶來了顯著改進。基于 GAN 的方法則從 MoCoGAN開始,通過分解內容和運動組件實現可控生成。StyleGAN-V 通過位置嵌入將視頻視為時間連續信號,而 DIGAN引入了隱式神經表示以改進連續視頻建模。StyleInV利用預訓練的 StyleGAN生成器,結合時間風格調制反演網絡,標志著高質量幀合成和時間一致性的又一里程碑。
(2) 基于擴散的方法文本到視頻生成最近取得了顯著進展,主要分為兩類:基于 U-Net 的架構和基于 Transformer 的架構。
- (i) 基于 U-Net 的架構開創性的視頻擴散模型(VDM) 通過擴展圖像擴散架構并引入聯合圖像-視頻訓練以減少梯度方差,實現了高保真、時間一致的視頻生成。Make-A-Video通過利用現有視覺表示和創新時空模塊,在沒有配對文本-視頻數據的情況下推進了文本到視頻生成。Imagen Video引入了結合基礎生成和超分辨率的擴散模型級聯,而 MagicVideo通過在低維空間中的隱空間擴散實現了高效生成。GEN-1專注于使用深度估計進行結構保留編輯,而 PYoCo通過精心設計的視頻噪聲先驗展示了在有限數據下的高效微調。Align-your-Latents通過擴展 Stable Diffusion并結合時間對齊技術,實現了高分辨率生成(1280×2048)。Show-1結合了基于像素和基于隱空間的方法,以提高質量并減少計算量。VideoComposer通過時空條件編碼器引入了一種新的可控合成范式,支持基于多種條件的靈活組合。AnimateDiff提出了一個即插即用的運動模塊,具有可遷移的運動先驗,并引入了 MotionLoRA 以實現高效適配。PixelDance通過結合首幀和末幀圖像指令以及文本提示,增強了生成效果。
- (ii) 基于 Transformer 的架構隨著 Diffusion Transformer (DiT)的成功,基于 Transformer 的模型逐漸嶄露頭角。VDT引入了模塊化的時間和空間注意力機制,支持預測、插值和補全等多樣化任務。W.A.L.T通過統一的隱空間和因果編碼器架構實現了照片級真實感生成,生成分辨率為 512×896 的高分辨率視頻。Snap Video通過處理空間和時間冗余像素,將訓練效率提高了 3.31 倍,而 GenTron通過無運動引導擴展到了超過 30 億參數。Luminia-T2X通過零初始化注意力和標記化的隱時空空間集成了多種模態。CogVideoX通過專家 Transformer、3D VAE 和漸進訓練在長視頻生成中表現出色,通過多項指標驗證了其最先進的性能。突破性的 Sora是一種先進的擴散 Transformer 模型,專注于生成不同分辨率、寬高比和時長的高質量圖像和視頻。Sora 通過對隱時空空間進行標記化,實現了靈活且可擴展的生成能力。
?
(3) 基于自回歸的方法與基于擴散的方法并行,受大語言模型(LLMs)啟發的自回歸框架也成為了視頻生成的另一種方法。這些方法通常遵循兩階段過程:首先使用 VQ-GAN和 MAGVIT, [71]–[74] 等向量量化自編碼器將視覺內容編碼為離散的隱空間標記,然后在隱空間中建模標記分布。CogVideo 是一個基于預訓練文本到圖像模型 CogView 的 90 億參數 Transformer 模型,代表了這一方向的重大進展。它采用多幀率分層訓練策略來增強文本-視頻對齊,并作為首批開源的大規模預訓練文本到視頻模型之一,在機器和人類評估中設立了新的基準。VideoPoet引入了一種僅解碼器的 Transformer 架構,用于零樣本視頻生成,能夠處理包括圖像、視頻、文本和音頻在內的多種輸入模態。遵循 LLM 訓練范式,VideoPoet 在零樣本視頻生成中實現了最先進的性能,特別是在運動保真度方面表現出色。
3.2.2 應用
(1) 視頻編輯
最近,擴散模型顯著推動了視頻編輯的發展,能夠在保持時間一致性的同時實現復雜的修改。該領域通過多種創新方法不斷發展,涵蓋了視頻操作的各個方面。早期的發展包括 Tune-A-Video,它通過時空注意力機制將文本到圖像擴散模型擴展到視頻生成。VidToMe引入了標記合并以對齊幀,而 EI開發了專門的注意力模塊。Ground-A-Video通過接地引導框架處理多屬性編輯,而 Video-P2P引入了交叉注意力控制以生成角色。UniEdit和 AnyV2V等最新框架提供了無需調優的方法和簡化的編輯流程。CoDeF和 Pix2Video等專門應用引入了創新的時間一致性處理和漸進變化傳播技術。這些方法成功平衡了內容編輯和結構保留,標志著視頻操作技術的重大進展。
(2) 新視角合成
視頻擴散模型徹底改變了新視角合成,通過學習真實世界幾何的先驗,從有限的輸入圖像生成高質量視角。ViewCrafter通過將視頻擴散模型與基于點的 3D 表示相結合,開創了這一方向,引入了迭代合成策略和相機軌跡規劃,從稀疏輸入中生成高保真結果。CameraCtrl通過即插即用模塊引入了精確的相機姿態控制。ViVid-1-to-3將新視角合成重新定義為相機運動的視頻生成,而 NVSSolver引入了一種零樣本范式,通過給定視圖調制擴散采樣。這一趨勢表明,利用視頻擴散先驗的同時保持幾何一致性和相機控制,正在推動越來越逼真的合成應用。
(3) 視頻中的人類動畫
人類動畫在視頻生成中具有重要意義,正如第 3.2.1 節所述,它在世界模擬器中扮演著關鍵角色。由于人類是現實世界中最主要的參與者,因此其逼真模擬尤為重要。得益于生成模型的早期成功,一些代表性工作 [37], [89], [90] 引入了生成對抗網絡(GAN)來生成視頻中的人類動畫。盡管取得了這些進展,人類視頻動畫中最關鍵的問題仍然是生成視頻的視覺保真度。ControlNet 和 HumanSD 是基于基礎文本到圖像模型(如 Stable Diffusion [31])的即插即用方法,用于參考姿勢生成人類動畫。此外,為了解決這些方法的泛化問題,animate-anyone 提出了 ReferenceNet 以保持參考視頻的更多空間細節,并將野外生成質量推向了新的里程碑。一些后續工作 [94], [95] 嘗試簡化訓練架構和成本。此外,隨著計算機圖形學中對幾何和紋理的深入研究,一些工作將 3D 建模引入人類視頻動畫。Liquid Warping GAN、CustomHuman 和 LatentMan是早期嘗試將 3D 人類先驗引入生成循環的成果。最新進展 MIMO 明確分別建模角色、3D 運動和場景,以驅動野外人類動畫。這些方法無論是否使用 3D 先驗,都為將人類引入世界模擬器循環邁出了重要一步。
3.3 3D 生成
3D 生成關注幾何結構和外觀,以更好地模擬現實世界場景。在本節中,探討各種 3D 表示和生成算法,并對最新進展進行系統概述。具體而言,根據輸入模式對 3D 生成方法進行分類,包括 文本到 3D 生成(Text-to-3D Generation),該方法直接從文本描述合成 3D 內容;圖像到 3D 生成(Image-to-3D Generation),該方法通過引入圖像約束優化基于文本的輸出;視頻到 3D 生成(Video-to-3D Generation),該方法利用視頻先驗信息生成更一致的 3D 結果。圖 4 按時間順序總結了這些技術的進展,而表 2 則對最前沿的方法進行了全面比較。值得注意的是,一些方法跨多個類別,展示了現代 3D 生成技術的多功能性。
3.3.1 3D 表示
在 3D 生成領域,選擇最優的 3D 表示至關重要。對于神經場景表示,3D 數據通常可分為三類:顯式表示(explicit representations)、隱式表示(implicit representations)和 混合表示(hybrid representations),這些類別在圖 3 中有所展示。
(1) 顯式表示
顯式表示通過一組元素清晰地可視化對象和場景。傳統形式包括 點云(point clouds)、網格(meshes)和 體素(voxels),這些方法已廣泛應用多年。
(2) 隱式表示
隱式表示使用連續函數(如數學模型或神經網絡)來描述 3D 空間,捕捉體積特性,而非直接表示表面幾何。隱式神經表示利用神經網絡逼近這些函數,提高表現力,但帶來了更高的訓練和推理開銷。主要方法包括 有向距離場(Signed Distance Field, SDF)和 神經輻射場(Neural Radiance Field, NeRF)。
(3) 混合表示
目前,大多數隱式方法依賴于回歸 NeRF 或 SDF 值,這可能限制它們利用目標視圖或表面的顯式監督能力。而顯式表示提供了有益的訓練約束并改善用戶交互。混合表示結合了二者的優勢,是顯式和隱式表示之間的一種折中方案。
- 混合體素網格在方法 [110]–[112] 中有所應用,例如 [111] 通過密度和特征網格重建輻射場,而Instant-NGP[112] 利用哈希多層網格優化 GPU 性能,以加速訓練和渲染。
- DMTet將四面體網格與implicit SDF相結合,用于靈活的3D表面表示。神經網絡預測每個頂點的SDF值和位置偏移,從而可以對復雜的拓撲進行建模。網格通過可微的Marching Tetrahedra(MT)層轉換為網格,實現了高效、高分辨率的渲染。通過基于網格的損失優化幾何和拓撲,DMTet實現了更精細的細節、更少的偽影,并在復雜3D數據集上從粗體素進行條件形狀合成方面優于以前的方法。
- 三平面表示(Tri-plane)通過將 3D 體積分解為三個正交的 2D 特征平面(XY、XZ、YZ),提供了一種節省內存的替代方案。例如EG3D采用此結構,并使用 MLP 聚合平面特征以預測 3D 點的顏色和密度:
該方法比基于體素的 NeRF 更節省內存,并能實現更快的渲染。
3.3.2 算法
(1) 文本到 3D 生成
為了通過模擬真實世界中的幾何結構,從文本提示生成 3D 內容,已經進行了大量研究,并且可以分為三個分支。讀者可以參考 [161]–[163] 以獲取該領域更全面的綜述。
- (i) 前饋方法
受文本到圖像生成的啟發,一類主要的方法擴展了現有成功的生成模型,以在一次前饋傳播中直接從文本提示合成 3D 表示。成功的關鍵在于將 3D 幾何編碼為緊湊的表示,并使其與相應的文本提示對齊。
Michelangelo首先構建了一個 VAE 模型,將 3D 形狀編碼到一個隱空間嵌入中。然后,該嵌入使用 CLIP模型與從語言和圖像中提取的嵌入進行對齊。通過使用對比損失進行優化,可以從文本提示推斷出 3D 形狀。
ATT3D使用Instant-NGP模型作為 3D 表示,并通過映射網絡將其與文本嵌入連接起來。然后,從 Instant-NGP 模型渲染多視圖圖像,并使用 SDS 損失優化整個網絡。
受 ATT3D 啟發,Atom學習從文本嵌入預測三平面(triplane)表示,并采用兩階段優化策略。
Hyperfields訓練一個動態超網絡,以記錄從不同場景學習到的 NeRF 參數。
最近,擴散模型(diffusion models)的出色表現促使研究人員將其擴展到 3D 生成。早期方法主要專注于學習從文本提示(text prompt)合成顯式 3D 表示。具體來說,Point·E首先使用 GLIDE生成多個視角的圖像,然后利用擴散模型將這些圖像作為條件生成點云(point cloud)。隨后,MeshDiffusion使用擴散模型建立從文本到網格(meshes)的映射。
后續方法嘗試將擴散模型應用于隱式 3D 表示(implicit 3D representations)。Shap·E 首先將 3D 內容映射到輻射場(radiance field)的參數,并訓練擴散模型生成這些參數,以文本嵌入(text embedding)作為條件。3D-LDM 使用 SDF(簽名距離場)表示 3D 內容的幾何信息,并訓練擴散模型進行基于文本的生成。同樣,Diffusion-SDF 通過體素化(voxelized)的擴散模型構建一個 SDF 自編碼器(autoencoder),從文本提示生成體素化的 SDFs。LATTE3D 發展了一個紋理網絡(texture network)和一個幾何網絡(geometry network),分別生成 NeRF 和 SDF,并以文本嵌入作為條件。然后,通過 SDS 損失優化一個 3D 感知的擴散模型。
討論:與基于優化的方法相比,前饋方法(feedforward approaches)效率更高,并且能夠在無需測試時優化(test-time optimization)的情況下生成 3D 內容。然而,這些方法依賴于大量數據,并且通常在結構和紋理細節方面表現較差。
- (ii) 基于優化的方法(Optimization-based Approaches)
在文本到圖像生成的基礎上,另一類方法通過利用強大的文本到圖像生成模型提供豐富的監督信號,以優化 3D 表示。
DreamFusion首次引入得分蒸餾采樣(Score Distillation Sampling, SDS)損失,以優化從文本提示合成的圖像的 NeRF。MVDream通過微調一個多視角擴散模型(multi-view diffusion model),以生成跨視角一致的多視角圖像,從而訓練 NeRF 以捕捉 3D 內容。Magic3D采用帶有紋理的網格(textured meshes)來表示 3D 物體,并使用 SDS 損失優化網格。Dream3D首先從文本提示生成圖像,然后利用該圖像生成 3D 形狀,以初始化神經輻射場(NeRF),隨后 NeRF 通過 CLIP 指導進行優化。Fantasia3D 進一步結合 DMTet 和 SDS 損失,從文本提示生成 3D 物體。
ProlificDreamer發展了一種變分得分蒸餾(VSD)方法,以建模 3D 表示的分布,并產生更高質量、細節豐富的結果。為了應對多面 Janus(multi-face Janus)問題,PI3D先微調文本到圖像擴散模型,以生成偽圖像(pseudo-images),然后利用這些圖像通過 SDS 損失生成 3D 形狀。VP3D首先使用文本到圖像擴散模型從文本提示生成高質量圖像,然后使用 SDS 損失,以該圖像和文本提示為條件優化 3D 表示。
隨著 3D 高斯(3D Gaussian)的顯著進展,該技術被廣泛應用于文本到 3D 生成領域。DreamGaussian首次使用擴散模型生成 3D 高斯,并采用 SDS 損失進行優化。然后,從 3D 高斯中提取網格,并優化紋理,以獲得更高質量的內容。為促進收斂,GSGEN和 GaussianDreamer首先利用 Point·E 從文本提示生成點云,以初始化高斯的位置。隨后,這些高斯通過 SDS 損失優化其幾何和外觀。Sculpt3D引入了 3D 先驗(3D prior),通過檢索數據庫中的參考 3D 物體,與現有流水線無縫集成。
討論:得益于文本到圖像模型的豐富知識,基于優化的方法能夠生成更精細的細節。然而,這些方法需要昂貴的逐提示優化(per-prompt optimization),并且計算開銷較大。
- (iii) 基于多視角(MVS)的方法
相比于直接從文本提示生成 3D 表示,為了更好地利用文本到圖像模型,許多方法嘗試合成多視角圖像以進行 3D 生成。
Instant3D首先微調文本到圖像擴散模型,以生成四視角圖像。然后,這些圖像輸入一個 Transformer,以預測三平面(triplane)表示。Direct2.5對2.5D渲染和自然圖像上的多視圖法線擴散模型進行了微調。給定一個文本提示,Direct2.5首先生成法線貼圖,并通過可微分光柵化對其進行優化。然后,采用最優法線圖作為合成多視圖圖像的條件。Sherpa3D首先采用3D擴散模型從文本提示生成粗略的3D先驗。然后,生成法線圖并用于合成具有3D相干性的多視圖圖像。
討論:隨著視覺語言模型(VLMs)的發展,通過注入 3D 先驗提升 2D 生成模型的 3D 生成能力引起了越來越多的興趣。然而,3D 一致性的建立以及有限 3D 數據的微調仍然是開放性問題。
(2) 圖像到3D生成
圖像到3D任務的目標是生成與給定圖像身份一致的高質量3D資產。
(i) 前饋方法
此類方法首先通過壓縮網絡(如VAE)將3D資產編碼為隱空間變量,隨后訓練生成模型對隱空間樣本進行建模:
- 3DGen:引入三平面作為隱空間,提升壓縮網絡精度與效率。
- Direct3D:采用三平面表征并直接使用3D監督訓練,保留隱空間中的細節3D信息。
- Michelangelo:受3Dshape2vecset啟發,使用一維向量作為隱空間,并通過占據場監督輸出。
- CraftsMan:引入多視角生成模型為擴散模型提供條件,結合法線優化生成網格。
- Clay:構建基于大規模3D數據集預訓練的綜合系統,包含一維向量VAE/擴散模型(幾何生成)、PBR材質擴散與多模態條件設計。
討論:原生方法在3D數據集上訓練壓縮網絡和生成模型,與基于MVS和基于優化的方法相比,在幾何生成方面表現出卓越的性能,能夠生成更細粒度的幾何細節。然而,由于制作和收集成本高昂,3D數據集的大小比圖像或視頻數據集要慢得多。因此,原生方法缺乏足夠多樣和廣泛的數據用于預訓練。因此,如何利用視頻和圖像中的先驗信息來增強3D生成的多樣性和通用性,特別是在紋理生成方面,仍然是一個有待進一步探索的領域。
(ii) 基于優化的方法
基于文本到3D模型的蒸餾方法發展,此類方法通過預訓練圖像-圖像/文本-圖像生成模型提供的SDS損失監督優化3D資產,同時通過額外損失約束保持圖像身份:
- RealFusion:融合DreamFusion、Magic3D與SJC,結合圖像重建損失(保持低層特征)與文本反轉(保持語義身份)優化。
- Zero123:將文本-圖像模型替換為新視角合成模型,引入相機位姿條件,在3D數據集上微調預訓練模型。其新視角合成模型同時保留圖像細節與3D數據集的多視角一致性,顯著緩解多面Janus問題。
- Zero123-xl:在10倍規模3D數據集上預訓練Zero123流程以提升泛化性。
- Magic123:聯合利用2D/3D先驗進行蒸餾,平衡泛化與一致性,采用粗-細流程提升質量。
- SyncDreamer:通過3D體積建模圖像聯合分布關系提升多視角一致性。
- Consistent123:利用跨視角注意力與共享自注意力機制增強一致性。
- Toss:引入文本描述作為3D數據高層語義,增強不可見視角的合理性與可控性。
- ImageDream:設計多級圖像提示控制器并結合文本描述訓練,解決多視角一致性與3D細節問題。
- Wonder3D:跨域注意力機制同步去噪圖像與對齊法線圖,并引入法線圖優化流程。
討論:繼承圖像生成模型的強大先驗,優化方法展現出強泛化能力與高精度紋理建模。但由于新視角合成(NVS)模型預訓練僅使用3D數據采樣的2D數據而非直接3D監督,即使通過3D體積建模或跨視角注意力改進,多視角一致性問題仍無法根本解決,導致幾何過平滑與訓練耗時較長。
(iii) 基于MVS的方法
MVS方法將圖像到3D生成拆分為兩階段:1)使用NVS模型從單圖生成多視角圖像;2)通過前饋重建網絡直接生成3D資產:
- One-2-3-45:基于Zero123預測圖像,提出高度估計模塊與SDF通用神經表面重建模塊(3D數據集預訓練),實現360°網格重建(耗時45秒,遠快于優化方法)。
- CRM:固定多視角生成圖像為六種相機位姿以提升一致性,通過卷積U-Net生成深度/RGB監督的高分辨率三平面。
- InstantMesh:固定多視角相機位姿,采用基于LRM的Transformer多視角重建模型,以部分細節一致性為代價提升泛化性。
- Unique3D:多級上采樣策略生成高分辨率多視角圖像,法線擴散模型預測多視角法線圖初始化粗網格,并基于多視角圖像優化著色。
討論:相比優化方法,基于MVS的方法在3D數據集上訓練前饋重建模型,顯著提升3D一致性與推理速度(秒級)。但受模型規模限制,幾何細節質量仍有不足。
(3) 視頻到3D生成
海量在線視頻數據蘊含物體運動、視角變化與相機運動信息,為3D生成提供靜態圖像難以捕獲的多視角先驗。這些動態內容具有時序連貫性與空間一致性,對復雜3D場景理解與高保真結構生成至關重要。當前研究探索視頻先驗以實現跨幀連貫、視角自適應的3D表征,核心思想是將相機可控視頻模型作為密集3D重建的連貫多視角生成器。
視頻擴散模型的最新進展展現了其在生成逼真視頻與隱式推理3D結構方面的卓越能力,但精確相機控制仍是關鍵挑戰。傳統模型通常局限于生成短軌跡平滑相機運動片段,難以有效構建動態3D場景或整合多變視角。為此,研究者提出多種創新技術增強視頻擴散框架的相機控制:
- AnimateDiff:采用低秩自適應(LoRA)微調視頻擴散模型,生成固定相機運動類型的結構化場景。
- MotionCtrl:引入條件機制支持任意相機路徑跟蹤,突破傳統方法剛性限制。
- SVD-MV、SV3D、IM-3D:基于相機可控視頻生成能力優化3D物體生成。例如SV3D訓練可渲染任意視角的視頻擴散模型,輸出576×576高分辨率,保持跨幀空間一致性。
這些能力使得能夠保持跨框架的空間一致性,同時適應各種觀點,有效地應對密集重建中的關鍵挑戰。雖然有效,這些方法往往限制攝像機的運動固定,軌道路徑周圍的中心對象,這限制了他們的適用性,復雜的場景與豐富的背景。然而,許多這些方法仍然不能產生令人信服的復雜環境的 3D 表示,其中不同的攝像機角度和與多個對象的交互是至關重要的。
隨著視頻模型中相機運動控制與新穎視角信息的互補,部分方法探索視頻擴散模型在新視角合成(NVS)中的潛力:
- Vivid-1-to-3:融合視角條件擴散模型與視頻擴散模型,生成時序一致視圖。
- CAT3D:通過多視角擴散模型增強豐富多視角信息。
?
討論:視頻先驗驅動多視角生成技術將推進高保真3D表征發展,尤其在需要強大多視角合成的復雜動態環境建模中潛力巨大。
3.3.3 應用
(1) 頭像生成(Avatar Generation)
隨著元宇宙(Metaverse)的興起和 VR/AR 的普及,3D 頭像生成受到了越來越多的關注。早期工作主要專注于生成頭部頭像,采用文本到圖像擴散模型和神經輻射場生成面部資產。隨后的方法更加關注逼真的全身頭像生成,結合神經輻射場與統計模型。最近,頭像生成的動畫能力受到了廣泛關注,并涌現出許多相關方法。
(2) 場景生成(Scene Generation)
除了頭像生成,場景生成(Scene Generation)在元宇宙和具身智能(embodied intelligence)等應用中也至關重要。早期方法主要集中在基于物體的場景,并利用條件擴散模型合成多視角圖像,以優化神經輻射場。后續研究擴展了這些方法至房間尺度(room-scale)場景,并引入漸進式策略。受其成功啟發,最近的研究進一步探索了從街道尺度到城市尺度的室外場景生成。
(3) 3D 編輯(3D Editing)
3D 生成能力的強大,使得 3D 內容編輯成為了一個新的下游應用方向。一些方法專注于全局更改 3D 內容的外觀或幾何形狀,例如場景風格化(scene stylization)方法,用于調整照明或氣候變化。近年來,研究人員致力于實現更加靈活和精細化的 3D 內容編輯,包括外觀修改、幾何變形和基于物體級別的操作,并取得了令人矚目的成果。
3.4 4D 生成
最終整合所有維度,探討4D生成。作為計算機視覺的前沿領域,4D 生成專注于合成基于文本、圖像或視頻等多模態輸入的動態 3D 場景。與傳統的 2D 或 3D 生成不同,4D 合成引入了獨特的挑戰,要求在保持高保真度、計算效率和動態真實感的同時,實現空間連貫性和時間一致性。在本節中,首先介紹基于3D 表示擴展的 4D 表示,然后總結當前的 4D 生成方法。最近的研究探索了兩種主要范式:利用評分蒸餾采樣(SDS)的優化方法,以及避免每次提示優化的前饋方法。這些范式解決了不同的技術挑戰,凸顯了該領域的復雜性,以及在視覺質量、計算效率和場景靈活性之間尋找可行平衡的持續努力。表 3 總結了 4D 生成的代表性工作。
3.4.1 4D表示
4D 表示領域將時間維度融入 3D 建模,為理解動態場景提供了堅實基礎。通過將靜態 3D 空間表示 ((x, y, z)) 擴展到時間 ((t)),這些方法對場景動態和變換進行編碼,對于非剛性人體運動捕捉和模擬物體軌跡等應用至關重要。
4D 表示面臨的一個主要挑戰是重建單個場景的高計算成本。為了解決這一問題,顯式和混合方法在不犧牲質量的情況下提高了效率。例如:
- 平面分解通過將 4D 時空網格拆分為更小的組件來優化計算。
- 基于哈希的表示降低了內存和處理需求。
- 3DGS通過變形網絡將靜態高斯調整為動態高斯,以平衡速度與質量。
最近的進展將靜態和動態場景組件解耦,以高效渲染剛性和非剛性運動。例如:
- D-NeRF先將場景編碼到一個標準空間,然后再映射到隨時間變化的變形狀態。
- 3D Cinemagraphy通過單張圖像生成基于特征的點云,并使用 3D 場景流進行動畫化。
- 4DGS通過將尺度、位置、旋轉等屬性建模為時間函數來捕捉時間動態,同時保持靜態場景不變。
此外,混合 NeRF 方法 擴展了 4D 建模,引入平面和體素特征網格,結合 MLP 實現高效的新視角合成,并通過時間平面拓展到動態場景。可變形 NeRFs 通過將幾何與運動分離,簡化了運動學習,支持圖像到 4D 視頻生成和多視角重建等應用。總體而言,這些進展反映了在計算效率和高質量時間建模方面的持續突破。
3.4.2 算法
(1) 前饋方法
前饋方法提供了一種高效的替代方案,在單次前向傳播中生成 4D 內容,繞過 SDS 需要的迭代優化。這些方法依賴于預訓練模型,利用時空先驗實現快速且一致的生成。例如:
- Control4D ** 和 Animate3D ** 可直接從文本或視覺輸入合成動態場景,支持交互式媒體和個性化內容創作。
- Vidu4D通過整合時間先驗來優化運動軌跡,確保幀間一致性和平滑過渡。
- Diffusion4D擴展擴散模型以處理 4D 場景合成,結合時空特征提取與高效推理機制。
- L4GM進一步增強前饋技術,集成隱空間幾何建模,在保證高質量的同時保持計算效率。
討論:前饋方法在實時內容生成和輕量級設備部署等場景中表現優異。然而,它們依賴預訓練模型,難以處理復雜動態,難以達到優化方法的細節和多樣性水平。盡管如此,這些技術在計算效率和可擴展性方面的優勢,使其成為推動 4D 生成實用化的重要步驟。
(2) 優化方法
優化方法是 4D 生成的基礎,利用評分蒸餾采樣(SDS)等迭代技術,使預訓練的擴散模型適應動態 4D 場景合成。這些方法借助文本到圖像、多視角圖像和文本到視頻生成模型的強大先驗,實現時間一致性強、運動動態豐富的場景。例如:
- MAV3D針對 SDS 損失優化 NeRF 或 HexPlane 特征,以文本提示引導 4D 生成。
- 4D-fy和Dream-in-4D通過整合圖像、多視角和視頻擴散模型提升 3D 一致性與運動動態。
- AYG使用可變形 3DGS作為內在表示,利用簡單的增量變形場分離靜態幾何與動態運動,提高靈活性。
在這些基礎上,最近的研究從多個方面進一步提升 4D 生成:
- TC4D和SC4D允許用戶自由控制 4D 物體的運動軌跡。
- STAG4D采用多視角融合增強幀間的空間和時間對齊,確保平滑過渡和一致性。
- DreamScene4D和DreamMesh4D采用解耦策略,局部優化計算量,降低計算開銷的同時保持高保真度。
此外,4Real 和 C3V 結合組合式場景生成與高效優化,將動態場景拆分為靜態幾何與運動場等模塊化組件,支持靈活更新與多樣化內容生成。盡管優化方法在生成質量和時間一致性上表現卓越,但計算需求較高,難以支持實時應用。當前研究正致力于在可擴展性與低延遲方面取得突破,同時保持視覺質量和動態真實感。
3.4.3 應用
(1) 4D 編輯
基于指令引導的編輯允許用戶通過自然語言編輯場景,提升可用性。例如:
- Instruct 4D-to-4D將 4D 場景視為偽 3D 場景,采用視頻編輯方法逐步生成一致的編輯數據集。
- Control4D結合 GAN 和擴散模型,實現基于文本指令的動態 4D 人像編輯。
(2) 人體動畫
4D 生成的重要應用之一是人體運動生成,其目標是在數字世界中模擬 4D 人體角色。研究方向包括:
- 基于稀疏控制信號生成運動,例如運動補全和運動預測。
- 多模態條件生成,例如文本到動作、音樂驅動舞蹈等。
隨著擴散模型的快速發展,許多研究已將其引入文本到動作和音樂到舞蹈生成任務,取得了良好的生成質量。
4 數據集與評估
在本節中,總結了 2D、視頻、3D 和 4D 生成中常用的數據集(見表 4)。隨后,我們在表 5 中呈現了統一且全面的評估指標總結。
對于定量分析,從兩個角度評估指標:
- 質量(Quality):評估合成數據的感知質量,與輸入條件(如文本提示)無關。
- 一致性(Alignment):衡量生成數據與用戶期望輸入之間的匹配程度。
對于定性分析,生成結果的視覺質量在評估方法中起著關鍵作用。因此,引入了一些基于人類偏好的指標,以作為用戶研究的參考,從而更有效地進行定性分析,提供更具說服力的評估結果。
5 未來方向
盡管 2D、視頻和 3D 生成取得了重大進展,但 4D 生成仍面臨重大挑戰。這些困難源于空間和時間維度的復雜結合。在 2D 生成中,主要挑戰仍然是提高現實感和生成內容的多樣性。在視頻生成中,關鍵問題在于建模長期的時間動態,并確保幀之間的平滑過渡。在 3D 生成中,平衡高質量輸出與計算效率仍然是核心問題。解決這些挑戰對于 4D 生成至關重要,因為它建立在這些既有技術的基礎上。
以下是 4D 生成的主要未來方向,說明了如何解決這些問題不僅有助于 4D 模型的發展,同時也推動 2D、視頻和 3D 生成的進步。
多模態生成
生成多樣且合理的 4D 內容,并捕捉現實世界動態的固有變化性,是一個重大挑戰。由于現實世界的場景通常是多模態的,當前的生成模型往往難以捕捉這種多樣性,并傾向于生成不真實的結果。盡管條件生成(Conditional Generation)或隱空間建模(Latent Space Modeling)等技術正在被探索,但在 4D 生成中同時實現多樣性與現實感仍然是一個未解決的問題。
時間一致性與連貫性
確保幀之間的平滑、真實過渡是 4D 生成中的重要挑戰。與靜態 3D 生成不同,4D 生成需要在多個時間步中保持形狀、紋理和運動的一致性。特別是在長序列中,閃爍(Flickering)或不自然的變形等偽影(Artifacts)很容易出現。如何開發既能強制執行時間一致性、又不會犧牲細節和真實感的方法,仍然是一個懸而未決的問題。
物理與動態建模
真實的 4D 生成需要準確建模物理交互,如碰撞、形變和流體動力學。在生成模型中引入物理約束極具挑戰性,因為這通常涉及求解復雜的微分方程或實時模擬交互。如何在真實性與計算效率之間取得平衡,仍然是一個開放性問題。
場景泛化能力
4D 生成模型通常難以在不同場景下泛化,例如面對不同的物體類型、運動模式或環境條件時。這是因為動態 3D 內容的變化性極高,而訓練數據集的多樣性卻較為有限。如何開發無需大量重新訓練就能適應未知場景的模型,是一個亟待解決的挑戰。
控制與可編輯性
賦予用戶靈活的 4D 生成控制能力(如指定運動軌跡或編輯動態內容)是一個具有挑戰性的問題。當前的方法往往缺乏細粒度控制,導致難以生成滿足特定需求的內容。開發直觀的交互式編輯界面和高效的 4D 編輯算法,仍然是一個開放研究領域。
高計算成本
4D 生成涉及同時建模空間和時間維度,需要處理和存儲大量數據。這導致高昂的計算和內存需求,使得實時或大規模 4D 生成變得困難。為了克服這一挑戰,需要高效的壓縮技術和可擴展的架構。
6 結論
本綜述回顧了跨外觀(Appearance)、動態(Dynamics)和幾何(Geometry)維度的多模態生成模型在模擬現實世界方面的最新進展和挑戰。還總結了常用數據集、其特性以及從不同角度評估生成質量的方法。
盡管該領域取得了重要進展,但在可擴展性(Scalability)、時間一致性(Temporal Coherence)和動態適應性(Dynamic Adaptability)方面仍然存在挑戰。提出了一些開放性問題,以引導未來的研究朝著更逼真的真實世界模擬方向發展。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/S19Hcgo8MpkpcjoVf3cMdA??
