幾分鐘生成四維內容,還能控制運動效果:北大、密歇根提出DG4D
本文作者潘亮博士目前是上海人工智能實驗室的Research Scientist。此前,在2020年至2023年,他于新加坡南洋理工大學S-Lab擔任Research Fellow,指導老師為劉子緯教授。他的研究重點是計算機視覺、3D點云和虛擬人類,并在頂級會議和期刊上發表了多篇論文,谷歌學術引用超過2700次。此外,他還多次擔任計算機視覺和機器學習等領域頂級會議和期刊的審稿人。
近期,商湯科技 - 南洋理工大學聯合 AI 研究中心 S-Lab ,上海人工智能實驗室,北京大學與密歇根大學聯合提出 DreamGaussian4D(DG4D),通過結合空間變換的顯式建模與靜態 3D Gaussian Splatting(GS)技術實現高效四維內容生成。
四維內容生成近來取得了顯著進展,但是現有方法存在優化時間長、運動控制能力差、細節質量低等問題。DG4D 提出了一個包含兩個主要模塊的整體框架:1)圖像到 4D GS - 我們首先使用 DreamGaussianHD 生成靜態 3D GS,接著基于 HexPlane 生成基于高斯形變的動態生成;2)視頻到視頻紋理細化 - 我們細化生成的 UV 空間紋理映射,并通過使用預訓練的圖像到視頻擴散模型增強其時間一致性。
值得注意的是,DG4D 將四維內容生成的優化時間從幾小時縮短到幾分鐘(如圖 1 所示),允許視覺上控制生成的三維運動,并支持生成可以在三維引擎中真實渲染的動畫網格模型。
- 論文名稱: DreamGaussian4D: Generative 4D Gaussian Splatting
- 主頁地址: https://jiawei-ren.github.io/projects/dreamgaussian4d/
- 論文地址: https://arxiv.org/abs/2312.17142
- Demo 地址: https://huggingface.co/spaces/jiawei011/dreamgaussian4d
圖 1. DG4D 在四分半鐘內可實現四維內容優化基本收斂
問題和挑戰
生成模型可以極大地簡化多樣化數字內容(如二維圖像、視頻和三維景物)的生產和制作,近年來取得了顯著進步。四維內容是諸如游戲、影視等諸多下游任務的重要內容形式。四維生成內容也應支持導入傳統圖形學渲染引擎軟件(比如,Blender 或者 Unreal Engine),以接入現有圖形學內容生產管線(見圖 2)。
盡管有一些研究致力于動態三維(即四維)生成,但四維景物的高效和高質量生成仍然存在挑戰。近年來,越來越多的研究方法通過結合視頻和三維生成模型,約束任意視角下內容外觀和動作的一致性,以實現四維內容生成。
圖 2. DG4D 生成的四維內容支持導入到傳統計算機圖形學渲染引擎中
目前主流的四維內容生成方法都基于四維動態神經輻射場(4D NeRF)表示。比如,MAV3D [1] 通過在 HexPlane [2] 上提煉文本到視頻的擴散模型,實現了文本到四維內容的生成。Consistent4D [3] 引入了一個視頻到四維的框架,以優化級聯的 DyNeRF,從靜態捕獲的視頻中生成四維景物。通過多重擴散模型的先驗,Animate124 [4] 能夠通過文本運動描述將單個未處理的二維圖像動畫化為三維的動態視頻。基于混合 SDS [5] 技術,4D-fy [6] 使用多個預訓練擴散模型可實現引人入勝的文本到四維內容的生成。
然而,所有上述現有方法 [1,3,4,6] 生成單個 4D NeRF 都需要數個小時,這極大地限制了它們的應用潛力。此外,它們都難以有效控制或選擇最后生成的運動。以上不足主要來自以下幾個因素:首先,前述方法的底層隱式四維表示不夠高效,存在渲染速度慢和運動規律性差的問題;其次,視頻 SDS 的隨機性質增加了收斂難度,并在最終結果中引入了不穩定性和多種瑕疵偽影現象。
方法介紹
與直接優化 4D NeRF 的方法不同,DG4D 通過結合靜態高斯潑濺技術和顯式的空間變換建模,為四維內容生成構建了一個高效和強力的表征。此外,視頻生成方法有潛力提供有價值的時空先驗,增強高質量的 4D 生成。具體而言,我們提出了一個包含兩個主要階段的整體框架:1)圖像到 4D GS 的生成;2)基于視頻大模型的紋理圖細化。
1. 圖像到 4D GS 的生成
圖 3 圖片到 4D GS 生成框架圖
在這一階段中,我們使用靜態 3D GS 及其空間變形來表示動態的四維景物。基于一張給定的二維圖片,我們使用增強方法 DreamGaussianHD 方法生成靜態 3D GS。隨后,通過在靜態 3D GS 函數上優化時間依賴的變形場,估計各個時間戳處的高斯變形,旨在讓變形后的每一幀的形狀和紋理都與驅動視頻里面的對應幀盡力保持吻合。這一階段結束,將可以生成一段動態的三維網格模型序列。
圖 4 DreamGaussianHD 初始化基于 3D GS 的三維物體模型
- DreamGaussianHD 基于近來使用 3D GS 的圖生三維物體方法 DreamGaussian [7],我們做了一些進一步的改進,整理出一套效果更佳的 3D GS 生成和初始化方法。主要改進的操作包括有 1)采取多視角的優化方式;2)設定優化過程中的渲染圖片背景為更適合生成的黑色背景。我們稱呼改進后的版本為 DreamGaussianHD,具體的改進效果圖可見圖 4。
圖 5 HexPlane 表征動態形變場
- Gaussian Deformation 基于生成的靜態 3D GS 模型,我們通過預測每一幀中高斯核的變形來生成符合期望視頻的動態 4D GS 模型。在動態效果的表征上,我們選用 HexPlane(如圖 5 所示)來預測每一個時間戳下高斯核位移、旋轉和比例尺度,從而驅動生成每一幀的動態模型。此外,我們也針對性地調整設計網絡,尤其是對最后幾個線性操作的網絡層做了殘差連接和零初始化的設計,從而可以平滑充分地基于靜態 3D GS 模型初始化動態場(效果如圖 6 所示)。
圖 6 零初始化動態形變場對最后生成效果的影響
2. 視頻到視頻的紋理優化
圖 7 視頻到視頻紋理優化框架圖
類似于 DreamGaussian,在第一階段基于 4D GS 的四維動態模型生成結束后,可以提取四維的網格模型序列。并且,我們也可以類似于 DreamGaussian 的做法,在網格模型的 UV 空間中對紋理做進一步的優化。不同于 DreamGaussian 只對單獨的三維網格模型使用圖片生成模型做紋理的優化,我們需要對整個三維網格序列做優化。
并且,我們發現如果沿用 DreamGaussian 的做法,即對每個三維網格序列做獨立的紋理優化,會導致三維網格的紋理在不同的時間戳下有不一致的生成,并且常常會有閃爍等瑕疵偽影效果出現。鑒于此,我們有別于 DreamGaussian,提出了基于視頻生成大模型的視頻到視頻的 UV 空間下紋理優化方法。具體而言,我們在優化過程中隨機生成了一系列相機軌跡,并基于此渲染出多個視頻,并對渲染出的視頻做相應的加噪和去噪處理,從而實現對生成網格模型序列的紋理增強。
基于圖片生成大模型和基于視頻生成大模型做的紋理優化效果對比展示在圖 8 中。
圖 8 基于視頻到視頻的紋理優化可以實現時序上紋理的穩定性和一致性
實驗結果
相比之前整體優化 4D NeRF 的方法,DG4D 顯著減少了四維內容生成所需的時間。具體的用時對比可見表 1。
表 1 四維內容生成方法用時對比
對于基于單圖生成四維內容的設置,我們跟隨之前方法的對比方式,將生成的四維內容與給定圖片的一致程度匯報在表 2 中。
表 2 基于單圖生成的四維內容與圖片的一致性對比
對于基于視頻生成四維內容的設置,視頻生成四維內容方法的數值結果對比可見表 3。
表 3 基于視頻生成的四維內容相關方法的數值結果對比
此外,我們還對最符合我們方法的單圖生成四維內容的各個方法的生成結果做了用戶采樣測試,測試的結果匯報在表 4 中。
表 4 基于單圖生成的四維內容的用戶測試
DG4D 與現存開源 SoTA 的圖生成四維內容方法和視頻生成四維內容方法的效果對比圖,分別展示在圖 9 和圖 10 中。
圖 9 圖生四維內容效果對比圖
圖 10 視頻生四維內容效果對比圖
此外,我們還基于近期的直接前饋實現單圖生成 3D GS 的方法(即非使用 SDS 優化方法),做了靜態三維內容的生成,并基于此初始化了動態 4D GS 的生成。直接前饋生成 3D GS,可以比基于 SDS 優化的方法,更快地得到質量更高,也更多樣化的三維內容。基于此得到的四維內容,展示在圖 11 中。
圖 11 基于前饋生成 3D GS 的方法生成的四維動態內容
更多基于單圖生成的四維內容展示在圖 12 中。
結語
基于 4D GS,我們提出了 DreamGaussian4D(DG4D),這是一個高效的圖像到 4D 生成框架。相較于現存的四維內容生成框架,DG4D 顯著將優化時間從幾小時縮短到幾分鐘。此外,我們展示了使用生成的視頻進行驅動運動生成,實現了視覺可控的三維運動生成。
最后,DG4D 允許進行三維網格模型提取,并支持實現時序上保持連貫一致的高質量紋理優化。我們希望 DG4D 提出的四維內容生成框架,將促進四維內容生成方向的研究工作,并有助于多樣化的實際應用。