生成越長(zhǎng)越跑偏？浙大商湯新作StarGen讓場(chǎng)景視頻生成告別「短片魔咒」

作者：機(jī)器之心 2025-01-17 09:00:00

針對(duì)復(fù)雜場(chǎng)景的長(zhǎng)距離場(chǎng)景生成的時(shí)空一致性問(wèn)題，該研究團(tuán)隊(duì)創(chuàng)新提出了一種解決方案 StarGen，其核心創(chuàng)新在于通過(guò)引入空間與時(shí)間雙重條件機(jī)制，將稀疏視圖的 3D 幾何信息與視頻擴(kuò)散模型有機(jī)結(jié)合，緩解誤差累積。

本文介紹了一篇由浙江大學(xué)章國(guó)鋒教授和商湯科技研究團(tuán)隊(duì)聯(lián)合撰寫(xiě)的論文《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》。

StarGen 實(shí)現(xiàn)了多視一致的長(zhǎng)視頻生成，并且能夠支持稀疏視圖插值、圖生視頻以及布局驅(qū)動(dòng)場(chǎng)景生成等多樣化任務(wù)。實(shí)驗(yàn)結(jié)果表明，StarGen 在生成質(zhì)量、一致性保持和場(chǎng)景擴(kuò)展能力等方面均顯著優(yōu)于現(xiàn)有方法。

論文標(biāo)題：StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
論文地址：https://arxiv.org/pdf/2501.05763
項(xiàng)目主頁(yè)：https://zju3dv.github.io/StarGen/

背景

近年來(lái)，隨著大規(guī)模模型的快速發(fā)展，3D 重建與生成技術(shù)取得了顯著進(jìn)展，并逐漸呈現(xiàn)出互補(bǔ)融合的趨勢(shì)。在重建領(lǐng)域，基于大規(guī)模重建模型的方法顯著降低了對(duì)密集多視角數(shù)據(jù)采集的依賴，同時(shí)生成模型被有效應(yīng)用于稀疏輸入視角下不可見(jiàn)區(qū)域的補(bǔ)全任務(wù)。

在生成領(lǐng)域，3D 重建技術(shù)為 2D 生成模型向 3D 生成任務(wù)的遷移提供了重要支撐，具體表現(xiàn)為兩種技術(shù)路徑：其一是通過(guò)將 2D 概率分布蒸餾為 3D 表示，其二是基于 2D 生成圖像重建 3D 表示。

然而，這些大規(guī)模重建與生成模型面臨一個(gè)關(guān)鍵性挑戰(zhàn)：在有限計(jì)算資源約束下，單次推理過(guò)程僅能處理有限數(shù)量的 Token。

盡管現(xiàn)有一些研究提出了時(shí)間自回歸方法，通過(guò)將當(dāng)前視頻片段的初始幀與前一生成片段的末尾幀進(jìn)行條件關(guān)聯(lián)以實(shí)現(xiàn)長(zhǎng)視頻生成，但這類(lèi)方法僅能在較短時(shí)間跨度內(nèi)維持時(shí)序一致性。隨著生成過(guò)程的推進(jìn)，誤差累積問(wèn)題將導(dǎo)致空間一致性難以有效保持。

方法

圖 1. 系統(tǒng)框架

系統(tǒng)概述

如圖 1 所示，StarGen 框架主要包括三部分：時(shí)空自回歸框架、時(shí)空條件視頻生成和下游任務(wù)實(shí)現(xiàn)。

時(shí)空自回歸框架

StarGen 通過(guò)滑動(dòng)窗口的方式逐步實(shí)現(xiàn)長(zhǎng)距離場(chǎng)景生成，每個(gè)窗口的生成既依賴于上一窗口的時(shí)間條件圖像，也依賴于與當(dāng)前窗口具有共視關(guān)系的空間相鄰圖像。

具體而言，StarGen 從前一窗口生成的關(guān)鍵幀中選擇圖像作為時(shí)間條件，來(lái)保證當(dāng)前生成結(jié)果和上一段視頻在時(shí)間上的連續(xù)性。

同時(shí)，從歷史窗口中提取與當(dāng)前窗口具有最大共視區(qū)域的圖像集合作為空間條件，保證長(zhǎng)距離生成過(guò)程中各個(gè)視頻間的多視一致。

圖 2. 時(shí)空條件視頻生成

時(shí)空條件視頻生成

StarGen 通過(guò)引入大型重建模型（LRM）和視頻擴(kuò)散模型（VDM）實(shí)現(xiàn)高質(zhì)量可控視頻生成。具體流程如圖 2 所示：

1. 空間條件處理：從空間條件圖像中提取 3D 幾何信息，并通過(guò)基于多視幾何的渲染方法生成目標(biāo)視角的特征圖。這些特征圖隨后被壓縮到 VDM 的潛在空間中。

2. 時(shí)間條件處理：將時(shí)間條件圖像通過(guò)變分自編碼器（VAE）編碼為隱特征，并與空間條件特征融合，生成結(jié)合時(shí)空信息的綜合特征。

3. 視頻擴(kuò)散生成：將融合后的時(shí)空特征輸入視頻擴(kuò)散模型，通過(guò) ControlNet 進(jìn)行條件控制生成，生成當(dāng)前窗口的高質(zhì)量圖像序列。

下游任務(wù)實(shí)現(xiàn)

StarGen 框架支持多種場(chǎng)景生成任務(wù)：

稀疏視圖插值：通過(guò)結(jié)合時(shí)空條件，生成輸入圖像之間的中間幀，同時(shí)支持精確的姿態(tài)控制；
圖生視頻：以單張輸入圖像為起點(diǎn)，逐幀生成實(shí)現(xiàn)長(zhǎng)距離視角變化；
基于布局的城市生成：結(jié)合深度圖和語(yǔ)義圖，通過(guò) ControlNet 對(duì)布局信息進(jìn)行精準(zhǔn)約束，生成具有大規(guī)模場(chǎng)景一致性的城市場(chǎng)景。

損失函數(shù)設(shè)計(jì)

為了確保生成內(nèi)容的一致性和質(zhì)量，StarGen 框架設(shè)計(jì)了三種損失函數(shù)：