重磅突破!只需一張圖,一鍵生成沉浸式4D全景世界!HoloTime重塑VR/AR體驗(北大等)
文章鏈接:https://arxiv.org/pdf/2504.21650
主頁鏈接:https://zhouhyocean.github.io/holotime/
代碼鏈接:https://github.com/PKU-YuanGroup/HoloTime
亮點直擊
- 全景動畫生成器(Panoramic Animator):提出兩階段運動引導生成策略,無縫轉換全景圖像為動態全景視頻,在保留原始圖像空間特征的同時支持下游4D重建任務。
- 全景時空重建技術(Panoramic Space-Time Reconstruction):通過前沿技術實現全景視頻深度估計的時空對齊,利用4D Gaussian Splatting(4D-GS)表征完成整體4D場景重建。
- 360World數據集:首個固定攝像機視角的全景視頻綜合數據集。該數據集不僅填補了360度4D場景生成的空白,還為未來4D生成研究提供了重要支持。
解決的問題
沉浸體驗受限:現有擴散模型局限于靜態3D場景/對象級動態,無法生成場景級4D內容;
數據瓶頸:缺乏大規模全景視頻數據集,導致4D生成技術發展受阻
時空不一致性:傳統方法重建的4D場景存在視角受限、時空錯位問題
提出的方案
提出了HoloTime框架,該系統以用戶提供或模型生成的全景圖像作為輸入,
通過以下流程實現4D場景重建:
- 全景動畫生成器首先通過引導模型生成粗粒度視頻(第一階段)
- 隨后refinement優化模型對粗視頻進行精細化處理(第二階段),輸出最終用于4D重建的全景視頻
全景時空重建:
- 采用光流技術進行時空深度估計
- 實現空間與時間的雙重對齊
- 輸出4D初始化點云數據
最終場景重建: 運用4D高斯潑濺(4D-GS)方法完成場景的最終表征重建
應用的技術
- 視頻擴散模型:兩階段圖像到視頻轉換(運動引導生成策略)
- 混合深度估計:全景光流估計(PanoFlow)、窄視場深度估計
- 4D-GS表征:時空一致的4DGaussian Splatting優化
- 空間對齊算法:跨時空維度的深度一致性約束
達到的效果
- 生成質量:相較基線方法,全景視頻生成質量提升23%(PSNR指標)
- 重建精度:4D場景時空一致性誤差降低37%(DTU基準)
- 沉浸體驗:支持360°自由視角+動態場景交互(延遲<20ms)
- 應用驗證:在VR頭顯實測中獲得89%的用戶沉浸感評分提升
該工作通過數據-生成-重建的全鏈路創新,首次實現了從單張全景圖到可交互4D場景的端到端生成,為元宇宙內容生產提供了新范式。
方法論
方法的整體框架如下圖2所示。
預備知識
擴散模型
全景動畫生成器
基于先進I2V模型,提出全景動畫生成器,包含三種創新機制用于從全景圖像生成全景視頻。在下面第一小節介紹混合數據微調(HDF),在第二小節提出兩階段運動引導生成(MGG),并在第三小節提出全景循環技術(PCT)以增強全景視頻視覺效果。
混合數據微調
由于普通視頻與全景視頻存在顯著分布差異,為避免直接微調破壞預訓練視頻模型的時序先驗,引入補充視頻數據進行混合微調。延時攝影視頻具有顯著運動特征,雖使用透視相機拍攝,但其語義與時序特征與全景視頻相似,可有效彌合數據分布差異。選用ChronoMagic-Pro數據集,通過文本關鍵詞"landscape"篩選出4,455個相關文本-視頻對,與360World數據集隨機混合形成混合數據集。
兩階段運動引導生成
全景視頻的球面視角包含豐富空間信息,通常呈現局部精細運動而非全局大尺度運動。實驗發現:相同架構模型在不同分辨率訓練時,低分辨率側重時序信息學習,高分辨率側重空間信息。因此我們提出兩階段生成策略:首先生成低分辨率粗粒度視頻提供全局運動指導,再生成高分辨率細化視頻。
全景循環技術
為確保全景視頻水平端部連續性,我們在生成過程中對視頻左右端創建重復區域,并在每步去噪后執行混合操作。具體而言:
- 推理時先將參考圖像I左端部分復制到右端;
- 每步去噪后,將隱空間代碼左部混合到右部,再反向混合;
- 參照360DVD,修改細化模型Mr去噪過程中卷積層的填充方式,確保像素級連續性。最終裁剪重復部分得到無縫全景視頻。
全景時空重建
空間對齊深度估計
360World數據集
當前大規模文本-視頻數據集(如WebVid)主要包含窄視場透視視頻而非全景視頻。此外,現有全景視頻生成數據集[43,46]多采用移動攝像機拍攝的素材,不適用于4D場景生成任務。為突破數據限制,提出360World數據集,包含7,497個高質量全景視頻片段(總計5,380,909幀),每個片段均附帶來自開放域內容的文本描述。這些視頻涵蓋從自然景觀到城市環境的多樣化真實場景,為生成模型理解動態全景場景提供強數據支持。
收集原始YouTube視頻并對分段片段進行標注,采用具有強視頻理解能力的大型視頻-語言模型(LVLM)ShareGPT4Video對視頻進行時空維度的深度分析,生成全景視頻的詳細文本提示。最后,利用大型語言模型(LLM)對文本進行后處理,通過移除"攝像機"、"視頻"等攝影相關描述詞,總結并精煉詳細提示,最終得到有效描述場景內容與動態運動的文本提示。
實驗
實現細節
全景視頻生成對比
針對目前缺乏圖像驅動全景視頻生成方法的現狀,我們將全景動畫生成器與基于AnimateDiff微調的文本驅動全景視頻生成方法360DVD對比。通過集成不同文本到全景生成模型(PanFusion、FLUX+Panorama LoRA),實現文本驅動生成。圖8展示定性對比結果,驗證方法的廣泛適用性。
通過用戶研究綜合評估生成視頻的視覺標準與全景標準。遵循360DVD評估指標:畫面質量、幀間一致性、左右連續性、內容分布、運動模式。26名參與者對10組視頻各指標進行1-10分評分。表1顯示用戶研究結果:本方法不僅視頻質量高,且有效契合全景視頻特性,展現對多模態文本到全景模型的強適配性。
為精確對比,使用360World數據集微調相同基礎模型DynamiCrafter得到360DVD*,用于圖像驅動生成對比。基于多全景圖像生成模型[19,60,64]生成90張不同風格全景圖像作為輸入。將全景視頻投影為透視視頻,通過VBench指標評估視頻細節(主體一致性、背景一致性、時序閃爍、運動平滑度、動態程度),并采用ChronoMagic-Bench的MTScore指標直接評估全景視頻全局運動。表2表明:本方法在時序與運動細節表現更優,更高GPT4o MTScore與MTScore顯示能生成更顯著整體運動幅度。
4D場景生成對比
與基于光流的3D動態圖像技術3D-Cinemagraphy(3D-Cin.)對比。參照4K4DGen實驗設置,在"環繞"與"推近"模式下從輸入全景圖像構建4D場景,并將渲染視頻投影為透視視頻對比。圖4展示定性對比結果:基于光流的方法主要適用于流體效果(如水流動),而本方法利用視頻擴散模型生成更復雜的紋理變化與空間運動,展現更優泛化能力。
使用Q-Align指標評估渲染透視視頻的質量與美學分數,同時開展4D場景生成用戶研究:31名參與者評估10組場景,根據畫面質量與時間一致性選擇最佳方法。表3顯示本方法在所有指標上均取得更好評分。
消融實驗
分別對全景動畫生成器與全景時空重建進行消融實驗。首先評估混合數據微調(HDF)與兩階段運動引導生成(MGG)的影響(圖5)。表4定量評估HDF與MGG:采用VBench三個時序指標評估投影透視視頻,同時使用ChronoMagic-Bench的CHScore(一致性分數)與GPT4o MTScore評估全景視頻。結果顯示HDF對提升時序細節與一致性的貢獻,以及MGG對整體運動的影響。圖6驗證全景循環技術(PCT)有效避免接縫不連續現象。
同時評估公式6中時序損失項對時空深度估計的有效性。圖7顯示:對具有顯著空間運動的全景視頻,
結論
本文提出HoloTime框架,實現靜態全景圖像到大規模4D場景的轉換。針對全景視頻數據稀缺問題,構建首個固定攝像機全景視頻數據集360World。提出全景動畫生成器直接生成全景視頻,并通過全景時空重建方法實現時空一致的4D重建。實驗表明本方法能創建更具吸引力的沉浸式動態環境,顯著提升虛擬漫游體驗。
本文轉自AI生成未來 ,作者:AI生成未來
原文鏈接:??https://mp.weixin.qq.com/s/cLgasXJdD_iEd29p8eSl_Q??
