1.8秒完成90幀視頻重建,相比加速1000 倍!顏水成團隊提出NutWorld:渲染速度可達450FPS 精華
論文鏈接:https://arxiv.org/pdf/2502.03465
git鏈接:https://github.com/Nut-World/NutWorld
亮點直擊
- 首次提出了一個框架,可以通過單次前向傳播,將隨意拍攝的單目視頻中的世界動態高效表示為動態Gaussian Splatting(Dynamic Gaussian Splatting)。
- NutWorld 框架結合了 STAG 表示、精心設計的前向重建網絡,以及用于從隨意視頻中實現空間和時間一致性恢復的有效正則化策略。
- 在視頻重建和多種下游任務上的大量實驗,驗證了 NutWorld 在時空一致性和多功能性方面的表現。
總結速覽
解決的問題
現有方法在表示隨意拍攝的單目視頻時,因缺乏時間一致性和顯式3D結構,難以處理復雜運動、遮擋和幾何一致性。如何高效地以空間和時間一致的方式表示單目視頻,成為亟待解決的問題。
提出的方案
提出了 NutWorld 框架,通過單次前向傳播,將單目視頻動態高效地表示為動態3D Gaussian Splatting(Dynamic Gaussian Splatting)。核心方案包括:
- STAG(空間-時間對齊高斯)表示:無需優化即可建模場景,提供高效的動態表示。
- 深度與流正則化策略:增強空間和時間一致性。
- 精心設計的前向重建網絡:提升重建效率和質量。
應用的技術
- 時空連續的高斯原語流表示:以3D形式表示單目視頻,解決時間一致性問題。
- STAG 表示:引入結構化的空間-時間對齊表示,提升建模效率。
- 正則化策略:通過深度和流正則化,增強幾何一致性和動態場景的建模能力。
- 單次前向傳播:實現高效的視頻到動態3D表示的轉換。
達到的效果
- 高保真視頻重建:在視頻重建質量上表現卓越,解決復雜運動和遮擋問題。
- 時空一致性:在空間和時間一致性方面顯著優于現有方法。
- 多功能性支持:支持多種實時下游應用,展現出強大的適應能力和實用性。
方法
本文提出了一個框架,用于以前向傳播的方式高效地從單目視頻中表示世界動態。如下圖3所示,首先介紹了時空對齊Gaussian Splatting(STAG) 表示。為了能夠通過單次前向傳播將視頻映射到STAG,詳細說明了基于Transformer的網絡,該網絡結合了校準的深度和光流先驗。最后,討論了處理長視頻片段的整體訓練目標和協議。
時空對齊高斯
規范化相機空間 給定一個未經配準的單目視頻,采用正交相機坐標系統,而不是絕對的3D世界坐標系統。這一選擇主要基于兩個關鍵挑戰:
- 在動態場景中獲得一致的相機軌跡的困難;
- 前向3D重建模型中固有的尺度歧義問題,其中透視投影將物體的尺度與其距離相機的遠近耦合在一起。
通過采用沿z軸固定姿態的正交投影,消除了顯式相機姿態估計的必要性,同時在統一的規范化空間中無尺度歧義地建模相機和物體的運動。
結構化動態高斯 為了克服動態高斯噴射中不結構化的特性,并促進神經網絡的集成,在規范化相機空間中引入了時空對齊Gaussian Splatting(STAG)。與之前通過可變形場在正交時空中預測無約束高斯的方法不同,STAG將每個動態高斯約束到特定的像素位置和時間戳。
對于一個輸入幀 ,其歸一化時間戳為 ,計算一個高斯特征圖 ,其中 和 表示空間維度, 表示通道維度。每個 維像素被解碼為一個3D高斯及其相關的形變場 ,以像素對齊的方式進行。
在“Nutshell”中封裝動態
校準的 2D 先驗正則化
訓練和推理
基于分段的長視頻推理 為了處理包含數百幀的隨意拍攝視頻,在推理階段提出了一種簡單但有效的基于分段的策略。輸入視頻被劃分為重疊的片段,相鄰片段共享一個幀。由于我們基于像素級的時空表示,高斯軌跡可以通過這些共享幀在片段之間無縫傳播,從而使 NutWorld 能夠在保持時空一致性的同時處理任意長度的視頻。
實驗
實驗設置
訓練數據集 NutWorld 在 MiraData 和 RealEstate10K 數據集上進行了預訓練。
MiraData 是一個高質量的視頻數據集,主要由3D引擎生成的場景和電影片段組成,具有多樣的運動模式。RealEstate10K 數據集包含室內房屋導覽視頻,展示了各種建筑場景和相機運動模式。
在預處理過程中,將原始視頻分割成視頻塊,每個視頻塊包含10幀連續幀,作為基本處理單元。
實現細節 NutWorld 在 32 張 NVIDIA A100 (80GB) GPU 上進行訓練,批量大小為 256,訓練時間約為 4 天。為了提高計算效率,集成了 Flash-Attention-v2、梯度檢查點 和 BF16的混合精度訓練。
視頻重建
實驗協議 在 RealEstate10K 和 MiraData 數據集上隨機選擇了 50 個測試視頻片段(默認長度為 90 幀),通過標準重建質量指標(PSNR、SSIM 和 LPIPS)評估 NutWorld 的視頻重建性能。由于目前沒有其他基于動態高斯的前饋方法,我們與基于優化的方法進行了比較,包括 Splatter-a-Video (SaV)、4DGS、RoDynRF 和 CoDeF,這些方法是最相關的基線。為了公平比較,所有方法都結合了受限的標準空間、深度和光流監督。對于大多數方法,我們使用了官方實現,而 SaV 是根據其論文中提供的實現細節重新實現的。
與基線方法的比較 通過定性和定量實驗評估了 NutWorld 表示的有效性。在下圖4中可以看出,預訓練的 NutWorld 能夠有效捕獲空間細節和時間動態,在重建質量上優于基于高斯的 SaV和基于 NeRF 的 CoDeF。這種優越性能歸因于 STAG 精心設計的可變形場和位置約束,與 SaV 的傅里葉級數和 CoDeF 的二維標準表示相比,提供了更具表現力和更魯棒的時間建模能力。
如下表1所示,NutWorld 在重建質量和計算效率方面實現了兩者的最佳平衡。值得注意的是,NutWorld 在僅 1.8 秒內就完成了 90 幀視頻的重建,相比基于優化的方法實現了 1000 倍的加速。通過基于分段的推理策略限制每段的高斯數量,NutWorld 達到了 450 FPS 的渲染速度,顯著超過了 SaV 的 149 FPS,而后者需要大約 個高斯來處理同一視頻。
視頻下游任務
經過大規模預訓練的 NutWorld 支持多種視頻應用,包括目標分割、幀插值、視頻編輯、新視角合成以及一致性的深度預測。在下圖5中展示了具有代表性的定性結果。
幀插值 通過校準光流正則化學習到的 STAG 連續軌跡,NutWorld 能夠以任意 FPS 插值場景動態。這些插值后的 STAG 具有平滑變化的動態屬性,能夠支持中間幀的渲染,這種能力超出了逐幀方法的范圍。
一致性深度預測 校準的深度正則化防止了深度坍縮,同時在場景幾何中保持了時間一致的空間配置。此外,NutWorld 展示了蒸餾其他圖像特征(如 SAM 和 CLIP)的潛力,我們認為這是未來工作的一個有前途的方向。
視頻編輯 通過與 MLLM 指導的編輯模型集成,NutWorld 能夠通過優化切片的 STAG 表示,實現精確的逐幀繪畫和風格化。這些編輯在時間上可以傳播,同時保持視頻序列的視覺一致性。
新視角合成 通過結合深度先驗以減輕空間歧義,NutWorld 在實際范圍內實現了新視角合成。相機外參調整支持新視角渲染,而相機內參調整則允許實現如推拉變焦(dolly zoom)等效果。
消融研究
通過對50個選定的視頻片段進行消融研究,分析了NutWorld的設計選擇。如下表2所示,實驗表明,從多組件流水線中移除任何一個組件都會導致顯著的性能下降。
關于流先驗的消融實驗。 為了評估流先驗(Eq. 8),訓練了一個沒有流監督的NutWorld變體進行對比。通過小提琴圖(如下圖 6(b))可視化了跨越幀的形變場的分布。在沒有流監督的情況下,模型表現出較大的形變值且方差較低,導致STAGs在非參考幀中偏離了Eq. 2中定義的標準空間。這表明,沒有流監督的變體傾向于通過將每一幀表示為獨立的STAGs來學習一種不理想的捷徑,進而導致時間不連續性。相比之下,在有流監督的情況下,形變場的分布集中在接近零的位置,且具有適當的方差,這表明NutWorld能夠通過流先驗恢復時間運動,從而有效地防止這種捷徑行為。此外,上表2中的定量實驗表明,時間不連續性會導致重建質量下降,尤其是在處理復雜運動時表現尤為明顯。
結論
本文提出了NutWorld,這是一種通過動態高斯投影高效表示隨意單目視頻的新框架。通過引入結構化的STAG表示并結合有效的深度和光流正則化,本文的方法成功解決了單目視頻表示中的多個基本挑戰,在無需逐場景優化的情況下實現了空間和時間的一致性。全面的實驗表明,NutWorld不僅能夠實時實現高保真的視頻重建,還支持多種下游應用。在未來,將豐富的視覺特征(例如,SAM、CLIP)蒸餾到STAG表示中,以及將表示范式適配于視頻生成任務,都是值得探索的方向。
本文轉自AI生成未來 ,作者:AI生成未來
