通向世界模型關鍵一步:EX-4D來了,實現單目視頻到自由視角生成
本文主要作者是 Bytedance Pico 北美高級研究員胡濤博士,近年來研究領域包括3D 重建與 4D 場景和視頻生成,致力于得到一種最佳的物理世界表示模型。其他作者均為 Pico MR 團隊核心成員。
去年一年來,Sora、可靈、Veo 等模型掀起了視頻生成領域的革新。而在構建更逼近真實的世界模型征程中,相機可控的視頻生成技術堪稱核心拼圖 —— 它讓視頻生成模型不再是單向的 “世界模擬器”,而是能被用戶自由探索的 “平行宇宙”,為沉浸式 3D 電影等顛覆性應用奠定基礎!
然而,從單視角視頻,生成其對應的極端視角(比如方位角在 ±90° 改變)新視頻仍是行業難題。現有的開源方法或依賴多視角相機 - 視頻數據集訓練 [4,5],或受困于遮擋區域表示的局限 [1,2],難以跨越 “視角自由” 與 “物理真實” 的雙重鴻溝。
對此,PICO-MR 團隊提出了一個破局方案:EX-4D,可以從任意單目視頻生成其對應的新視角視頻。EX-4D:
- 一致性更強:EX-4D 在 FID、FVD 等指標上超越了最新的開源方法,支持生成高物理一致性的新視角視頻。
- 視角跨度更大:得益于新幾何先驗格式,EX-4D 能支持極端視角下的高質量視頻生成。
- 綜合效果更好:輕量級 LoRA Adapter 能充分利用 WAN-2.1 基座模型的強大生成能力,生成細節、質量更好的視頻。
- Arxiv 鏈接: https://arxiv.org/abs/2506.05554
- 項目主頁鏈接: https://tau-yihouxiang.github.io/projects/EX-4D/EX-4D.html
- 代碼鏈接: https://github.com/tau-yihouxiang/EX-4D
現有方法的困境
目前相機可控的視頻生成方法可分為 2 種主要思路。一類方法直接利用相機外參作為條件控制視角生成。這種方法需要自行構建多個視角下的相機 - 視頻數據對,并且難以控制不同數據分布下的相機的位移尺度,在未知分布的視頻輸入上可能出現嚴重的視角偏移。第二類方法則直接將像素點投影成點云作為額外的先驗信息。這些點云投影無法保留物體之間的遮擋關系,在物體的交界部分非常依賴基座模型本身的能力。這種不可控性容易導致錯誤的幾何關系。
EX-4D 的三大核心設計
EX-4D 的核心目標是實現一個泛用的,從單目視頻生成新視角下視頻的模型。其總體框架如下圖所示:
為了充分利用豐富的各類視頻數據,同時保證生成視頻滿足高質量和高物理一致性,EX-4D 提出了如下三個關鍵設計。
- 深度密閉網格(DW-Mesh)實現遮擋面提取:DW-Mesh 表示是 EX-4D 框架的核心。它突破了點云的局限,首次提出使用一個全密閉網格結構,同時記錄可見 / 隱面片,無需多視角監督就能統一處理場景拓撲。EX-4D 利用最新的預訓練深度預測出每幀深度圖,從而將像素點投影到 3D 空間形成網格頂點,并從相鄰頂點中構建出網格面片。
EX-4D 根據幾何關系標記遮擋面片。通過設置當面片最小角度小于指定閾值,或者跨度大于指定閾值時,可以提取出前景與背景之間的遮擋面。
生成的 DW-Mesh 表達能為每一幀提供連續的遮擋 mask,以此確保極端視角下的生成視頻的物理一致性。
- 模擬 mask 生成策略構建數據集:為解決多視角訓練數據缺乏的問題,EX-4D 提出了 2 種模擬 mask 生成策略。
- 渲染 mask 關注模擬視角移動下的物體間的遮擋關系。EX-4D 利用 DW-Mesh 表示來模擬新視角下的遮擋關系。通過構建輸入視角的 DW-Mesh,并在給定相機軌跡下渲染來獲得不可見區域的 mask。形態學膨脹可以進一步去除噪聲,滿足更真實的遮擋邏輯。
- 跟蹤 mask 的則關注保持可見區域的邊緣像素一致,以更貼近推理階段視頻下的真實 mask。EX-4D 使用 Cotracker3 [3] 模型,通過跟蹤錨點來確保幀間的可見部分一致性,讓訓練數據無限逼近真實場景。
借助這兩種生成策略,無需昂貴多視角采集,僅憑單目視頻就能 “腦補” 全視角數據,破解世界模型訓練的數據困局!
- 輕量級 LoRA Adapter:EX-4D 基于預訓練的 WAN-2.1 模型,引入 LoRA-based Adapter,來完成 mask video inpainting 任務。基于 LoRA 的 adapter 架構將 DW-Mesh 的幾何先驗信息融入視頻生成過程,在保持計算需求可控的同時,保證了補全視頻的幾何一致性和幀間一致性。
實驗結果:EX-4D 如何定義「極致」
為了展示 EX-4D 在新視角生成的巨大潛力,EX-4D 使用包含 150 個網絡視頻的數據集,并使用 FID、FVD 和 VBench [6] 等指標評估模型性能。
在各種視角跨度范圍之內,EX-4D 均全面超越了現有的開源可控視角生成方法。值得關注的是,新輸入視角角度越極端(越偏向 90°),EX-4D 性能優勢越明顯,充分展示了 DW-Mesh 表示在物理一致性保持上的潛力。在 VBench 指標上,EX-4D 在絕大多數指標上取得最高分,進一步展現了強大的綜合生成能力。
此外,EX-4D 還邀請了 50 位志愿者對 EX-4D 和其他開源方法的生成效果進行評分。70.70% 的參與者認為 EX-4D 方法在極端視角下的物理一致性斷層領先。
當已有的開源方法在劇烈視角變化中 “露破綻”(物體穿幫、遮擋錯亂),EX-4D 卻能精確保留高一致性的物體細節。
針對 EX-4D 的充分消融實驗充分論證 EX-4D 中每種策略的有效性。其中 DW-Mesh 表示對性能的提升最大。兩種針對訓練數據的 mask 生成策略對于模型的訓練都至關重要。而 EX-4D 采用的 16 rank 輕量級 LoRA-based Adapter 效率已經足夠高,增加 rank 僅帶來輕微性能提升。
總結與未來展望
定性和定量實驗說明,EX-4D 方法能夠生成高物理一致性、高質量的視頻結果,并且可以廣泛用于小角度偏移到極端視角的各種場景,提升了新視角預測的自由度。后續的視頻可控生成之中,EX-4D 將著眼于提高深度預測的精度,并提高模型推理速度,向更快、更好的可控視頻生成進發,為世界模型助力。