物理視頻真實生成!大連理工&莫納什大學團隊提出物理合理的視頻生成框架
最近,來自大連理工和莫納什大學的團隊提出了物理真實的視頻生成框架 VLIPP。通過利用視覺語言模型來將物理規律注入到視頻擴散模型的方法來提升視頻生成中的物理真實性。
- 論文主頁: https://madaoer.github.io/projects/physically_plausible_video_generation/
- 論文鏈接: https://arxiv.org/abs/2503.23368
視頻擴散模型近年來取得了顯著進展,能夠生成高度逼真的視頻內容,其作為世界模擬器的潛力已引起學界廣泛關注。然而,盡管功能強大,這類模型由于內在物理理解的缺失,相信大家在使用 VDMs 的時候一定會發現問題:VDMs 生成的視頻并不符合物理規律。即使是商用的閉源模型,在物理場景上的表現也不夠理想。
本文認為這樣的局限有兩個原因,首先是視頻擴散模型的訓練數據一般是文本 - 視頻對,其中包含物理現象的數據占比很少,且物理現象在視頻中表現存在高度的抽象性和多樣性,很難去獲取合適的數據來進行訓練。其次,擴散模型更多依賴記憶和案例模仿,無法抽象出一般的物理規則,無法真正理解物理。
為突破這一局限,本文提出了一種新穎的符合物理規律的視頻生成框架,通過顯式引入物理約束來解決該問題。作者發現語言模型對于物理有一定的理解能力,如果告訴語言模型兩個正在發生碰撞的小球的位置,它能夠大概地預測出這兩個小球在發生碰撞之后的后續位置。受此啟發,本文提出的生成框架包含兩個階段,第一階段將視覺語言模型作為粗粒度的運動規劃器,使其提供一個粗略的物理可能的運動路徑,第二階段將視頻擴散模型作為一個細粒度的運動合成器,根據上一階段預測的物理可能的路徑來生成細粒度的運動。
實驗結果表明,本文提出的框架能生成符合物理規律的運動序列,對比評估顯示了該方法相較于現有技術在物理視頻生成上的顯著優越性。這一成果證明了將語言模型的物理知識先驗引入擴散模型的可能性,并為擴散模型作為世界模擬器帶來了更大的可能性。
方法
在這項工作中,研究者們提出了一種針對物理場景的視頻生成框架,如上圖所示,利用視覺語言模型理解物理定律和規劃可能的運動路徑,根據預測的路徑在運動可控的擴散模型中生成視頻。
具體來說,在第一階段中,作者將視頻中常見的物理現象分為六類:重力、動量守恒、光學、熱力學、磁學和流體力學,語言模型根據視頻的場景描述提取符合該場景的物理定律,結合物理定律和圖像信息進行思維鏈式推理,逐步分析物理定律帶來的影響,以及其在視覺空間上的對應,最終預測出圖像空間內對象的未來邊界框位置。
第二階段中,擴散模型需要根據預測的運動路徑進行視頻生成。作者認為在上一階段中視覺語言模型可能存在幻覺和規劃錯誤的情況,因此規劃的路徑只能作為粗粒度的運動引導。在本階段通過規劃的運動路徑合成運動序列,并根據光流計算得到結構化噪聲,結合視頻擴散模型的生成先驗來細化粗略的生成先驗,以生成與真實世界動態一致的物理上合理的運動。
實驗結果
在實驗環節,本文在兩個評估物理場景視頻真實性的指標上與現有的方法進行了定性和定量的對比。如圖和表所示,本文的方法在兩個評估指標 Physical-IQ 和 PhyGenBench 上都取得了最佳的表現效果,并在機械運動、流體運動、熱力學和材料學等方面表現突出。
下面展示更多的實驗結果。
結論
雖然 VDMs 現在能夠生成視覺真實程度非常高的視頻,但由于它本身缺乏對于物理定律的理解從而無法生成物理可能的視頻。本論文提出了新穎的視頻生成框架,通過將物理定律注入到 VDMs 中來提升對物理的理解。實驗結果驗證了我們的視頻生成框架要明顯優于現在的方法。這一成果證明了將語言模型的物理知識先驗引入擴散模型的可能性,并為擴散模型作為世界模擬器帶來了更大的可能性。