AI生成視頻總不符合物理規律?匹茲堡大學團隊新作PhyT2V:不重訓練模型也能讓物理真實度狂飆2.3倍!
本文由匹茲堡大學智能系統實驗室(Intelligent Systems Laboratory)的研究團隊完成。第一作者為匹茲堡大學的一年級博士生薛琪耀。
當前文本生成視頻(T2V)技術正在從注重視覺質量與模型規模的擴展階段,邁向更關注物理一致性與現實合理性的推理驅動階段。
物理規律作為建模現實世界的基本知識體系,是實現高質量視頻生成的關鍵約束。提升大模型對現實物理動態的理解與遵循能力,成為推動 T2V 技術落地的重要突破方向。
為推動物理一致性驅動的 T2V 生成研究,來自匹茲堡大學的研究團隊提出了 PhyT2V 框架,并在最新論文中系統闡述了該方法的核心機制,該論文已被 CVPR 2025 接收。
- 論文標題:PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
- 論文地址:https://arxiv.org/abs/2412.00596
該方法不依賴模型重訓練或大規模外部數據,而是通過引入大型語言模型引導的鏈式推理與迭代自我修正機制,對文本提示進行多輪物理一致性分析與優化,從而有效增強主流 T2V 模型在現實物理場景中的泛化與生成能力。
此框架可以被廣泛地應用到任何已有的 T2V 模型上,而且不需要用戶任何的手動干預就可以實現完全自動化的 T2V 增強,因此擁有極低的落地門檻和非常好的泛化性,在實際應用中有非常廣闊的應用前景。
近年來,文本到視頻(Text-to-Video,T2V)生成技術取得了顯著進展,出現了基于 Transformer 擴散模型的 Sora、Pika 和 CogVideoX 等模型。這些模型能夠生成復雜且逼真的場景。
然而,盡管單幀視頻質量很高,當前的 T2V 模型在遵守現實世界常識和物理規則方面存在顯著不足。例如,它們可能無法正確處理物體的數量、材質特性、流體動力學、重力、運動、碰撞和因果關系。
現有讓 T2V 模型生成內容更符合物理規則的方法主要存在以下局限性,尤其是在處理訓練數據未涵蓋的分布外(out-of-distribution,OOD)場景時:
- 數據驅動方法局限:大多數現有方法是數據驅動的,依賴于大規模多模態 T2V 數據集來訓練擴散模型。然而,這高度依賴于數據集的數量、質量和多樣性。由于物理規則并未在訓練過程中被顯式嵌入,這些方法在訓練數據未覆蓋的分布外領域泛化能力受限,視頻生成質量會大幅下降。真實世界場景的巨大多樣性進一步限制了這些模型的通用性。
- 注入物理知識方法的局限:也有研究嘗試使用現有的 3D 引擎(如 Blender、Unity3D、Unreal)或數學模型將物理知識注入到 T2V 模型中。但這些方法通常受限于固定的物理類別和模式,如預定義的物體和運動,同樣缺乏通用性。
- 現有提示增強方法的局限:雖然有研究表明通過細化提示可以改善分布外提示下的視頻生成質量,但現有許多提示增強方法僅僅是基于主觀經驗簡單地增強或修改提示,而缺乏一個有效的反饋機制來判斷生成的視頻在多大程度上偏離了現實世界知識和物理規則,以及當前的提示增強是否有效提升了視頻的物理真實度。
- 額外輸入方法的局限:一些方法嘗試通過提供額外輸入模態為 T2V 模型提供反饋。但這會引入大量的額外計算開銷并且缺乏通用性。
為了實現可泛化的物理真實的 T2V 生成,匹茲堡大學的研究人員提出了 PhyT2V。
PhyT2V 不通過擴展數據集或復雜化模型架構,而是通過將現實世界知識和物理規則嵌入到文本提示中,提供足夠的上下文,從而將現有 T2V 模型的生成能力擴展到分布外領域。
為了避免模糊不清的提示工程,PhyT2V 的核心思想是在 T2V 提示過程中啟用思維鏈(Chain-of-Thought,CoT)和回溯推理(step-back reasoning)。通過應用分步指導和迭代自修正,確保 T2V 模型遵循正確的物理動態和幀間一致性。
其核心貢獻在于:無需任何額外訓練或模型結構更改,而是僅僅通過結合 LLM 的推理與回溯能力,進行逐輪提示修正,從而顯著提升現有 T2V 模型在物理一致性任務中的性能。該方法可泛化適用于不同架構和訓練背景的 T2V 模型,尤其在分布外提示下展現出強大的增強效果。
方法介紹
PhyT2V 利用經過良好訓練的大型語言模型(LLM),例如 ChatGPT-4o,來促進 CoT 和回溯推理。這種推理以迭代方式進行,每一輪都自主修正 T2V 提示和生成的視頻,包含三個步驟:
步驟 1:識別物理規則和主要對象
LLM 分析用戶提示,通過「上下文學習」提取視頻中應顯示的對象和應遵循的物理規則。這一步的提示會給出詳細的任務說明和少量示例。LLM 的輸出描述物理規則但不提供公式。消融研究表明此步驟是必要的。
步驟 2:識別提示與視頻之間的語義不匹配
首先,使用視頻字幕模型(例如 Tarsier)將生成的視頻的語義內容轉換為文本。然后,LLM 使用 CoT 推理評估視頻字幕與當前 T2V 提示之間的不匹配之處。使用視頻字幕是因為 CoT 方法更適合處理單模態數據,它強調線性分解和分步推理。通過將視頻內容轉化為文本,可以在文本域中進行 CoT 和回溯推理。消融研究證實此步驟對于識別和糾正視頻中與期望不符的細節至關重要。
步驟 3:生成修正后的提示
LLM 通過結合步驟 1 總結的物理規則和解決步驟 2 得出的不匹配之處,使用回溯提示來修正當前的 T2V 提示。回溯推理有助于從更高層次的抽象中導出問題。這一步驟的提示結構也包含任務說明、示例和當前任務信息。此外,還會提供上一輪提示修正效果的量化反饋(例如,使用 VideoCon-Physics 評估器的得分),指導 LLM 采取不同的推理路徑。修正后的 T2V 提示將作為新的用戶提示再次用于 T2V 模型生成視頻,開始新一輪的修正。這種迭代修正會持續進行,直到生成的視頻質量令人滿意或視頻質量的改進收斂。整個過程通常需要幾輪,大多數改進發生在最初兩輪,3-4 輪通常足夠。
PhyT2V 的優勢
與現有提示增強方法相比,PhyT2V 的關鍵貢獻在于分析當前生成的視頻與提示之間的語義不匹配,并基于不匹配與相關的物理知識進行修正,而之前的許多方法只是簡單地增強或修改提示。PhyT2V 的主要優勢包括:
- 無需訓練、即插即用:無需修改任何 T2V 模型結構,也不需額外訓練數據,即可直接增強不同 T2V 模型的物理一致性。
- 提示修正具備反饋閉環:不只是修改提示文本,而是基于真實生成結果的語義偏差反饋,進行有針對性的優化。
- 跨領域通用性強:在多個物理場景(固體、流體、重力、運動等)尤其是分布外場景下表現優異,具備廣泛適配性。
實驗
研究人員在多個基于 Diffusion Transformer 的開源 T2V 模型上應用了 PhyT2V,包括 CogVideoX 2B & 5B、OpenSora 和 VideoCrafter。
評估使用了 VideoPhy 和 PhyGenBench 這兩個強調物理定律和遵守度的提示基準數據集,使用 VideoCon-Physics 評估器衡量生成的視頻對物理常識(PC)和語義遵守度(SA)的遵守情況,并在 VBench 評測基準上也取得了領先的表現。
實驗結果表明,PhyT2V 顯著提高了生成的視頻對文本提示本身以及現實世界物理規則的遵守程度。
這種改進在 CogVideoX-5B 模型上最為顯著,PC 提高可達 2.2 倍,SA 提高可達 2.3 倍。在其他模型上也有顯著提升。迭代修正過程收斂速度快,通常 3-4 輪足夠。
PhyT2V 大幅領先于直接使用 ChatGPT 4 或 Promptist 等現有提示增強方法至少 35%。消融研究證實了步驟 1(物理規則推理)和步驟 2(不匹配推理)在 PhyT2V 工作流程中的必要性。模型尺寸也會影響 PhyT2V 的表現,在較大的模型上 PhyT2V 性能更好。
總結
總而言之,PhyT2V 是一種新穎的、數據獨立的 T2V 生成框架。通過結合 CoT 推理和回溯提示,PhyT2V 系統地修正 T2V 提示,以確保生成的視頻遵守現實世界物理原理,而無需額外的模型重新訓練或依賴額外條件。這項工作為構建更理解物理世界、能生成更逼真視頻的 T2V 模型邁出了重要一步。