是時候接受真實世界的檢驗啦!UCLA&谷歌提出首個評估生成視頻物理常識數據集VideoPhy 精華
文章鏈接:https://arxiv.org/abs/2406.03520
項目鏈接:https://github.com/Hritikbansal/videophy
總結速覽
解決的問題
隨著互聯網規模的視頻數據預訓練的進展,文本生成視頻(T2V)模型能夠生成高質量的視頻,涵蓋各種視覺概念、合成逼真的動作以及渲染復雜的物體。然而,目前的T2V模型在生成的視頻中缺乏物理常識,尤其是在模擬真實世界活動時,無法準確遵循物理法則。盡管已有一些評估視頻質量的方法(如VBench),但這些方法并未特別關注生成視頻的物理合法性。
提出的方案
VIDEOPHY,一個用于評估生成視頻是否遵循物理常識的基準。VIDEOPHY基于人類的直觀物理理解(如水倒入杯中,水位會上升)來判斷生成的視頻是否符合物理法則。該數據集包含了688個經過人工驗證的高質量提示,涵蓋了不同物質狀態之間的互動(如固體-固體、固體-液體、液體-液體)。通過這些提示,從12個不同的T2V模型中生成視頻,并對其進行人類評估,評估標準包括語義符合性(視頻是否遵循文本提示)和物理常識(視頻是否遵循物理法則)。
應用的技術
- 大語言模型:用于生成描述不同物質狀態之間互動的候選提示。
- 物理仿真:用于標注生成的提示在物理仿真中呈現的復雜性。
- VIDEOCON-PHYSICS:一種用于評估生成視頻的自動化工具,能夠通過用戶查詢來評估視頻的語義符合性和物理常識。
達到的效果
- 基準測試:VIDEOPHY基準測試揭示,當前的T2V生成模型(如CogVideoX-5B)在遵循文本和物理法則方面表現較差,最佳模型僅在39.6%的實例中生成符合要求的視頻。
- 模型表現分析:通過詳細的定性分析,發現現有模型在生成需要固體-固體交互(如球彈跳或錘擊釘子)的視頻時尤其困難。模型往往難以準確識別物體并理解其材質屬性,這是生成物理合理動態的關鍵。
- 自動化評估工具:VIDEOCON-PHYSICS能有效評估生成視頻的語義符合性和物理常識,且在未見過的提示上表現優異,較現有評估工具提高了9個點的語義符合性和15個點的物理常識評估。
VIDEOPHY 數據集
數據集VIDEOPHY旨在為視頻生成模型中的物理常識提供一個可靠的評估基準。該數據集根據以下指南進行策劃:
- 涵蓋廣泛的日?;顒雍臀矬w(例如,滾動物體、向杯中倒液體);
- 不同物質類型之間的物理交互(例如,固體-固體或固體-液體交互);
- 在圖形仿真下渲染物體和動作的感知復雜性。
例如,番茄醬遵循非牛頓流體動力學,比水(遵循牛頓流體動力學)更難用傳統流體仿真器建模和仿真。在收集指南下,制定了一份文本提示列表,將用于為文本到視頻生成模型提供條件。遵循下面三階段流程來創建數據集。
LLM 生成的提示(階段 1)
在這里,查詢一個大型語言模型,在案例中是 GPT-4,生成一千個候選提示,描述現實世界的動態。由于大多數現實世界的動態涉及固體或流體,將這些動態大致分類為三類:固體-固體交互、固體-液體交互和液體-液體交互。具體而言,考慮流體動力學中無粘性流體和粘性流體的情況,代表性例子分別為水和蜂蜜。
另一方面,發現固體表現出更多樣化的本構模型,包括但不限于剛體、彈性材料、沙子、金屬和雪。總的來說,GPT-4 生成 500 個關于固體-固體和固體-液體交互的候選提示,以及 200 個關于液體-液體交互的候選提示。
人工驗證(階段 2)
由于大語言模型生成的提示可能不符合我們的輸入查詢,進行人工驗證步驟,以過濾掉不合格的生成。作者進行人工驗證,確保提示的質量和相關性,遵循以下標準:
(1)提示必須清晰且易于理解;
(2)提示應避免過度復雜性,例如物體過于多樣或動態過于復雜;
(3)提示必須準確反映預期的交互類別(例如,固體-液體或液體-液體動態中提到的流體)。
最終,有 688 個經過驗證的提示,其中289個是關于固體-固體交互,291個是關于固體-液體交互,108個是關于液體-液體交互。提示涵蓋了廣泛的物質類型和物理交互,這些在現實生活和圖形學領域中都很常見。物質類型包括簡單的剛體、可變形體、薄殼、金屬、斷裂、奶油、沙子等。接觸處理也很豐富,因為它基于上述所有材料的交互。數據質量對于評估基礎模型至關重要。例如,Winoground(400個示例)、Visit-Bench(500個示例)、LLaVA-Bench(90個示例)和Vibe-Eval(269個示例)因其高質量而廣泛用于評估視覺-語言模型,盡管其規模有限。鑒于人工驗證需要大量專家時間且在預算內不可擴展,優先考慮數據質量,以評估 T2V 模型。
困難度注釋(階段 3)
為了深入了解視頻生成的質量,進一步為數據集中的每個實例注釋了感知的困難度。請兩位經驗豐富的圖形學研究人員(物理仿真領域的高級博士生)獨立地根據他們對使用最先進物理引擎模擬提示中物體和動作的復雜性的感知,將每個提示分類為簡單(0)或困難(1)。
隨后,對于不到 5% 的實例,研究人員討論并達成一致判斷。仿真的困難度主要受到模型復雜性的影響,而模型復雜性根據材料的類型而有所不同。例如,可變形體比剛體更具建模挑戰,因為它們在外力作用下會改變形狀,從而導致更復雜的偏微分方程(PDE)。相比之下,剛體保持其形狀,從而生成更簡單的模型。另一個關鍵因素是求解這些方程的數值難度,尤其是當 PDE 中涉及高階項時,材料的速度會增加求解難度。因此,移動較慢的材料通常比移動較快的材料更容易進行仿真。我們注意到,困難度的評估是基于每個類別(例如,固體-固體、固體-液體、液體-液體),并不能跨類別進行比較。下表 1 中展示了生成提示的示例。
數據分析
細粒度的元數據有助于全面理解基準數據集。下表 2 中呈現了 VIDEOPHY 數據集的主要統計信息。值得注意的是,使用多種生成模型為數據集中的提示生成了 11330 個視頻。此外,平均提示長度為 8.5 個詞,表明大多數提示都是直接的,并且不會通過復雜的措辭使分析變得過于具有挑戰性。數據集包括 138 個在提示中定義的獨特動作。下圖 3 可視化了 VIDEOPHY 提示中使用的根動詞和直接名詞,突出顯示了動作和實體的多樣性。因此,本文的數據集涵蓋了廣泛的視覺概念和動作。
評估
評估指標
盡管人類可以在多個視覺維度上評估視頻,但主要關注模型對提供的文本的遵循程度和物理常識的融合。這些是條件生成模型必須最大化的關鍵目標。多個視頻特征,如物體運動、視頻質量、文本遵循、物理常識、主體與物體的時間一致性等,通常是相互交織的。人類做決策時,很難分解這些因素的影響。然而,逐一聚焦每個方面可以提供模型在特定維度上的全面表現。
在本研究中,重點關注物理常識和語義遵循。此外,獲取人類判斷的方式有多種,例如密集反饋和稀疏反饋。密集反饋雖然提供了關于模型錯誤的詳細信息,但它很難獲取且可能存在校準不準的問題??紤]到二元判斷的簡單性及其在文本到圖像生成模型中的廣泛應用],本文采用二元反饋(0/1)來評估生成的視頻。本文實驗將展示,二元反饋能夠有效地突出模型在不同物體交互和任務復雜度層級中的質量差異。
語義遵循(SA)
該指標評估文本提示是否在生成的視頻幀中語義對齊,測量視頻與文本的對齊程度。具體來說,它評估視頻中的動作、事件、實體及其關系是否被正確表現(例如,提示“水倒入玻璃杯”對應的生成視頻中,水流入玻璃杯)。在本研究中,我們對生成的視頻進行語義遵循注釋,表示為 SA = {0, 1}。其中,SA = 1 表示文本提示在生成的視頻中有語義基礎。
物理常識(PC)
該指標評估所描述的動作和物體狀態是否遵循現實世界中的物理定律。例如,水流入玻璃杯中時,水位應該上升,遵循質量守恒定律。在本研究中,我們對生成的視頻進行物理常識注釋,表示為 PC = {0, 1}。其中,PC = 1 表示生成的運動和交互與人類通過經驗獲得的直觀物理相一致。由于物理常識完全基于視頻,因此它獨立于生成視頻的語義遵循能力。研究中計算了生成的視頻中,語義遵循較高(SA = 1)、物理常識較高(PC = 1)以及這兩個指標聯合表現較高(SA = 1, PC = 1)的比例。
人類評估
本文進行了人類評估,以評估生成視頻在語義遵循和物理常識方面的表現,使用的是我們的數據集。注釋由一組合格的亞馬遜機械土耳其工人(AMT)完成,這些工人通過共享的 Slack 渠道提供了詳細的任務說明(及相關澄清)。
隨后,從中選擇了 14 名學習過高中物理的工人,在通過資格測試后進行注釋。在此任務中,注釋員將看到一個提示和相應的生成視頻,但沒有關于生成模型的信息。要求他們為每個實例提供語義遵循評分(0 或 1)和物理常識評分(0 或 1)。注釋員被指示將語義遵循和物理常識視為獨立的指標,并在開始主任務之前由作者展示了一些已解決的示例。
在某些情況下,發現生成模型創建了靜態場景而非具有較高運動的視頻幀。在這種情況下,要求注釋員判斷靜態場景在現實世界中的物理合理性(例如,一塊折疊的磚塊靜止不動并不符合物理常識)。如果靜態場景存在噪點(例如,雜亂的顆粒狀或斑點狀圖案),我們指示他們將其視為較差的物理常識。
人類注釋員沒有被要求列出違反物理法則的具體內容,因為這會使注釋過程變得更加耗時和昂貴。此外,當前的注釋可以由具有現實世界經驗的注釋員完成(例如,工人知道水是從水龍頭流下來的,木材在水面漂浮時形狀不會改變),而不需要高級的物理教育。
自動評估
盡管人類評估對于基準測試來說更加準確,但在大規模獲取時既費時又昂貴。此外,希望資源有限的模型開發者能夠使用我們的基準。因此,設計了 VIDEOCON-PHYSICS,一個可靠的自動評分器,用于評估數據集。使用 VIDEOCON,一個擁有 7B 參數的開放式視頻-文本語言模型,經過在真實視頻上的訓練,能夠進行穩健的語義遵循評估[3]。通過多模態模板來提示 VIDEOCON 生成一個文本響應(是/否)。
由于 VIDEOCON 沒有針對生成視頻分布進行訓練,也沒有能力判斷物理常識,因此我們不期望它在我們的設置中能以零樣本方式表現良好。為此,提出了 VIDEOCON-PHYSICS,一個開源生成視頻-文本模型,能夠評估生成視頻的語義遵循和物理常識。通過結合在人類注釋中獲得的語義遵循和物理常識任務的標注,對 VIDEOCON 進行了微調。通過計算人類注釋和模型判斷之間的 ROC-AUC,來評估自動評分器的有效性,特別是在從測試提示生成的視頻中。
設置
視頻生成模型
在 VIDEOPHY 數據集上評估了十二種不同的封閉式和開放式文本到視頻(T2V)生成模型。模型列表包括 ZeroScope、LaVIE、VideoCrafter2、OpenSora、CogVideoX-2B 和 5B 、StableVideoDiffusion (SVD)-T2I2V、Gen-2 (Runway)、Lumiere-T2V、Lumiere-T2I2V (Google)、Dream Machine (Luma AI) 和 Pika
數據集設置
如前所述,本文訓練了 VIDEOCON-PHYSICS,以便對生成的視頻進行更便宜且可擴展的測試。為此,將 VIDEOPHY 數據集中的提示分為訓練集和測試集兩部分。利用測試集中 344 個提示生成的視頻上的人類注釋進行基準測試,而用于訓練自動評估模型的則是訓練集中 344 個提示生成的視頻上的人類注釋。確保訓練集和測試集中的物質狀態(固-固、固-流體、流體-流體)和復雜性(簡單、困難)分布相似。
基準測試
在此步驟中,為每個測試提示使用我們的測試平臺生成一個視頻,隨后讓三名人類注釋員判斷生成視頻的語義遵循和物理常識。在實驗中,報告來自人類注釋員的多數投票結果。在語義遵循和物理常識判斷上,注釋員之間的協議分別為 75% 和 70%。這表明,人類注釋員認為物理常識的判斷任務比語義遵循更具主觀性。在測試提示和 T2V 模型上,共收集了 24,500 條人類注釋。
VIDEOCON-PHYSICS 的訓練集
在此步驟中,為九個 T2V 模型從訓練提示中每個選擇兩個視頻進行采樣。選擇兩個視頻是為了獲得更多的數據實例用于訓練自動評估模型。隨后,要求一名人類注釋員判斷生成視頻的語義遵循和物理常識。共收集了 12,000 條人類注釋,其中一半用于語義遵循,另一半用于物理常識。通過微調 VIDEOCON,使其最大化在多模態模板條件下的 Yes/No 對數似然,來進行語義遵循和物理常識任務。沒有為每個視頻收集三條注釋,因為這在經濟上非常昂貴??偟膩碚f,在基準測試和訓練中共花費了 3500 美元用于收集人類注釋。
結果
本節展示了 T2V 生成模型的實驗結果,并驗證了 VIDEOCON-PHYSICS 作為自動評估工具在 VIDEOPHY 數據集上的有效性。
在 VIDEOPHY 數據集上的表現
使用人類評估在 VIDEOPHY 數據集上對 T2V 生成模型的表現進行了比較,結果如下表 3 所示。發現 CogVideoX-5B 在 39.6% 的情況下生成的 視頻既符合文本描述,又遵循物理法則(SA = 1, PC = 1)。CogVideoX 的成功可以歸因于其高質量的數據篩選,包括詳細的文本描述和過濾掉運動少或質量差的視頻。此外,我們發現其余的視頻模型的得分都低于 20%。這表明現有的視頻模型嚴重缺乏生成符合直覺物理的視頻的能力,也證明了 VIDEOPHY 是一個具有挑戰性的數據集。
更具體地說,CogVideoX-5B 在生成符合物理常識的視頻方面表現突出,達到 53%的得分,而 CogVideoX-2B 則以 34.1%的得分位列第二。此外,這也表明,擴展網絡容量能夠提高其捕捉互聯網規模視頻數據中的物理約束的能力。我們還發現,OpenSora 在 VIDEOPHY 數據集上的表現最差,這表明社區在改進 Sora 的開源實現方面具有很大的潛力。在封閉式模型中,Pika 生成的視頻在語義遵循和物理常識的判斷上分別達到了 19.7% 的正面評分。有趣的是,我們觀察到 Dream Machine 在語義遵循上取得了較高的得分(61.9%),但在物理常識上得分較低(21.8%),這突出了優化語義遵循并不一定能帶來良好的物理常識。
物質狀態的變化
本文研究了 T2V 模型在表現上與物質狀態(例如固態-固態)的交互變化,結果見下表 5。有趣的是,發現所有現有的 T2V 模型在描述固體材料之間的交互時表現最差(例如,瓶子從桌子上掉落),表現最好的模型 CogVideoX-5B 僅在 24.4%的情況下實現了準確的語義遵循和物理常識。此外,我們觀察到 Pika 在描述流體與流體之間交互的標題(例如,雨水濺到池塘上)中表現最好。這表明 T2V 模型的表現受場景中所涉及物質狀態的巨大影響,強調了模型開發者可以專注于提升固體-固體交互的語義遵循和物理常識。
復雜度的變化
如下表 6所示,研究者們分析了視頻模型在根據物理模擬渲染物體或合成交互時復雜度變化的表現。隨著標題復雜度的增加,所有視頻模型在語義遵循和物理常識上的表現都有所下降。這表明,物理上更難模擬的標題,在通過條件控制視頻生成模型時也更難實現。因此強調,未來的 T2V 模型開發應該聚焦于減少 VIDEOPHY 數據集中簡單與困難標題之間的差距。
相關性分析
為了理解各種性能指標之間的關系,考察了語義遵循(SA)和物理常識(PC)與視頻質量和運動之間的相關性。實證結果表明,視頻質量與 PC 和 SA 之間存在正相關,而運動與 PC 和 SA 之間存在負相關。這表明,視頻模型在描繪更多運動時,往往會在 SA 和 PC 上犯更多錯誤。封閉式模型(如 Dream Machine/Pika)對視頻質量的貢獻較高,而開放式模型(如 ZeroScope/OpenSora)則對較低質量的視頻貢獻較多。雖然較高的視頻質量與更好的物理常識呈“相關”關系,但注意到,模型在我們基準測試中的絕對表現仍然非常差。
定性分析
CogVideoX-5B 與其他模型的對比
分析了一些定性示例,以了解 CogVideoX-5B 這一表現最佳的模型與我們測試組中其他模型之間的差距。SVD-T2I2V 在涉及動態流體場景時表現不佳。Lumiere-T2I2V 和 Dream Machine (Luma) 在視覺質量上優于 Lumiere-T2V,但它們缺乏對剛性幾何體的深刻理解(例如,在下圖 4(b) 中)。此外, Gen-2 有時會生成靜止的物體漂浮在空中,伴隨緩慢的相機運動,而不是產生有意義的物理動態(例如,在圖 4(c) 中)。相比之下,CogVideoX-5B 在識別不同物體方面表現得相當不錯,其生成結果中的變形很少會導致多個物體混合在一起。進一步來看,它傾向于使用更簡單的背景,避免使用復雜的圖案,因為復雜的圖案中較容易發現缺陷。
盡管如此,甚至是表現最佳的模型 CogVideoX-5B 也可能難以理解基礎物體的材質屬性,導致不自然或不一致的變形,如下圖 5 所示。這種現象也出現在其他視頻生成模型的結果中。我們的分析突出了缺乏細粒度的物理常識,這也是未來研究應當關注的一個問題。
失敗模式分析
展示了一些定性示例,以理解生成視頻中常見的物理常識失敗模式。來自各種 T2V 生成模型的定性示例可見下圖。常見的失敗模式包括:
(a) 質量守恒違例:物體的體積或紋理隨時間變化不一致。
(b) 牛頓第一定律違例:物體在平衡狀態下改變速度,而沒有外部力的作用。
(c) 牛頓第二定律違例:物體違反動量守恒。
(d) 固體本構定律違例:固體以與其材質屬性相悖的方式變形,例如剛性物體隨時間變形。
(e) 流體本構定律違例:流體表現出不自然的流動動作。
(f) 非物理性穿透:物體不自然地相互穿透。
VIDEOCON-PHYSICS:VIDEOPHY 數據集的自動評估器
為了實現生成視頻在語義一致性和物理常識方面的可擴展和可靠評估,為數據集補充了 VIDEOCON-PHYSICS,一種自動評分器。
VIDEOCON-PHYSICS 對未見過的提示具有泛化能力。
下表 4 中比較了不同自動評估器與人工預測的 ROC-AUC 結果,評估的是測試提示生成的視頻。這里的生成視頻來自于用于訓練 VIDEOCON-PHYSICS 模型的模型。我們發現,VIDEOCON-PHYSICS 在語義一致性和物理常識判斷上分別比零-shot 的 VIDEOCON 提高了 17 分和 19 分。這表明,通過結合生成視頻分布和人工標注進行微調,能夠有效提升模型在未見過提示上的評估能力。
VIDEOCON-PHYSICS 在語義一致性方面的判斷一致性高于物理常識。這表明,判斷物理常識比判斷語義一致性更具挑戰性。令人感興趣的是,GPT-4-Vision 在數據集上,對于語義一致性和物理常識的評判幾乎是隨機的。這意味著,對于 GPT-4-Vision 來說,在零-shot 設置下,從多圖像推理能力獲得準確評估是非常困難的。
為了應對這一挑戰,測試了 Gemini-Pro-Vision-1.5,發現它在語義一致性評估上取得了不錯的分數(73 分),但在物理常識評估上接近隨機(54 分)。這表明,現有的多模態基礎模型缺乏判斷物理常識的能力。
VIDEOCON-PHYSICS 對未見過的生成模型具有泛化能力
為了評估 VIDEOCON-PHYSICS 在未見過的視頻分布上的性能,訓練了一個經過簡化版本的 VIDEOCON-PHYSICS,該版本基于一組受限的視頻數據。具體來說,我們將 VIDEOCON-PHYSICS 訓練在從 VideoCrafter2、ZeroScope、LaVIE、OpenSora、SVD-T2I2V 和 Gen-2 獲取的人工標注數據上,并使用測試集中的其他 T2V 模型生成的視頻進行評估。
VIDEOCON-PHYSICS 在語義一致性和物理常識判斷上分別比 VIDEOCON 提高了 15 分。這表明,隨著新的 T2V 生成模型的發布,VIDEOCON-PHYSICS 可以有效評估其語義一致性和物理常識。
自動排行榜可靠地跟蹤人工排行榜
通過對開放模型和封閉模型的語義一致性和物理常識分數進行平均,創建了一個自動排行榜。隨后,我們將這些排名與人工排行榜對齊,基于聯合性能指標(SA = 1,PC = 1)。
在自動排行榜中的模型相對排名(CogVideoX-5B > VideoCrafter2 > LaVIE > CogVideoX-2B > SVD-T2I2V > ZeroScope > OpenSora)與人工排行榜中的模型相對排名(CogVideoX-5B > VideoCrafter2 > CogVideoX-2B > LaVIE > SVD-T2I2V > ZeroScope > OpenSora)高度一致。在封閉模型中也觀察到了類似的趨勢。然而, Pika 在自動排行榜中的分數相對較低,這是一個可以通過獲取更多數據來改善的局限性。總體而言,大多數模型在兩個排行榜中的排名相似,證明了其在未來模型開發中的可靠性。
微調視頻模型
雖然 VIDEOPHY 數據集用于模型評估和構建自動評估器,但還評估了該數據集是否可以用于微調視頻模型。在微調后,觀察到語義一致性顯著下降,而物理常識保持不變。這可能是由于訓練樣本的限制、優化挑戰以及視頻微調領域尚處于初期階段。未來的研究將專注于基于這些發現增強生成模型中的物理常識。
結論
VIDEOPHY,這是首個用于評估生成視頻中物理常識的數據集。通過對多種視頻模型(包括開源和閉源模型)的全面評估,發現這些模型在物理常識和語義一致性方面存在顯著不足。本文的數據集揭示了現有方法遠未成為通用的世界模擬器。此外,本文還提出了VIDEOCON-PHYSICS,一個自動化評估模型,能夠在我們的數據集上進行高效且可擴展的評估。本文的工作將為視頻生成建模中的物理常識研究奠定基礎。
本文轉自AI生成未來 ,作者:AI生成未來
