Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強?這個框架一測便知
AI 視頻生成,是最近最熱門的領域之一。各個高校實驗室、互聯網巨頭 AI Lab、創業公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發布,更是讓人眼前一亮。v???
大家肯定對以下幾個問題感到好奇:
- 到底哪個視頻生成模型最牛?
- 每個模型有什么特長?
- AI 視頻生成領域目前還有哪些值得關注的問題待解決?
為此,我們推出了 VBench,一個全面的「視頻生成模型的評測框架」,來告訴你 「視頻模型哪家強,各家模型強在哪」。
- 論文:https://arxiv.org/abs/2311.17982
- 代碼:https://github.com/Vchitect/VBench
- 網頁:https://vchitect.github.io/VBench-project/
- 論文標題:VBench: Comprehensive Benchmark Suite for Video Generative Models
VBench 不光能全面、細致地評估視頻生成的效果,而且還特別符合人們的感官體驗,能省下一大堆評估的時間和精力。
- VBench 包含 16 個分層和解耦的評測維度
- VBench 開源了用于文生視頻生成評測的 Prompt List 體系
- VBench 每個維度的評測方案與人類的觀感與評價對齊
- VBench 提供了多視角的洞察,助力未來對于 AI 視頻生成的探索
“VBench” - 「視頻生成模型」的全面基準測試套件
AI 視頻生成模型 - 評測結果
已開源的 AI 視頻生成模型
各個開源的 AI 視頻生成模型在 VBench 上的表現如下。
各家已開源的 AI 視頻生成模型在 VBench 上的表現。在雷達圖中,為了更清晰地可視化比較,我們將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。
各家已開源的 AI 視頻生成模型在 VBench 上的表現。
在以上 6 個模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多數維度都有相對優勢。
創業公司的視頻生成模型
VBench 目前給出了 Gen-2 和 Pika 這兩家創業公司模型的評測結果。
Gen-2 和 Pika 在 VBench 上的表現。在雷達圖中,為了更清晰地可視化比較,我們加入了 VideoCrafter-1.0 和 Show-1 作為參考,同時將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。
Gen-2 和 Pika 在 VBench 上的表現。我們加入了 VideoCrafter-1.0 和 Show-1 的數值結果作為參考。
可以看到,Gen-2 和 Pika 在視頻質量(Video Quality)上有明顯優勢,例如時序一致性(Temporal Consistency)和單幀質量(Aesthetic Quality 和 Imaging Quality)相關維度。在與用戶輸入的 prompt 的語義一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會更勝一籌。
視頻生成模型 VS 圖片生成模型
視頻生成模型 VS 圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片生成模型。
視頻生成模型在 8 大場景類別上的表現
下面是不同模型在 8 個不同類別上的評測結果。
VBench 現已開源,一鍵即可安裝
目前,VBench 已全面開源,且支持一鍵安裝。歡迎大家來玩,測試一下感興趣的模型,一起推動視頻生成社區的發展。
開源地址:https://github.com/Vchitect/VBench
我們也開源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用于評測的 Benchmark,以及在不同場景內容上的評測 Benchmark。
左邊詞云展示了我們 Prompt Suites 的高頻詞分布,右圖展示了不同維度和類別的 prompt 數量統計。
VBench 準不準?
針對每個維度,我們計算了 VBench 評測結果與人工評測結果之間的相關度,進而驗證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評測結果,縱軸則展示了 VBench 方法自動評測的結果,可以看到我們方法在各個維度都與人類感知高度對齊。
VBench 帶給 AI 視頻生成的思考
VBench 不僅可以對現有模型進行評測,更重要的是,還可以發現不同模型中可能存在的各種問題,為未來 AI 視頻生成的發展提供有價值的 insights。
「時序連貫性」以及「視頻的動態程度」:不要二選一,而應同時提升
我們發現時序連貫性(例如 Subject Consistency、Background Consistency、Motion Smoothness)與視頻中運動的幅度(Dynamic Degree)之間有一定的權衡關系。比如說,Show-1 和 VideoCrafter-1.0 在背景一致性和動作流暢度方面表現很好,但在動態程度方面得分較低;這可能是因為生成 「沒有動起來」 的畫面更容易顯得 「在時序上很連貫」。另一方面,VideoCrafter-0.9 在與時序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。
這說明,同時做好 「時序連貫性」 和 「較高的動態程度」 確實挺難的;未來不應只關注其中一方面的提升,而應該同時提升 「時序連貫性」 以及 「視頻的動態程度」 這兩方面,這才是有意義的。
分場景內容進行評測,發掘各家模型潛力
有些模型在不同類別上表現出的性能存在較大差異,比如在美學質量(Aesthetic Quality)上,CogVideo 在 「Food」 類別上表現不錯,而在 「LifeStyle」 類別得分較低。如果通過訓練數據的調整,CogVideo 在 「LifeStyle」 這些類別上的美學質量是否可以提升上去,進而提升模型整體的視頻美學質量?
這也告訴我們,在評估視頻生成模型時,需要考慮模型在不同類別或主題下的表現,挖掘模型在某個能力維度的上限,進而針對性地提升 「拖后腿」 的場景類別。
有復雜運動的類別:時空表現都不佳
在空間上復雜度高的類別,在美學質量維度得分都比較低。例如,「LifeStyle」 類別對復雜元素在空間中的布局有比較高的要求,「Human」 類別由于鉸鏈式結構的生成帶來了挑戰。
對于時序復雜的類別,比如 「Human」 類別通常涉及復雜的動作、「Vehicle」 類別會經常出現較快的移動,它們在所有測試的維度上得分都相對較低。這表明當前模型在處理時序建模方面仍然存在一定的不足,時序上的建模局限可能會導致空間上的模糊與扭曲,從而導致視頻在時間和空間上的質量都不理想。
難生成的類別:提升數據量收益不大
我們對常用的視頻數據集 WebVid-10M 進行了統計,發現其中約有 26% 的數據與 「Human」 有關,在我們統計的八個類別中占比最高。然而,在評估結果中,「Human」 類別卻是八個類別中表現最差的之一。
這說明對于 「Human」 這樣復雜的類別,僅僅增加數據量可能不會對性能帶來顯著的改善。一種潛在的方法是通過引入 「Human」 相關的先驗知識或控制,比如 Skeletons 等,來指導模型的學習。
百萬量級的數據集:提升數據質量優先于數據量
「Food」 類別雖然在 WebVid-10M 中僅占據 11%,但在評測中幾乎總是擁有最高的美學質量分數。于是我們進一步分析了 WebVid-10M 數據集不同類別內容的美學質量表現,發現 「Food」 類別在 WebVid-10M 中也有最高的美學評分。
這意味著,在百萬量級數據的基礎上,篩選 / 提升數據質量比增加數據量更有幫助。
待提升的能力:準確生成生成多物體,以及物體間的關系
當前的視頻生成模型在 「多對象生成」(Multiple Objects)和 「空間關系」(Spatial Relationship)方面還是追不上圖片生成模型(尤其是 SDXL),這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準確展示多個對象,及它們之間的空間及互動關系。
解決這一問題的潛在方法可能包括:
- 數據打標:構建視頻數據集,提供對視頻中多個物體的明確描述,以及物體間空間位置關系以及互動關系的描述。
- 在視頻生成過程中添加中間模態 / 模塊來輔助控制物體的組合和空間位置關系。
- 使用更好的文本編碼器(Text Encoder)也會對模型的組合生成能力有比較大的影響。
- 曲線救國:將 T2V 做不好的 「物體組合」 問題交給 T2I,通過 T2I+I2V 的方式來生成視頻。這一做法針對其他很多視頻生成中的問題或許也有效。