成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強?這個框架一測便知

人工智能 新聞
昨天,Meta、紐約大學的研究者用「自我獎勵方法」,讓大模型自己生成自己的微調數據,從而在 Llama 2 70B 的迭代微調后超越了 GPT-4。今天,英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下,在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

AI 視頻生成,是最近最熱門的領域之一。各個高校實驗室、互聯網巨頭 AI Lab、創業公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發布,更是讓人眼前一亮。v???

大家肯定對以下幾個問題感到好奇:

  • 到底哪個視頻生成模型最牛?
  • 每個模型有什么特長?
  • AI 視頻生成領域目前還有哪些值得關注的問題待解決?

為此,我們推出了 VBench,一個全面的「視頻生成模型的評測框架」,來告訴你 「視頻模型哪家強,各家模型強在哪」。

圖片


  • 論文:https://arxiv.org/abs/2311.17982
  • 代碼:https://github.com/Vchitect/VBench
  • 網頁:https://vchitect.github.io/VBench-project/
  • 論文標題:VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench 不光能全面、細致地評估視頻生成的效果,而且還特別符合人們的感官體驗,能省下一大堆評估的時間和精力。

圖片

  • VBench 包含 16 個分層和解耦的評測維度 
  • VBench 開源了用于文生視頻生成評測的 Prompt List 體系
  • VBench 每個維度的評測方案與人類的觀感與評價對齊 
  • VBench 提供了多視角的洞察,助力未來對于 AI 視頻生成的探索

“VBench” - 「視頻生成模型」的全面基準測試套件

AI 視頻生成模型 - 評測結果

已開源的 AI 視頻生成模型

各個開源的 AI 視頻生成模型在 VBench 上的表現如下。

圖片

各家已開源的 AI 視頻生成模型在 VBench 上的表現。在雷達圖中,為了更清晰地可視化比較,我們將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。

圖片

各家已開源的 AI 視頻生成模型在 VBench 上的表現。

在以上 6 個模型中,可以看到 VideoCrafter-1.0 和 Show-1 在大多數維度都有相對優勢。

創業公司的視頻生成模型

VBench 目前給出了 Gen-2 和 Pika 這兩家創業公司模型的評測結果。

圖片

Gen-2 和 Pika 在 VBench 上的表現。在雷達圖中,為了更清晰地可視化比較,我們加入了 VideoCrafter-1.0 和 Show-1 作為參考,同時將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。

圖片

Gen-2 和 Pika 在 VBench 上的表現。我們加入了 VideoCrafter-1.0 和 Show-1 的數值結果作為參考。

可以看到,Gen-2 和 Pika 在視頻質量(Video Quality)上有明顯優勢,例如時序一致性(Temporal Consistency)和單幀質量(Aesthetic Quality 和 Imaging Quality)相關維度。在與用戶輸入的 prompt 的語義一致性上(例如 Human Action 和 Appearance Style),部分維度開源模型會更勝一籌。

視頻生成模型 VS 圖片生成模型

圖片

視頻生成模型 VS 圖片生成模型。其中 SD1.4,SD2.1 和 SDXL 是圖片生成模型。

視頻生成模型在 8 大場景類別上的表現

下面是不同模型在 8 個不同類別上的評測結果。

圖片

VBench 現已開源,一鍵即可安裝

目前,VBench 已全面開源,且支持一鍵安裝。歡迎大家來玩,測試一下感興趣的模型,一起推動視頻生成社區的發展。

圖片

圖片

圖片


開源地址:https://github.com/Vchitect/VBench


圖片

我們也開源了一系列 Prompt List:https://github.com/Vchitect/VBench/tree/master/prompts,包含在不同能力維度上用于評測的 Benchmark,以及在不同場景內容上的評測 Benchmark。

圖片

左邊詞云展示了我們 Prompt Suites 的高頻詞分布,右圖展示了不同維度和類別的 prompt 數量統計。

VBench 準不準?

針對每個維度,我們計算了 VBench 評測結果與人工評測結果之間的相關度,進而驗證我們方法與人類觀感的一致性。下圖中,橫軸代表不同維度的人工評測結果,縱軸則展示了 VBench 方法自動評測的結果,可以看到我們方法在各個維度都與人類感知高度對齊。

圖片

VBench 帶給 AI 視頻生成的思考

VBench 不僅可以對現有模型進行評測,更重要的是,還可以發現不同模型中可能存在的各種問題,為未來 AI 視頻生成的發展提供有價值的 insights。

「時序連貫性」以及「視頻的動態程度」:不要二選一,而應同時提升

我們發現時序連貫性(例如 Subject Consistency、Background Consistency、Motion Smoothness)與視頻中運動的幅度(Dynamic Degree)之間有一定的權衡關系。比如說,Show-1 和 VideoCrafter-1.0 在背景一致性和動作流暢度方面表現很好,但在動態程度方面得分較低;這可能是因為生成 「沒有動起來」 的畫面更容易顯得 「在時序上很連貫」。另一方面,VideoCrafter-0.9 在與時序一致性的維度上弱一些,但在 Dynamic Degree 上得分很高。

這說明,同時做好 「時序連貫性」 和 「較高的動態程度」 確實挺難的;未來不應只關注其中一方面的提升,而應該同時提升 「時序連貫性」 以及 「視頻的動態程度」 這兩方面,這才是有意義的。

分場景內容進行評測,發掘各家模型潛力

有些模型在不同類別上表現出的性能存在較大差異,比如在美學質量(Aesthetic Quality)上,CogVideo 在 「Food」 類別上表現不錯,而在 「LifeStyle」 類別得分較低。如果通過訓練數據的調整,CogVideo 在 「LifeStyle」 這些類別上的美學質量是否可以提升上去,進而提升模型整體的視頻美學質量?

這也告訴我們,在評估視頻生成模型時,需要考慮模型在不同類別或主題下的表現,挖掘模型在某個能力維度的上限,進而針對性地提升 「拖后腿」 的場景類別。

有復雜運動的類別:時空表現都不佳

在空間上復雜度高的類別,在美學質量維度得分都比較低。例如,「LifeStyle」 類別對復雜元素在空間中的布局有比較高的要求,「Human」 類別由于鉸鏈式結構的生成帶來了挑戰。

對于時序復雜的類別,比如 「Human」 類別通常涉及復雜的動作、「Vehicle」 類別會經常出現較快的移動,它們在所有測試的維度上得分都相對較低。這表明當前模型在處理時序建模方面仍然存在一定的不足,時序上的建模局限可能會導致空間上的模糊與扭曲,從而導致視頻在時間和空間上的質量都不理想。

難生成的類別:提升數據量收益不大

我們對常用的視頻數據集 WebVid-10M 進行了統計,發現其中約有 26% 的數據與 「Human」 有關,在我們統計的八個類別中占比最高。然而,在評估結果中,「Human」 類別卻是八個類別中表現最差的之一。

這說明對于 「Human」 這樣復雜的類別,僅僅增加數據量可能不會對性能帶來顯著的改善。一種潛在的方法是通過引入 「Human」 相關的先驗知識或控制,比如 Skeletons 等,來指導模型的學習。

百萬量級的數據集:提升數據質量優先于數據量

「Food」 類別雖然在 WebVid-10M 中僅占據 11%,但在評測中幾乎總是擁有最高的美學質量分數。于是我們進一步分析了 WebVid-10M 數據集不同類別內容的美學質量表現,發現 「Food」 類別在 WebVid-10M 中也有最高的美學評分。

這意味著,在百萬量級數據的基礎上,篩選 / 提升數據質量比增加數據量更有幫助。

待提升的能力:準確生成生成多物體,以及物體間的關系

當前的視頻生成模型在 「多對象生成」(Multiple Objects)和 「空間關系」(Spatial Relationship)方面還是追不上圖片生成模型(尤其是 SDXL),這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準確展示多個對象,及它們之間的空間及互動關系。

解決這一問題的潛在方法可能包括:

  • 數據打標:構建視頻數據集,提供對視頻中多個物體的明確描述,以及物體間空間位置關系以及互動關系的描述。
  • 在視頻生成過程中添加中間模態 / 模塊來輔助控制物體的組合和空間位置關系。
  • 使用更好的文本編碼器(Text Encoder)也會對模型的組合生成能力有比較大的影響。
  • 曲線救國:將 T2V 做不好的 「物體組合」 問題交給 T2I,通過 T2I+I2V 的方式來生成視頻。這一做法針對其他很多視頻生成中的問題或許也有效。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-04-10 21:20:38

2023-11-17 22:50:08

模型AI

2009-11-27 08:59:18

Windows 7系統升級

2013-05-14 09:22:56

Intel密碼安全

2024-01-11 12:45:12

AI訓練

2023-12-20 14:54:29

谷歌Gen-2視頻

2023-12-09 14:38:39

2024-02-26 01:00:00

谷歌研究

2024-03-01 12:18:00

AI訓練

2020-07-20 14:08:10

代碼開發工具

2024-10-28 07:30:00

2024-01-25 11:43:00

2023-12-16 12:47:02

AI模型

2025-01-09 13:30:00

2023-12-12 13:45:00

模型訓練

2023-10-23 12:28:04

數據AI

2023-11-21 21:27:32

AI圖片

2023-07-27 14:25:30

模型AI

2025-04-02 08:50:00

AI視頻生成

2023-11-03 11:03:10

AIGen-2
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级久久 | 国产最新视频在线 | 在线观看免费av网 | 亚洲三区在线播放 | 狠狠干av | 欧美日韩中文国产一区发布 | 精品91| 午夜色婷婷 | 久久av一区 | 午夜免费福利电影 | 国产精品福利久久久 | 中文字幕在线观看国产 | 亚洲国产免费 | 东京久久| 成人欧美一区二区 | 日韩精品视频一区二区三区 | 亚洲欧美久久 | 欧美精品久久久久久 | 男女那个视频 | 日韩精品一区二区三区中文在线 | 中文字幕成人 | 免费一区二区三区 | 国产精品毛片久久久久久 | 亚洲精品中文字幕在线观看 | 91文字幕巨乱亚洲香蕉 | 成人精品一区二区三区中文字幕 | 国产免费一区二区 | h视频在线观看免费 | 欧美日韩亚洲国产 | 国产农村妇女毛片精品久久麻豆 | 亚洲一二三视频 | 久久久久综合 | 青青草华人在线视频 | 精品视频一区二区三区在线观看 | 久久久久久国产精品三区 | 精品产国自在拍 | 亚洲美女一区二区三区 | 高清亚洲 | 久久大全| 日韩视频二区 | 中文字幕欧美日韩 |