成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="4gy4y"></button>

<code id="4gy4y"><tr id="4gy4y"></tr></code>

<center id="4gy4y"><acronym id="4gy4y"></acronym></center>

<center id="4gy4y"></center>

<code id="4gy4y"><tr id="4gy4y"></tr></code>

<code id="4gy4y"><wbr id="4gy4y"></wbr></code>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

Pika、Gen-2、ModelScope、SEINE……AI視頻生成哪家強？這個框架一測便知

作者：機器之心 2024-01-22 07:10:00

人工智能新聞

昨天，Meta、紐約大學的研究者用「自我獎勵方法」，讓大模型自己生成自己的微調數據，從而在 Llama 2 70B 的迭代微調后超越了 GPT-4。今天，英偉達的全新對話 QA 模型「ChatQA-70B」在不使用任何 GPT 模型數據的情況下，在 10 個對話 QA 數據集上的平均得分略勝于 GPT-4。

AI 視頻生成，是最近最熱門的領域之一。各個高校實驗室、互聯網巨頭 AI Lab、創業公司紛紛加入了 AI 視頻生成的賽道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM 等視頻生成模型的發布，更是讓人眼前一亮。v???

大家肯定對以下幾個問題感到好奇：

到底哪個視頻生成模型最牛？
每個模型有什么特長？
AI 視頻生成領域目前還有哪些值得關注的問題待解決？

為此，我們推出了 VBench，一個全面的「視頻生成模型的評測框架」，來告訴你「視頻模型哪家強，各家模型強在哪」。

論文：https://arxiv.org/abs/2311.17982
代碼：https://github.com/Vchitect/VBench
網頁：https://vchitect.github.io/VBench-project/
論文標題：VBench: Comprehensive Benchmark Suite for Video Generative Models

VBench 不光能全面、細致地評估視頻生成的效果，而且還特別符合人們的感官體驗，能省下一大堆評估的時間和精力。

VBench 包含 16 個分層和解耦的評測維度
VBench 開源了用于文生視頻生成評測的 Prompt List 體系
VBench 每個維度的評測方案與人類的觀感與評價對齊
VBench 提供了多視角的洞察，助力未來對于 AI 視頻生成的探索

“VBench” - 「視頻生成模型」的全面基準測試套件

AI 視頻生成模型 - 評測結果

已開源的 AI 視頻生成模型

各個開源的 AI 視頻生成模型在 VBench 上的表現如下。

各家已開源的 AI 視頻生成模型在 VBench 上的表現。在雷達圖中，為了更清晰地可視化比較，我們將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。

各家已開源的 AI 視頻生成模型在 VBench 上的表現。

在以上 6 個模型中，可以看到 VideoCrafter-1.0 和 Show-1 在大多數維度都有相對優勢。

創業公司的視頻生成模型

VBench 目前給出了 Gen-2 和 Pika 這兩家創業公司模型的評測結果。

Gen-2 和 Pika 在 VBench 上的表現。在雷達圖中，為了更清晰地可視化比較，我們加入了 VideoCrafter-1.0 和 Show-1 作為參考，同時將每個維度的評測結果歸一化到了 0.3 與 0.8 之間。

Gen-2 和 Pika 在 VBench 上的表現。我們加入了 VideoCrafter-1.0 和 Show-1 的數值結果作為參考。

可以看到，Gen-2 和 Pika 在視頻質量（Video Quality）上有明顯優勢，例如時序一致性（Temporal Consistency）和單幀質量（Aesthetic Quality 和 Imaging Quality）相關維度。在與用戶輸入的 prompt 的語義一致性上（例如 Human Action 和 Appearance Style），部分維度開源模型會更勝一籌。

視頻生成模型 VS 圖片生成模型

視頻生成模型 VS 圖片生成模型。其中 SD1.4，SD2.1 和 SDXL 是圖片生成模型。

視頻生成模型在 8 大場景類別上的表現

下面是不同模型在 8 個不同類別上的評測結果。

VBench 現已開源，一鍵即可安裝

目前，VBench 已全面開源，且支持一鍵安裝。歡迎大家來玩，測試一下感興趣的模型，一起推動視頻生成社區的發展。

開源地址：https://github.com/Vchitect/VBench

我們也開源了一系列 Prompt List：https://github.com/Vchitect/VBench/tree/master/prompts，包含在不同能力維度上用于評測的 Benchmark，以及在不同場景內容上的評測 Benchmark。

左邊詞云展示了我們 Prompt Suites 的高頻詞分布，右圖展示了不同維度和類別的 prompt 數量統計。

VBench 準不準？

針對每個維度，我們計算了 VBench 評測結果與人工評測結果之間的相關度，進而驗證我們方法與人類觀感的一致性。下圖中，橫軸代表不同維度的人工評測結果，縱軸則展示了 VBench 方法自動評測的結果，可以看到我們方法在各個維度都與人類感知高度對齊。

VBench 帶給 AI 視頻生成的思考

VBench 不僅可以對現有模型進行評測，更重要的是，還可以發現不同模型中可能存在的各種問題，為未來 AI 視頻生成的發展提供有價值的 insights。

「時序連貫性」以及「視頻的動態程度」：不要二選一，而應同時提升

我們發現時序連貫性（例如 Subject Consistency、Background Consistency、Motion Smoothness）與視頻中運動的幅度（Dynamic Degree）之間有一定的權衡關系。比如說，Show-1 和 VideoCrafter-1.0 在背景一致性和動作流暢度方面表現很好，但在動態程度方面得分較低；這可能是因為生成「沒有動起來」的畫面更容易顯得「在時序上很連貫」。另一方面，VideoCrafter-0.9 在與時序一致性的維度上弱一些，但在 Dynamic Degree 上得分很高。

這說明，同時做好「時序連貫性」和「較高的動態程度」確實挺難的；未來不應只關注其中一方面的提升，而應該同時提升「時序連貫性」以及「視頻的動態程度」這兩方面，這才是有意義的。

分場景內容進行評測，發掘各家模型潛力

有些模型在不同類別上表現出的性能存在較大差異，比如在美學質量（Aesthetic Quality）上，CogVideo 在「Food」類別上表現不錯，而在「LifeStyle」類別得分較低。如果通過訓練數據的調整，CogVideo 在「LifeStyle」這些類別上的美學質量是否可以提升上去，進而提升模型整體的視頻美學質量？

這也告訴我們，在評估視頻生成模型時，需要考慮模型在不同類別或主題下的表現，挖掘模型在某個能力維度的上限，進而針對性地提升「拖后腿」的場景類別。

有復雜運動的類別：時空表現都不佳

在空間上復雜度高的類別，在美學質量維度得分都比較低。例如，「LifeStyle」類別對復雜元素在空間中的布局有比較高的要求，「Human」類別由于鉸鏈式結構的生成帶來了挑戰。

對于時序復雜的類別，比如「Human」類別通常涉及復雜的動作、「Vehicle」類別會經常出現較快的移動，它們在所有測試的維度上得分都相對較低。這表明當前模型在處理時序建模方面仍然存在一定的不足，時序上的建模局限可能會導致空間上的模糊與扭曲，從而導致視頻在時間和空間上的質量都不理想。

難生成的類別：提升數據量收益不大

我們對常用的視頻數據集 WebVid-10M 進行了統計，發現其中約有 26% 的數據與「Human」有關，在我們統計的八個類別中占比最高。然而，在評估結果中，「Human」類別卻是八個類別中表現最差的之一。

這說明對于「Human」這樣復雜的類別，僅僅增加數據量可能不會對性能帶來顯著的改善。一種潛在的方法是通過引入「Human」相關的先驗知識或控制，比如 Skeletons 等，來指導模型的學習。

百萬量級的數據集：提升數據質量優先于數據量

「Food」類別雖然在 WebVid-10M 中僅占據 11%，但在評測中幾乎總是擁有最高的美學質量分數。于是我們進一步分析了 WebVid-10M 數據集不同類別內容的美學質量表現，發現「Food」類別在 WebVid-10M 中也有最高的美學評分。

這意味著，在百萬量級數據的基礎上，篩選 / 提升數據質量比增加數據量更有幫助。

待提升的能力：準確生成生成多物體，以及物體間的關系

當前的視頻生成模型在「多對象生成」（Multiple Objects）和「空間關系」（Spatial Relationship）方面還是追不上圖片生成模型（尤其是 SDXL），這凸顯了提升組合能力的重要性。所謂組合能力指的是模型在視頻生成中是否能準確展示多個對象，及它們之間的空間及互動關系。

解決這一問題的潛在方法可能包括：

數據打標：構建視頻數據集，提供對視頻中多個物體的明確描述，以及物體間空間位置關系以及互動關系的描述。
在視頻生成過程中添加中間模態 / 模塊來輔助控制物體的組合和空間位置關系。
使用更好的文本編碼器（Text Encoder）也會對模型的組合生成能力有比較大的影響。
曲線救國：將 T2V 做不好的「物體組合」問題交給 T2I，通過 T2I+I2V 的方式來生成視頻。這一做法針對其他很多視頻生成中的問題或許也有效。

責任編輯：張燕妮來源：機器之心

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：欧美一级久久 | 国产最新视频在线 | 在线观看免费av网 | 亚洲三区在线播放 | 狠狠干av | 欧美日韩中文国产一区发布 | 精品91| 午夜色婷婷 | 久久av一区 | 午夜免费福利电影 | 国产精品福利久久久 | 中文字幕在线观看国产 | 亚洲国产免费 | 东京久久| 成人欧美一区二区 | 日韩精品视频一区二区三区 | 亚洲欧美久久 | 欧美精品久久久久久 | 男女那个视频 | 日韩精品一区二区三区中文在线 | 中文字幕成人 | 免费一区二区三区 | 国产精品毛片久久久久久 | 亚洲精品中文字幕在线观看 | 91文字幕巨乱亚洲香蕉 | 成人精品一区二区三区中文字幕 | 国产免费一区二区 | h视频在线观看免费 | 欧美日韩亚洲国产 | 国产农村妇女毛片精品久久麻豆 | 亚洲一二三视频 | 久久久久综合 | 青青草华人在线视频 | 精品视频一区二区三区在线观看 | 久久久久久国产精品三区 | 精品产国自在拍 | 亚洲美女一区二区三区 | 高清亚洲 | 久久大全| 日韩视频二区 | 中文字幕欧美日韩 |

<button id="w2aym"></button>

<rt id="w2aym"><delect id="w2aym"></delect></rt><bdo id="w2aym"><source id="w2aym"></source></bdo>

<code id="w2aym"><tr id="w2aym"></tr></code>

<rt id="w2aym"></rt>