成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌AI視頻再出王炸!全能通用視覺編碼器VideoPrism,性能刷新30項SOTA

人工智能
谷歌團隊推出「通用視覺編碼器」VideoPrism,在3600萬高質量視頻字幕對和5.82億個視頻剪輯的數據集上完成了訓練,性能刷新30項SOTA。

AI視頻模型Sora爆火之后,Meta、谷歌等大廠紛紛下場做研究,追趕OpenAI的步伐。

最近,來自谷歌團隊的研究人員提出了一種通用視頻編碼器——VideoPrism。

它能夠通過單一凍結模型,處理各種視頻理解任務。

圖片圖片

論文地址:https://arxiv.org/pdf/2402.13217.pdf

比如,VideoPrism能夠將下面視頻中吹蠟燭的人分類、定位出來。

圖片圖片

視頻-文本檢索,根據文本內容,可以檢索出視頻中相應的內容。

圖片圖片

再比如,描述下面視頻——一個小女孩正在玩積木。

還可以進行QA問答。

- 她放在綠色積木塊上方積木的是什么顏色?

- 紫色。

圖片圖片

研究人員在一個異構語料庫對VideoPrism進行了預訓練,包含3600萬高質量視頻字幕對和5.82億個視頻剪輯,并帶有噪聲并行文本(如ASR轉錄文本)。

值得一提的是,VideoPrism在33項視頻理解基準測試中,刷新了30項SOTA。

圖片圖片

通用視覺編碼器VideoPrism

當前,視頻基礎模型(ViFM)有巨大的潛力,可以在龐大的語料庫中解鎖新的能力。

雖然之前的研究在一般視頻理解方面取得了很大進展,但構建真正的「基礎視頻模型」仍然是一個難以實現的目標。

對此,谷歌推出了一種通用視覺編碼器——VideoPrism,旨在解決廣泛的視頻理解任務,包括分類、本地化、檢索、字幕和問答(QA)。

VideoPrism對CV數據集,以及神經科學和生態學等科學領域的CV任務進行了廣泛評估。

通過使用單一凍結模型,以最小的適應度實現了最先進的性能。

另外,谷歌研究人員稱,這種凍結編碼器設置同時遵循先前研究,并考慮了其實際實用性,以及高計算和微調視頻模型的成本。

圖片圖片

設計架構,兩階段訓練法

VideoPrism背后的設計理念如下。

預訓練數據是基礎模型(FM)的基礎,ViFM的理想預訓練數據,是世界上所有視頻的代表性樣本。

這個樣本中,大多數視頻都沒有描述內容的并行文本。

然而,如果訓在這樣的文本,它就能提供有關視頻空間的無價語義線索。

因此,谷歌的預訓練策略應主要關注視頻模式,同時充分利用任何可用的視頻文本對。

在數據方面,谷歌研究人員通過匯集3600萬高質量視頻字幕對,以及5.82億視頻剪輯與噪聲并行文本(如ASR轉錄、生成的字幕和檢索到的文本)來近似建立所需的預訓練語料庫。

圖片圖片

圖片圖片

在建模方面,作者首先從所有不同質量的視頻-文本對中對比學習語義視頻嵌入。

隨后,利用廣泛的純視頻數據,對語義嵌入進行全局和標記提煉,改進了下文所述的掩碼視頻建模。

盡管在自然語言方面取得了成功,但由于原始視覺信號缺乏語義,掩碼數據建模對于CV來說仍然具有挑戰性。

現有研究通過借用間接語義(如使用CLIP引導模型或分詞器,或隱含語義來應對這一挑戰)或隱性推廣它們(比如標記視覺patches),將高掩碼率和輕量級解碼器結合。

在上述想法的基礎上,谷歌團隊根據預訓練數據采用了兩階段方法。

圖片圖片

在第一階段,進行對比學習,使用所有視頻文本對,將視頻編碼器與文本編碼器對齊。

根據先前的研究,谷歌團隊最小化批中所有視頻文本對的相似性得分,進行對稱交叉熵損失最小化。

并使用 CoCa 的圖像模型初始化空間編碼模塊,并將WebLI納入到預訓練中。

在計算損失之前,視頻編碼器的特征會通過多頭注意力匯集池(MAP)進行聚合。

這一階段允許視頻編碼器從語言監督中學習豐富的視覺語義,由此產生的模型為第二階段訓練提供語義視頻嵌入。

圖片圖片

第二階段,繼續訓練編碼器,并進行了兩項改進:

- 模型需要根據未掩碼的輸入視頻patches,來預測第一階段的視頻級全局嵌入和token式嵌入

- 編碼器的輸出token在傳給解碼器之前,要進行隨機洗牌,以避免學習捷徑。

值得注意的是,研究人員的預訓練利用了兩個監督信號:視頻的文本描述,以及上下文自監督,使VideoPrism能夠在以外觀和動作為中心的任務上表現出色。

事實上,之前的研究表明,視頻字幕主要揭示外觀線索,而上下文我監督有助于學習動作。

圖片圖片

實驗結果

接下來,研究人員在廣泛的以視頻為中心的理解任務上評估VideoPrism,展現其能力和通用性。

主要分為以下四類:

(1) 一般僅視頻理解,包括分類和時空定位

(2) 零樣本視頻文本檢索

(3) 零樣本視頻字幕和質量檢查

(4) 科學領域的CV任務

分類和時空定位

表2顯示了VideoGLUE上的凍結骨干的結果。

在所有數據集上,VideoPrism都大幅優于基線。此外,將VideoPrism的底層模型大小從ViT-B增加到ViT-g可以顯著提高性能。

值得注意的是,沒有基線方法能在所有基準測試中取得第二好的成績,這表明以前的方法可能是針對視頻理解的某些方面而開發的。

而VideoPrism在這一廣泛的任務上持續改進。

這一結果表明,VideoPrism將各種視頻信號整合到了一個編碼器中:多種粒度的語義、外觀與運動線索、時空信息以及對不同視頻源(如網絡視頻與腳本表演)的魯棒性。

圖片圖片

零樣本視頻文本檢索和分類

表3和表4分別總結了視頻文本檢索和視頻分類的結果。

VideoPrism的性能刷新多項基準,而且在具有挑戰性的數據集上,VideoPrism 與之前的技術相比取得了非常顯著的進步。

圖片圖片

基礎模型VideoPrism-B 的大多數結果,實際上優于現有的更大規模模型。

此外,VideoPrism與表4中使用域內數據和額外模態(例如音頻)預訓練的模型相當,甚至更好。這些在零樣本檢索和分類任務中的改進體現了VideoPrism強大的泛化能力。

圖片圖片

零樣本視頻字幕和質量檢查

表5和表6分別顯示了,零樣本視頻字幕和QA的結果。

盡管模型架構簡單且適配器參數數量較少,但最新模型仍具有競爭力,除VATEX外,在凍結視覺和語言模型的方法中名列前茅。

結果表明,VideoPrism編碼器能夠很好地推廣到視頻到語言的生成任務。

圖片圖片

科學領域的CV任務

通用ViFM在所有評估中使用共享的凍結編碼器,其性能與專門用于單個任務的特定領域模型相媲美。

尤其是,VideoPrism通常表現最好,并超越了具有基本規模模型的領域專家模型。

擴展到大規模模型可以進一步提高所有數據集的性能。這些結果表明ViFM有潛力顯著加速不同領域的視頻分析。

圖片

消融研究

圖4顯示了消融結果。值得注意的是,VideoPrism在SSv2上的持續改進表明,數據管理和模型設計工作在促進視頻中的運動理解方面的有效性。

盡管對比基線已經在K400上取得了有競爭力的結果,但所提出的全局蒸餾和token洗牌進一步提高了準確性。

圖片圖片

參考資料:

https://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-04-28 02:03:00

多模態大模型EVEv2

2024-12-18 14:50:00

AI訓練數據

2024-07-16 13:18:36

2023-05-06 08:23:36

ChatGPT自然語言技術

2021-11-02 20:44:47

數字化

2024-12-18 18:57:58

2023-06-25 10:01:29

2023-03-03 15:40:43

抖音視頻編碼器

2024-11-27 14:00:00

模型訓練

2023-10-07 09:29:09

2013-06-13 10:43:30

安訊士視頻會議

2025-04-17 14:11:10

視覺AI模型

2025-04-07 04:30:00

2020-10-23 14:05:39

AI 服務器測試

2024-12-11 13:50:00

AI圖像生成

2025-03-06 07:44:36

2021-03-29 11:37:50

人工智能深度學習
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久草久草久草 | 免费黄色a级毛片 | 成人免费看黄网站在线观看 | 国产黄色在线 | 国产精品一区二 | 日韩欧美专区 | 国产一区二区三区视频在线观看 | 中文字幕一区在线观看视频 | 日日人人| 国产高清在线精品 | 精久久| 91一区二区在线观看 | 国产精品成人一区二区 | 91亚洲精品国偷拍自产在线观看 | 一区二区在线视频 | 亚洲一区av| 在线成人 | 欧美精品一区二区三区四区 | a级毛片国产 | 国产精品久久久久久久久久久免费看 | 日韩欧美在线观看视频 | 欧美性视频在线播放 | 在线一区视频 | 狠狠干天天干 | 成人精品一区亚洲午夜久久久 | 精品一区二区在线视频 | 亚洲精品中文字幕中文字幕 | 久久com | 日本精品裸体写真集在线观看 | 亚洲免费在线 | 欧美日韩成人在线 | 日韩中文字幕视频在线 | 欧美人妇做爰xxxⅹ性高电影 | 91久久久久 | 国产高清在线 | 黑人巨大精品欧美一区二区一视频 | 日韩中字幕 | m豆传媒在线链接观看 | 国精产品一区二区三区 | 亚洲一区二区三区国产 | 麻豆视频在线免费观看 |