成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

VideoMamba：用于高效視頻理解的狀態(tài)空間模型

發(fā)布于 2024-4-9 10:21

瀏覽

0收藏

我們提出了一個僅基于狀態(tài)空間模型(SSM)的高效視頻理解架構VideoMamba，并通過大量的實驗證明了它具備一系列良好的特性，包括 (1) Visual Domain Scalability; (2) Short-term Action Sensitivity; (3) Long-term Video Superiority; (4) Modality Compatibility。這使得VideoMamba在一系列視頻benchmark上取得不俗的結果，尤其是長視頻benchmark，為未來更全面的視頻理解提供了更高效的方案。

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

論文題目：

VideoMamba: State Space Model for Efficient Video Understanding

論文鏈接：

??https://arxiv.org/abs/2403.06977??

代碼鏈接：

??https://github.com/OpenGVLab/VideoMamba??

Huggingface：

??https://huggingface.co/OpenGVLab/VideoMamba??

Online Demo：

??https://huggingface.co/spaces/OpenGVLab/VideoMamba??

一、Motivation

視頻表征學習長期以來存在兩大痛點，一是短clip里存在大量的時空冗余，二是長上下本需要復雜的時空關聯(lián)。曾經風靡一時的3D CNN和video transformer，分別使用卷積和自注意力機制解決了兩大難題。在我們之前的工作UniFormer[1]里，我們嘗試將卷積和自注意力無縫地結合，盡管它能同時解決兩大難題，但對于長視頻仍力不從心。而Gemini[2]和Sora[3]的爆火，使得長視頻理解與生成成為了研究的重心，這亟需更高效的視頻表征模型。

幸運的是，NLP領域這兩年涌現(xiàn)了不少高效算子，如S4[4], RWKV[5]和RetNet[6]。而Mamba[7]提出動態(tài)狀態(tài)空間模型(S6)，能以線性復雜度進行長時的動態(tài)建模。這引領了一系列視覺任務的適配，如Vision Mamba[8]和VMamba[9]，提出了多向SSM機制用于處理2D圖片，這些模型不僅能與基于注意力的架構媲美，而且大大減小顯存開銷。

考慮到視頻產生的超長token序列，一個自然而然的問題便是，Mamba對視頻理解是否同樣有效？答案是肯定的。

二、 Methods

2.1 Architecture

在進入VideoMamba結構的介紹之前，我們先看看用于1D序列的Mamba block，和用于視覺任務的雙向Mamba block。這里我們不再贅述SSM和Mamba的底層原理，感興趣的同學可以通過油管視頻（https://www.youtube.com/watch?v=8Q_tqwpTpVU）學習。

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

雙向Mamba在單向Mamba的基礎上，引入了對反向序列的SSM，這使得雙向Mamba能更好地對2D序列建模，從而提升對視覺輸入的感知能力。基于雙向Mamba，我們按照ViT[10]的設計，引入[CLS] token和空間位置編碼，并針對視頻建模，引入3D patch embedding和空間位置編碼，提出了如下所示的VideoMamba：

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

為了應用雙向Mamba處理時空信息，我們拓展原本的2D掃描到不同的雙向3D掃描：

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

其中空間優(yōu)先掃描最簡單，實驗證明效果也最好。基于該架構，我們提出了三種不同size的模型，VideoMamba-Ti，VideoMamba-S和VideoMamba-M。

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

但在實驗里，當我們增大VideoMamba規(guī)模時，非常容易過擬合，導致大模型的結果甚至差于小模型。為此，我們提出了Self-Distillation策略，使用訓練好的小模型當老師，引導大模型訓練，有效地避免模型過擬合，而只需少量額外的開銷。

2.2 Masked Modeling

近來，VideoMAE[11]引入掩碼建模，顯著增強了模型對細粒度時序的理解能力，而UMT[12]進一步提出高效的掩碼對齊策略，不僅大大減小了訓練開銷，還使得模型能魯棒地處理各種單模態(tài)和多模態(tài)任務。為了增強VideoMamba對時序的敏感性，同時驗證它和文本模態(tài)的兼容性，我們借鑒UMT的方式，引入CLIP-ViT當teacher，進行兩階段蒸餾訓練。

不同于UMT使用多層對齊，由于VideoMamba和ViT存在架構差異，我們只對齊模型最后一層，考慮到Mamba block對連續(xù)token更友好，我們設計了逐行掩碼策略：

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

同時我們也考慮了注意力掩碼策略，這能保持語義性更強的鄰近token。

三、Experiments

3.1 Scale Up

我們首先在ImageNet上進行了圖像分類實驗如下所示

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

可見在沒有Self-Distillation (SD)時，VideoMamba-M和VideoMamba-B都會在訓練的最后過擬合，其中VideoMamba-B尤為嚴重。而在引入SD后，VideoMamba-M收斂符合期望，且明顯強于老師模型VideoMamba-S。為了避免老師模型帶偏訓練，我們引入了Early Stop策略，即提前移除蒸餾引導，實驗發(fā)現(xiàn)并無提升。完整ImageNet對比如下：

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

和無層次化結構的其他模型相比，VideoMamba優(yōu)于其他CNN和ViT的模型，如ConvNeXt和ViT。隨著模型規(guī)模和分辨率放大，性能穩(wěn)定提升。

3.2 Short-term Video Understanding

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

在上述K400和SthSthV2的短視頻分類任務中，我們同樣觀察到VideoMamba良好的放縮性，且顯著優(yōu)于基于注意力的視頻模型如TimeSformer和ViViT，與結合卷積和自注意力的UniFormer性能相當。再者，在引入掩碼訓練后，VideoMamba性能顯著提升，在細粒度動作分類SthSthV2數(shù)據(jù)集上，顯著好于基于ViT的UMT。

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

進一步的消融實驗表明，spatial-first掃描方案效果最好。不同于ImageNet上性能隨分辨率逐漸提升，視頻數(shù)據(jù)集上分辨率對性能影響有限，而幀數(shù)對性能影響明顯。對于掩碼建模，逐行掩碼優(yōu)于隨機掩碼策略，且注意力掩碼策略最有效；對齊最后一層效果最好；合適的掩碼比例和Droppath能較好提升訓練效果。

3.3 Long-term Video Understanding

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們在Breakfast，COIN和LVU上評估了VideoMamba對長時視頻的理解能力，相較于以往feature-based的方法，VideoMamba僅需要輸入稀疏采樣的32-64幀，效果便大幅領先，且模型規(guī)模更小。

3.4 Multi-modality Video Understanding

VideoMamba：用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們將VideoMamba和BERT連接，構造多模態(tài)模型，并使用大規(guī)模多模態(tài)數(shù)據(jù)進行預訓練，在多個視頻文本檢索任務上進行了性能評估。實驗揭示VideoMamba同樣能很好地作為多模態(tài)的視覺編碼器，隨著預訓練數(shù)據(jù)的增加，能持續(xù)提升多模態(tài)理解的能力，且由于以ViT為視覺編碼器的UMT，尤其是在包含長視頻（ANet和DiDeMo）和更復雜場景（LSMDC）的數(shù)據(jù)集上。

四、Conclusion

我們提出了僅基于狀態(tài)空間模型的視頻理解架構VideoMamba，全面的實驗表明VideoMamba對視頻理解具有一系列良好特性，我們希望它可以為未來長視頻的表征學習指明道路。

References

[1] UniFormer:

??https://github.com/Sense-X/UniFormer??

[2] Gemini:

??https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/??

[3] Sora: ??https://openai.com/sora??

[4] S4: ??https://github.com/state-spaces/s4??

[5] RWKV: ??https://www.rwkv.com/??

[6] RetNet:

??https://github.com/microsoft/unilm/tree/master/retnet??

[7] Mamba: ??https://github.com/state-spaces/mamba??

[8] Vision Mamba: ??https://github.com/hustvl/Vim??

[9] VMamba: ??https://github.com/MzeroMiko/VMamba??

[10] ViT:

??https://github.com/google-research/vision_transformer??

[11] VideoMAE:

??https://github.com/MCG-NJU/VideoMAE??

[12] UMT:

??https://github.com/OpenGVLab/unmasked_teacher??

Illustration From IconScout By 22

本文轉載自??將門創(chuàng)投??，作者：黎昆昌 ????

標簽

贊

收藏

回復

舉報

回復

相關推薦

詳解Latte：應用于文生視頻的DiT模型

jordana ? 4030瀏覽 ? 0回復
谷歌重磅發(fā)布Gemini 1.5 Pro：能自動寫影評，理解視頻！

Aceryt ? 4739瀏覽 ? 0回復
【LLM】ShareGPT4Video：借助更優(yōu)質的標題提升視頻理解和生成能力

海因斯DK ? 4149瀏覽 ? 0回復
與Sora同架構，高效、連貫文生視頻模型

Aceryt ? 2376瀏覽 ? 0回復
如何高效定制視頻擴散模型？卡內基梅隆提出VADER：通過獎勵梯度進行視頻擴散對齊

angel ? 2543瀏覽 ? 0回復
基于Mamba架構的，狀態(tài)空間音頻分類模型AUM

Aceryt ? 2862瀏覽 ? 0回復
力壓Transformer，詳解Mamba和狀態(tài)空間模型

小虎哦哦 ? 3923瀏覽 ? 0回復
專用于理解游戲場景的開源大模型-VideoGameBunny

Aceryt ? 3150瀏覽 ? 0回復
VideoLLaMB：創(chuàng)新開源框架，引領多模態(tài)長視頻理解

穿越時空111 ? 2636瀏覽 ? 0回復
16幀1024×1024視頻耗時僅16秒！64倍壓縮助力高效視頻生成：復旦&微軟發(fā)布Reducio-DiT

angel ? 3436瀏覽 ? 0回復
淺看大模型用于Text2SQL的綜述

大模型自然語言處理 ? 3508瀏覽 ? 0回復
浙大&vivo提出CoMPaSS：文生圖空間理解能力暴漲！

angel ? 2123瀏覽 ? 0回復
多模態(tài)大語言模型的空間智能探秘：突破與挑戰(zhàn)

十一月雨_55 ? 2601瀏覽 ? 0回復
Google 發(fā)布了用于視頻生成的最先進的“Veo 2”和用于圖像創(chuàng)建的“Improved Imagen 3”

Halo咯咯 ? 2388瀏覽 ? 0回復
Meta AI 發(fā)布 Apollo：視頻理解的新家族——LMM 大型多模態(tài)模型

Halo咯咯 ? 2443瀏覽 ? 0回復
Tiktok多模態(tài)大模型最新研究：顯示序列建模提升視頻理解能力

海因斯DK ? 2667瀏覽 ? 0回復
COSMOS：結合特征子空間分解的混合自適應優(yōu)化器用于大型語言模型的內存高效訓練

頓數(shù)AI ? 2530瀏覽 ? 0回復
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創(chuàng)作更高效

AIPaperDaily ? 1544瀏覽 ? 0回復
阿里ESMM模型解析：解決樣本偏差與數(shù)據(jù)稀疏的全空間建模！

南夏的算法驛站 ? 1622瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

通用的數(shù)據(jù)清洗框架：利用多模態(tài)大模型檢測數(shù)據(jù)集中的惡意樣本 2024-04-08 11:00:00發(fā)布
CVPR 2024 | 長時舞蹈生成：數(shù)秒鐘可生成極長的3D舞蹈 2024-03-28 14:40:56發(fā)布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇：通用的數(shù)據(jù)清洗框架：利用多模態(tài)大模型檢測數(shù)據(jù)集中的惡意樣本

社區(qū)精華內容

目錄

主站蜘蛛池模板：国产一区二区三区欧美 | 一区二区三区四区在线免费观看 | 欧美日韩高清在线一区 | 国产成人午夜高潮毛片 | 91精品国产综合久久久久久首页 | 一区二区亚洲 | 欧美亚洲视频 | 精品国产91亚洲一区二区三区www | 精品久久影院 | 日日骚网 | 久久久久久国产一区二区三区 | 欧美精品在线视频 | www.亚洲免费 | m豆传媒在线链接观看 | 日韩一二区 | 国产剧情一区 | 国产色黄 | 日韩成人在线观看 | 欧美亚洲高清 | 一区二区精品视频 | 国产1区| 日韩精品视频一区二区三区 | 欧美三区在线观看 | 成人免费视频7777777 | 久久久精品影院 | 丁香久久| 国产一区二区三区四区 | 天堂在线www | 91精品久久久久久久久 | 91精品国产综合久久精品图片 | 午夜天堂精品久久久久 | 一区二区av| 国产欧美一区二区三区在线播放 | 精品国产三级 | 91色站| 欧美日韩亚洲视频 | 久草新在线 | 免费观看的av毛片的网站 | 欧美精品一区在线 | 尤物视频在线免费观看 | 成人免费视频网址 |