成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

VideoMamba:用于高效視頻理解的狀態(tài)空間模型

發(fā)布于 2024-4-9 10:21
瀏覽
0收藏
我們提出了一個僅基于狀態(tài)空間模型(SSM)的高效視頻理解架構VideoMamba,并通過大量的實驗證明了它具備一系列良好的特性,包括 (1) Visual Domain Scalability; (2) Short-term Action Sensitivity; (3) Long-term Video Superiority; (4) Modality Compatibility。這使得VideoMamba在一系列視頻benchmark上取得不俗的結果,尤其是長視頻benchmark,為未來更全面的視頻理解提供了更高效的方案。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

論文題目: 

VideoMamba: State Space Model for Efficient Video Understanding 

論文鏈接:

??https://arxiv.org/abs/2403.06977??

代碼鏈接:

??https://github.com/OpenGVLab/VideoMamba??

Huggingface:

??https://huggingface.co/OpenGVLab/VideoMamba??

Online Demo:

??https://huggingface.co/spaces/OpenGVLab/VideoMamba??

一、Motivation

視頻表征學習長期以來存在兩大痛點,一是短clip里存在大量的時空冗余,二是長上下本需要復雜的時空關聯(lián)。曾經風靡一時的3D CNN和video transformer,分別使用卷積和自注意力機制解決了兩大難題。在我們之前的工作UniFormer[1]里,我們嘗試將卷積和自注意力無縫地結合,盡管它能同時解決兩大難題,但對于長視頻仍力不從心。而Gemini[2]和Sora[3]的爆火,使得長視頻理解與生成成為了研究的重心,這亟需更高效的視頻表征模型。

幸運的是,NLP領域這兩年涌現(xiàn)了不少高效算子,如S4[4], RWKV[5]和RetNet[6]。而Mamba[7]提出動態(tài)狀態(tài)空間模型(S6),能以線性復雜度進行長時的動態(tài)建模。這引領了一系列視覺任務的適配,如Vision Mamba[8]和VMamba[9],提出了多向SSM機制用于處理2D圖片,這些模型不僅能與基于注意力的架構媲美,而且大大減小顯存開銷。

考慮到視頻產生的超長token序列,一個自然而然的問題便是,Mamba對視頻理解是否同樣有效?答案是肯定的。

二、 Methods

2.1 Architecture

在進入VideoMamba結構的介紹之前,我們先看看用于1D序列的Mamba block,和用于視覺任務的雙向Mamba block。這里我們不再贅述SSM和Mamba的底層原理,感興趣的同學可以通過油管視頻(https://www.youtube.com/watch?v=8Q_tqwpTpVU)學習。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

雙向Mamba在單向Mamba的基礎上,引入了對反向序列的SSM,這使得雙向Mamba能更好地對2D序列建模,從而提升對視覺輸入的感知能力。基于雙向Mamba,我們按照ViT[10]的設計,引入[CLS] token和空間位置編碼,并針對視頻建模,引入3D patch embedding和空間位置編碼,提出了如下所示的VideoMamba:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

為了應用雙向Mamba處理時空信息,我們拓展原本的2D掃描到不同的雙向3D掃描:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

其中空間優(yōu)先掃描最簡單,實驗證明效果也最好。基于該架構,我們提出了三種不同size的模型,VideoMamba-Ti,VideoMamba-S和VideoMamba-M。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

但在實驗里,當我們增大VideoMamba規(guī)模時,非常容易過擬合,導致大模型的結果甚至差于小模型。為此,我們提出了Self-Distillation策略,使用訓練好的小模型當老師,引導大模型訓練,有效地避免模型過擬合,而只需少量額外的開銷。

2.2 Masked Modeling

近來,VideoMAE[11]引入掩碼建模,顯著增強了模型對細粒度時序的理解能力,而UMT[12]進一步提出高效的掩碼對齊策略,不僅大大減小了訓練開銷,還使得模型能魯棒地處理各種單模態(tài)和多模態(tài)任務。為了增強VideoMamba對時序的敏感性,同時驗證它和文本模態(tài)的兼容性,我們借鑒UMT的方式,引入CLIP-ViT當teacher,進行兩階段蒸餾訓練。

不同于UMT使用多層對齊,由于VideoMamba和ViT存在架構差異,我們只對齊模型最后一層,考慮到Mamba block對連續(xù)token更友好,我們設計了逐行掩碼策略:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

同時我們也考慮了注意力掩碼策略,這能保持語義性更強的鄰近token。

三、Experiments

3.1 Scale Up

我們首先在ImageNet上進行了圖像分類實驗如下所示

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

可見在沒有Self-Distillation (SD)時,VideoMamba-M和VideoMamba-B都會在訓練的最后過擬合,其中VideoMamba-B尤為嚴重。而在引入SD后,VideoMamba-M收斂符合期望,且明顯強于老師模型VideoMamba-S。為了避免老師模型帶偏訓練,我們引入了Early Stop策略,即提前移除蒸餾引導,實驗發(fā)現(xiàn)并無提升。完整ImageNet對比如下:

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

和無層次化結構的其他模型相比,VideoMamba優(yōu)于其他CNN和ViT的模型,如ConvNeXt和ViT。隨著模型規(guī)模和分辨率放大,性能穩(wěn)定提升。

3.2 Short-term Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

在上述K400和SthSthV2的短視頻分類任務中,我們同樣觀察到VideoMamba良好的放縮性,且顯著優(yōu)于基于注意力的視頻模型如TimeSformer和ViViT,與結合卷積和自注意力的UniFormer性能相當。再者,在引入掩碼訓練后,VideoMamba性能顯著提升,在細粒度動作分類SthSthV2數(shù)據(jù)集上,顯著好于基于ViT的UMT。

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

進一步的消融實驗表明,spatial-first掃描方案效果最好。不同于ImageNet上性能隨分辨率逐漸提升,視頻數(shù)據(jù)集上分辨率對性能影響有限,而幀數(shù)對性能影響明顯。對于掩碼建模,逐行掩碼優(yōu)于隨機掩碼策略,且注意力掩碼策略最有效;對齊最后一層效果最好;合適的掩碼比例和Droppath能較好提升訓練效果。

3.3 Long-term Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們在Breakfast,COIN和LVU上評估了VideoMamba對長時視頻的理解能力,相較于以往feature-based的方法,VideoMamba僅需要輸入稀疏采樣的32-64幀,效果便大幅領先,且模型規(guī)模更小。

3.4 Multi-modality Video Understanding

VideoMamba:用于高效視頻理解的狀態(tài)空間模型-AI.x社區(qū)

我們將VideoMamba和BERT連接,構造多模態(tài)模型,并使用大規(guī)模多模態(tài)數(shù)據(jù)進行預訓練,在多個視頻文本檢索任務上進行了性能評估。實驗揭示VideoMamba同樣能很好地作為多模態(tài)的視覺編碼器,隨著預訓練數(shù)據(jù)的增加,能持續(xù)提升多模態(tài)理解的能力,且由于以ViT為視覺編碼器的UMT,尤其是在包含長視頻(ANet和DiDeMo)和更復雜場景(LSMDC)的數(shù)據(jù)集上。

四、Conclusion

我們提出了僅基于狀態(tài)空間模型的視頻理解架構VideoMamba,全面的實驗表明VideoMamba對視頻理解具有一系列良好特性,我們希望它可以為未來長視頻的表征學習指明道路。

References

[1] UniFormer: 

??https://github.com/Sense-X/UniFormer??

[2] Gemini: 

??https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/??

[3] Sora: ??https://openai.com/sora??

[4] S4: ??https://github.com/state-spaces/s4??

[5] RWKV: ??https://www.rwkv.com/??

[6] RetNet: 

??https://github.com/microsoft/unilm/tree/master/retnet??

[7] Mamba: ??https://github.com/state-spaces/mamba??

[8] Vision Mamba: ??https://github.com/hustvl/Vim??

[9] VMamba: ??https://github.com/MzeroMiko/VMamba??

[10] ViT: 

??https://github.com/google-research/vision_transformer??

[11] VideoMAE: 

??https://github.com/MCG-NJU/VideoMAE??

[12] UMT: 

??https://github.com/OpenGVLab/unmasked_teacher??

Illustration From IconScout By 22

本文轉載自??將門創(chuàng)投??,作者:黎昆昌 ????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 国产一区二区三区欧美 | 一区二区三区四区在线免费观看 | 欧美日韩高清在线一区 | 国产成人午夜高潮毛片 | 91精品国产综合久久久久久首页 | 一区二区亚洲 | 欧美亚洲视频 | 精品国产91亚洲一区二区三区www | 精品久久影院 | 日日骚网 | 久久久久久国产一区二区三区 | 欧美精品在线视频 | www.亚洲免费 | m豆传媒在线链接观看 | 日韩一二区 | 国产剧情一区 | 国产色黄 | 日韩成人在线观看 | 欧美亚洲高清 | 一区二区精品视频 | 国产1区| 日韩精品视频一区二区三区 | 欧美三区在线观看 | 成人免费视频7777777 | 久久久精品影院 | 丁香久久| 国产一区二区三区四区 | 天堂在线www | 91精品久久久久久久久 | 91精品国产综合久久精品图片 | 午夜天堂精品久久久久 | 一区二区av| 国产欧美一区二区三区在线播放 | 精品国产三级 | 91色站| 欧美日韩亚洲视频 | 久草新在线 | 免费观看的av毛片的网站 | 欧美精品一区在线 | 尤物视频在线免费观看 | 成人免费视频网址 |