VideoMAE:簡單高效的視頻自監督預訓練新范式
論文鏈接:https://arxiv.org/abs/2203.12602
代碼和預訓練權重已經在Github開源:https://github.com/MCG-NJU/VideoMAE
目錄1. 背景介紹
2. 研究動機
3. 方法介紹
4. VideoMAE實現細節
5. 消融實驗
6. VideoMAE的重要特性
7. 主要結果
8. 對社區的影響
9. 總結
背景介紹
視頻自監督學習 (Video Self-supervised Learning) :不利用標簽信息,通過設計自監督的代理任務,從視頻數據中學習時空表征信息。現有的視頻自監督預訓練算法主要分為兩大類: (1) 基于對比學習的自監督方法,如 CoCLR,CVRL等。(2 )基于時序相關代理任務的自監督方法,如 DPC,SpeedNet,Pace 等。
動作識別 (Action Recognition) : 對給定剪裁過視頻(Trimmed Video)進行分類,識別這段視頻中人物的動作。目前的主流方法有 2D-based (TSN,TSM,TDN等) ,3D-based(I3D,SlowFast等) 以及 Transformer-based(TimeSformer,ViViT,MViT,VideoSwin等)。動作識別作為視頻領域的基礎任務,常常作為視頻領域各種下游任務 (例如時序行為檢測,時空動作檢測) 的主干網絡(Backbone),去提取整個視頻級別或者視頻片段級別的時空特征。
動作檢測 (Action Detection) : 該任務不僅需要對視頻進行動作分類,識別這段視頻中人物的動作,還要在空間范圍內用一個包圍框(bounding box)標記出人物的空間位置。動作檢測在電影視頻分析,體育視頻分析等場景下有廣泛的應用場景。
研究動機
自從2020年底視覺自注意力模型(Vision Transformer)被提出后,Transformer被廣泛應用到了計算機視覺領域,并幫助改進了一系列計算機視覺任務的性能。
然而,Vision Transformer需要利用大規模的帶標簽的數據集進行訓練。最初,最原始的 ViT(Vanilla Vision Transformer)通過使用數億張帶標簽的圖像進行有監督形式的預訓練才能獲得良好的性能。目前的Video Transformer通常基于圖像數據訓練的Vision Transformer模型(如 TimeSformer,ViViT等)并且依賴大規模圖像數據的預訓練模型(例如 ImageNet-1K,ImageNet-21K,JFT-300M等)。TimeSformer,ViViT 均曾嘗試在視頻數據集中從頭開始訓練Video Transformer模型, 但是都不能取得令人滿意的結果。因此,如何在不使用任何其他預訓練模型或額外圖像數據的情況下,直接在視頻數據集上有效地訓練Video Transformer,特別是最原始的ViT(Vanilla Vision Transformer),仍然是一個亟待解決的問題。需要注意的是,與圖像數據集相比,現有的視頻數據集的規模相對較小。例如,被廣泛使用的Kinectics-400數據集只有20多萬的訓練樣本,樣本數量大約是ImageNet-21K數據集的1/50,JFT-300M數據集的1/1500,存在好幾個數量級的差距。同時,相比訓練圖像模型,訓練視頻模型的計算開銷也大了很多。這進一步增加了在視頻數據集上訓練Video Transformer的難度。
最近,「掩碼+重建」(masking-and-reconstruction)這種自監督訓練范式在自然語言處理(BERT)和圖像理解(BEiT,MAE) 中取得了成功。因此,我們嘗試利用這種自監督范式在視頻數據集上訓練Video Transformer,并且提出了一種基于掩碼和重建 (masking-and-reconstruction)這種代理任務的視頻自監督預訓練算法VideoMAE(Video Masked Autoencoder)。經過VideoMAE預訓練的ViT模型能夠在Kinetics-400和Something-Something V2這種較大的視頻數據集,以及UCF101和HMDB51這種規模相對小的視頻數據集上取得大幅優于其他方法的效果。
方法介紹
MAE概述
MAE采用一種非對稱編碼器-解碼器架構來進行掩碼和重建的自監督預訓練任務。一張 224x224分辨率的輸入圖像首先被分成大小為 16 ×16 的非重疊的視覺像素塊(token)。每個像素塊(token)會經過塊嵌入(token embedding)的操作被轉化為高維特征。MAE采用較高的掩碼比率 (75%) 隨機遮蓋掉一部分的像素塊(token)。經過掩碼操作后,將剩余的像素塊送到編碼器(encoder)中進行特征提取。緊接著,將編碼器提取出來的特征塊與另一部分預設的可學習的像素塊(learnable token)進行拼接,構成和原始輸入圖像尺寸一樣大的特征。最后,利用一個輕量級的解碼器(decoder),基于這部分特征重建原始的圖像(實際實驗過程中,重建目標的是經過歸一化的像素塊(normalized token) 。
視頻數據的特性
與圖像數據相比,視頻數據包含了更多的幀,也具有更加豐富的運動信息。本節會先分析一下視頻數據的特性。
對視頻數據不同掩碼策略的示例
時序冗余性
視頻數據中包含著密集的圖像幀,這些圖像幀包含的語義信息隨時間變化得非常緩慢。由此可見,視頻中密集連續的彩色圖像幀是高度冗余的,如圖所示。這種冗余性可能在實現MAE的過程中造成兩個問題。首先,如果采用原始視頻的密集幀率(例如 30 FPS)進行預訓練,則訓練效率會非常低。因為這種設置會使得網絡更多地關注數據中的靜態表象特征或者一些局部變化緩慢的運動特征。其次,視頻中的時序冗余性會極大地稀釋了視頻中的運動特征。因此,這種情況會使得在正常掩碼率(例如,50% 到 75%)下,重建被掩碼的像素塊的任務變得相對簡單。這些問題會影響作為編碼器的Backbone在預訓練的過程中提取運動特征。
時序相關性
視頻可以看作是由靜態圖片隨著時間的演化生成的,因此視頻幀之間也存在語義的對應關系。如果不針對性地設計掩碼策略,這種時序相關性可能會增加重建過程中的「信息泄漏」的風險。具體來說,如圖所示,如果使用全局隨機掩碼或隨機掩碼圖像幀,網絡可以利用視頻中的時序相關性,通過「復制粘貼」相鄰幀中時序對應位置的未被遮蔽的像素塊來進行像素塊重建。這種情況下一定程度上也能完成代理任務,但是可能會導致VideoMAE僅僅能學習到較低語義的時間對應關系特征,而不是高層抽象的語義信息,例如對視頻內容的時空推理能力。為了緩解這種情況,需要設計一種新的掩碼策略,使重建任務更加具挑戰性,這樣才能讓網絡更好地學習視頻中的時空特征表示。
VideoMAE方法介紹
VideoMAE的整體框架
為了解決前文中視頻預訓練過程中采用掩碼和重建(masking-and-reconstruction)這種任務時可能遇到的問題,我們在VideoMAE中引入一些新的設計。
時序下采樣
根據前文中對視頻中密集連續幀中存在的時序冗余性的分析,因此在VideoMAE中選擇采用帶有時序間隔的采樣策略來進行更加高效的視頻自監督預訓練。具體來說,首先從原始視頻中隨機采樣一個由 $t$ 個連續幀組成的視頻片段。然后使用帶有時序間隔采樣將視頻片段壓縮為幀,每個幀包含個像素。在具體的實驗設置中,Kinetics-400 和 Something-Something V2 數據集上的采樣間隔 分別設置為4和2。
時空塊嵌入
在輸入到編碼器中之前,對于采樣得到的視頻片段,采用時空聯合的形式進行像素塊嵌入。具體來說,將大小為視頻片段中大小為
的視覺像素視為一個視覺像素塊。因此,采樣得到的視頻片段經過時空塊嵌入(cube embedding)層后可以得到
個視覺像素塊。在這個過程中,同時會將視覺像素塊的通道維度映射為。這種設計可以減少輸入數據的時空維度大小,一定程度上也有助于緩解視頻數據的時空冗余性。
帶有極高的掩碼比率的管道式掩碼策略
為了解決由視頻數據中的時序冗余性和時序相關性導致的「信息泄漏」問題,本方法選擇在自監督預訓練的過程中采用管道式掩碼策略。管道式的掩碼策略可以將單幀彩色圖像的掩碼方式自然地在整個視頻的時序上進行拓展,即不同的幀中相同空間位置的視覺像素塊將被遮蔽。具體來說,管道式掩碼策略可以表示為 。不同的時間t共享相同的值。使用這種掩碼策略,相同空間位置的token將總是會被掩碼。所以對于一些視覺像素塊(例如,不同掩碼策略的示例圖第 4 行的包含手指的像素塊),網絡將無法在其他幀中找到其對應的部分。這種設計這有助于減輕重建過程中出現「信息泄露」的風險,可以讓VideoMAE通過提取原始視頻片段中的高層語義信息,來重建被掩碼的token。
相對于圖像數據,視頻數據具有更強的冗余性,視頻數據的信息密度遠低于圖像。這種特性使得VideoMAE使用極高的掩碼率(例如 90% 到 95%)進行預訓練。值得注意的是,MAE的默認掩碼率為75% 。實驗結果表明,使用極高的掩碼率不僅能夠加速預訓練(僅有 5% 到 10% 的視覺像素塊被輸入到編碼器中),同時能夠提升模型的表征能力和在下游任務中的效果。
時空聯合自注意力機制
前文中提到了VideoMAE采用了極高的掩碼率,只保留了極少的token作為編碼器的輸入。為了更好地提取這部分未被遮蔽的token的時空特征,VideoMAE選擇使用原始的ViT作為Backbone,同時在注意力層中采用時空聯合自注意力(即不改變原始ViT的模型結構)。因此所有未被遮蔽的token都可以在自注意層中相互交互。時空聯合自注意力機制的級別的計算復雜度是網絡的計算瓶頸,而前文中針對VideoMAE使用了極高掩碼比率策略,僅將未被遮蔽的token(例如10%)輸入到編碼器中。這種設計一定程度上可以有效地緩
級別的計算復雜度的問題。
VideoMAE實現細節
VideoMAE框架的具體設計細節
上圖展示了VideoMAE采用的編碼器和解碼器的具體架構設計(以ViT-B為例)。我們在下游的四個視頻動作識別數據集和一個動作檢測數據集上對VideoMAE進行評估。這些數據集關注視頻中不同方面的運動信息。Kinetics-400 是一個大規模的 YouTube 視頻數據集,包含了大約 30 萬個剪裁過的視頻片段,涵蓋了 400 個不同的動作類別。Kinetics-400 數據集主要包含日常生活中的活動,并且某些類別與交互對象或場景信息高度相關。Something-Something V2數據集中的視頻主要包含了不同對象執行相同動作,因此該數據集中的動作識別更加關注運動屬性而不是對象或場景信息。其中訓練集大約包含 17 萬個視頻片段,驗證集大約包含 2.5 萬個視頻片段。UCF101 和 HMDB51 是兩個相對較小的視頻動作識別數據集。UCF101的訓練集大約包含 9500 個視頻,HMDB51的訓練集大約包含 3500 個視頻。實驗過程中,我們首先在訓練集上使用VideoMAE對網絡進行自監督預訓練,緊接在訓練集上對編碼器(ViT)進行有監督形式的微調,最后在驗證集上對模型的性能進行評估。對于動作檢測數據集AVA,我們首先會加載Kinetics-400數據集上訓練好的模型,對編碼器(ViT)進行有監督形式的微調。
消融實驗
本節在Something-Something V2和Kinetics-400數據集上對VideoMAE進行消融實驗。消融實驗默認采用輸入為16幀的原始的ViT模型。同時在微調后進行評估時,在 Something-Something V2 上選擇2個視頻片段和3次裁剪進行測試,在Kinetics-400上選擇5個視頻片段和3次裁剪進行測試。
解碼器設計
輕量級解碼器是VideoMAE中的一個關鍵組件。表(a) 中展示了使用不同深度的解碼器的實驗結果。與MAE不同,VideoMAE中更深的解碼器可以取得更好的性能,而深度較淺的解碼器可以有效地降低 GPU 的顯存占用。認情況下解碼器的層數設置為 4。遵循MAE的經驗性設計,VideoMAE中解碼器的通道寬度設置為編碼器的通道寬度的一半(例如,以ViT-B作為編碼器時,解碼器的通道寬度設置為384)。
掩碼策略
在使用 75% 的掩碼比例下,將不同的掩碼策略與管道式掩碼策略進行比較。如表(b)所示,全局隨機掩碼和隨機掩碼圖像幀的性能劣于管道式掩碼策略。這可能是由于管道式掩碼策略可以一定程度上緩解了視頻數據中的時序冗余性和時序相關性。如果將掩碼比率增加到 90% ,VideoMAE的在Something-Something上的性能可以進一步從 68.0% 提升到 69.6%。VideoMAE中掩碼策略和的掩碼比率的設計可以使遮蔽加重建成為更具有挑戰性的代理任務,強制模型學習到更加高層的時空特征。
重建目標
這里比較了VideoMAE中的重建目標,結果在表(c)中。首先,如果只使用視頻片段中的中心幀作為重建目標,VideoMAE在下游任務中的性能會大大降低。同時,VideoMAE對采樣間隔也很敏感。如果選擇重建更密集幀的視頻片段,其結果會明顯低于默認的經過時序下采樣的視頻片段。最后還嘗試從經過時序下采樣的視頻片段中重建視頻片段中更加密集的幀,但這種設置會需要解碼更多的幀,使得訓練速度變慢,效果也沒有很好。
預訓練策略
這里比較了VideoMAE中的預訓練策略,結果展示在表(d)中。與之前方法(TimeSformer,ViViT)的實驗結論類似,在Something-Something V2 這個對運動信息更加敏感的數據集上從頭開始訓練ViT并不能取得令人滿意的結果。如果利用大規模圖像數據集(ImageNet-21K)上預訓練的ViT模型作為初始化,能夠獲得更好的準確度,可以從 32.6% 提升到 61.8% 。而使用在 ImageNet-21K 和 Kinetics-400 上預訓練的模型進一步將準確率提高到 65.2%。而利用VideoMAE從視頻數據集本身預訓練得到的ViT,在不使用任何額外的數據的條件下,最終能達到 69.6% 的最佳性能。Kinetics-400 上也有相似的結論。
預訓練數據集
這里比較了VideoMAE中的預訓練數據集,結果展示在表(e)中。首先按照MAE的設置,在 ImageNet-1K 上對ViT自監督預訓練 1600 epoch。然后利用I3D中的策略,將 2D 塊嵌入層膨脹為3D 時空塊嵌入層,并在視頻數據集上微調模型。這種訓練范式可以超過從頭有監督訓練的模型。緊接著,將MAE預訓練的模型與在 Kinetics-400 上VideoMAE預訓練的ViT模型的性能進行了比較。可以發現VideoMAE可以實現比MAE更好的性能。然而這兩種預訓練模型均未能取得比僅在Something-Something V2 數據集上進行自監督預訓練的VideoMAE更好的性能。由此可以分析,預訓練數據集和目標數據集之間的領域差異可能是一個重要問題。
預訓練輪次
預訓練的總輪次在VideoMAE中的影響
在消融實驗中,VideoMAE預訓練的總輪次默認設置為800。我們嘗試在Kinetics-400 和 Something-Something V2數據集上對預訓練輪次進行深入探究。根據圖中的結果,采用更長的預訓練輪次在兩個數據集上都可以帶來持續的增益。
VideoMAE的重要特性
VideoMAE是一種數據高效的學習器
VideoMAE與MoCov3在下游不同視頻動作識別數據集上的性能比較
先前很多工作對視頻自監督預訓練進行了廣泛的研究,但這些方法主要使用卷積神經網絡作為Backbone,很少有方法去研究中基于ViT的訓練機制。因此,為了驗證基于ViT的VideoMAE對視頻自監督預訓練的有效性,我們對兩種基于ViT的訓練方法進行了比較:(1) 從頭開始有監督訓練模型,(2) 使用對比學習方法 (MoCo v3)進行自監督預訓練。根據實驗結果,可以發現VideoMAE明顯優于其他兩種訓練方法。例如,在數據規模最大的 Kinetics-400 數據集上,VideoMAE比從頭開始訓練的準確率高出大約 10%,比 MoCo v3 預訓練的結果高出大約6%。VideoMAE卓越的性能表明,掩碼和重建(masking-and-reconstruction)這種自監督范式為ViT提供了一種高效
的預訓練機制。與此同時值得注意的是,隨著訓練集的變小,VideoMAE與其他兩種訓練方法之間的性能差距變得越來越大。值得注意的是,即使HMDB51數據集中只包含大約3500個視頻片段,基于VideoMAE 的預訓練模型仍然可以獲得令人非常滿意的準確率。這一新的結果表明VideoMAE是一種數據高效的學習器。這與對比學習需要大量數據進行預訓練的情況不同。VideoMAE的數據高效的特性在視頻數據有限的場景下顯得尤為重要。
VideoMAE與MoCov3在Something-SomethingV2數據集上的效率分析
我們還進一步比較了使用VideoMAE進行預訓練和使用MoCo v3預訓練的計算效率。由于使用掩碼加重建這種極具挑戰性的代理任務,每次迭代過程網絡只能觀察到10%的輸入數據(90%的token被遮蔽),因此VideoMAE需要更多的訓練輪次數。極高比例的token被遮蔽這種設計大大節約了預訓練的計算消耗和時間。VideoMAE預訓練800輪次僅僅需要19.5小時,而 MoCo v3 預訓練300輪次就需要 61.7 小時。
極高的掩碼率
掩碼比率在VideoMAE中的影響
極高的掩碼率是VideoMAE中的核心設計之一。我們在 Kinetics-400 和 Something-Something V2 數據集上對此設計進行了深入探究。根據圖中的結果,當掩碼比率非常高時,即使是 95%時,網絡在下游視頻動作識別任務的這兩個重要數據集上仍然能表現出極佳的性能。這個現象與自然語言處理中的 BERT 和圖像的MAE中的存在巨大的不同。視頻數據中存在時序冗余性和時序相關性,使得VideoMAE相比于圖像數據和自然語言,能夠進行極高的掩碼比率的操作。
我們還對經過預訓練的VideoMAE的重構示例進行了可視化。從圖中可以發現,即使在極高的掩碼率下,VideoMAE也可以產生令人滿意的重建結果。這意味著VideoMAE能夠學習和提取出視頻中的時空特征。
泛化和遷移能力:數據的質量與數量
VideoMAE與MoCov3在較小數據集上的特征遷移能力的性能比較
為了進一步研究VideoMAE學習到的特征,本節對經過預訓練的VideoMAE的泛化和遷移能力進行了評估。上表中展示了在 Kinetics-400 數據集上進行預訓練的VideoMAE遷移到 Something-Something V2、UCF101 和 HMDB51數據集上的效果。同時,表中也展示了使用 MoCo v3 進行預訓練的模型的遷移能力。根據表中的結果,利用VideoMAE進行預訓練的模型的遷移和泛化能力優于基于 MoCo v3 進行預訓練的模型。這表明VideoMAE能夠學習到更多可遷移的特征表示。在 Kinetics-400 數據集上進行預訓練的VideoMAE比直接在 UCF101 和 HMDB51 數據集上直接進行預訓練的VideoMAE效果好。但是在 Kinetics-400 數據集上進行預訓練的模型在 Something-Something V2 數據集上的遷移能力較差。
為了進一步探究造成這種不一致現象的原因,我們在Something-Something V2數據集上進行了減少預訓練視頻數量的實驗。探究過程的包含了兩個實驗:(1)使用相同的訓練輪次數(epoch) 進行預訓練,(2)使用相同的迭代次數(iteration)進行預訓練。從圖中的結果可以發現,當減小預訓練樣本數時,采用更多的訓練迭代也能夠提升模型的性能。即使只使用了 4萬2千的預訓練視頻,直接在 Something-Something V2 數據集上訓練的VideoMAE仍然可以取得比利用 24萬視頻數據的 Kinetics-400 數據集進行預訓練更好的準確率(68.7% 對比 68.5%)。這個發現意味著領域差異是視頻自監督預訓練過程中需要注意的另一個重要因素,當預訓練數據集和目標數據集之間存在領域差異時,預訓練數據的質量比數據的數量更重要。同時,這個發現也間接驗證了VideoMAE是一種針對視頻自監督預訓練的數據高效的學習器。
主要結果
Something-Something V2數據集實驗結果
Kinetics-400數據集實驗結果
UCF101和HMDB51數據集實驗結果
在無需使用任何額外數據的條件下,VideoMAE在Something-Something V2 和Kinetics-400 上的 Top-1 準確率分別達到75.4%和87.4%。需要注意的是,Something-Something V2數據集上目前最佳的方法都強烈依賴于在外部數據集上進行預訓練的模型進行初始化。相反,VideoMAE在沒有利用任何外部數據的條件下能夠顯著優于之前的最佳方法的準確率約 5%。VideoMAE在Kinetics-400 數據集上也能取得非常卓越的性能。在視頻數據有限的情況下(例如,UCF101 數據集中僅包含不到1萬個訓練視頻, HMDB51 中僅包含約3500個訓練視頻),VideoMAE不需要利用任何額外的圖像和視頻數據,也能夠在這些小規模視頻數據集上遠遠超過之前的最佳方法。
AVA v2.2數據集實驗結果
除了傳統的動作分類任務,我們還進一步在視頻動作檢測這種更精細的理解任務上驗證VideoMAE模型的表征能力。我們選取了AVA v2.2數據集進行實驗。實驗中,首先會加載Kinetics-400數據集上預訓練好的模型,再對ViT進行有監督形式的微調。由表格可以發現,經過VideoMAE預訓練的ViT模型可以在AVA v2.2數據集上取得非常好的結果。如果將自監督預訓練后的ViT模型,在Kinetics-400上進行進一步的有監督的微調,可以在動作檢測任務上去得更好的表現(3 mAP-6mAP的提升)。這也說明了對VideoMAE自監督預訓練后的模型,在上游數據集進行有監督的微調后再遷移到下游任務中,模型的性能可以進一步提升。
對社區的影響
我們于今年4月對VideoMAE的模型和代碼進行了開源,收到了社區的持續關注和認可。
根據Paper with Code榜單,VideoMAE已經分別占據Something-Something V2[1]和AVA 2.2[2]榜單首位長達半年時間(2022年3月底至今)。如果不利用任何外部數據,VideoMAE在Kinetics-400[3],UCF101[4],和HMDB51[5]數據集上的結果也是迄今為止最好的。
?https://huggingface.co/docs/transformers/main/en/model_doc/videomae?
幾個月前,VideoMAE的模型被Hugging Face的Transformers官方倉庫收錄,是該倉庫收錄的第一個視頻理解模型!一定程度上也反應了社區對我們工作的認可!希望我們的工作能為基于Transformer的視頻預訓練提供一個簡單高效的基線方法,同時也能為后續基于Transformer的視頻理解方法帶來啟發。
?https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae?
目前視頻理解倉庫MMAction2也支持了對VideoMAE模型的推理。
在剛剛結束的 ECCV 2022 2nd International Ego4D Workshop上,VideoMAE已經迅速成為了幫助大家打比賽的利器。上海人工智能實驗室在本屆Ego4D Challenge中的多個子賽道取得了冠軍 。其中,VideoMAE作為重要的Backbone,為他們的解決方案提供了強大的視頻特征。值得注意的一點是,從上面第一張圖中可以發現,僅僅在Kinetics-400上進行預訓練的VideoMAE(ViT-L)的效果已經可以超越在IG-65M視頻數據集(約為Kinetics-400樣本數據的300倍)上預訓練的ir-CSN-152。這也進一步驗證了VideoMAE預訓練模型的強大表征能力。
總結
我們這個工作的主要貢獻包含以下三個方面:
? 我們第一個提出了基于ViT的掩碼和重建的視頻自監督預訓練框架VideoMAE。即使在較小規模的視頻數據集上進行自監督預訓練,VideoMAE仍能取得非常優異的表現。為 了解決由時序冗余性 (temporal redundancy) 和時序相關性(temporal correlation) 導致的「信息泄漏」問題,我們提出了帶有極高掩碼率的管道式掩碼(tube masking with an extremely high ratio)。實驗表明,這種設計是VideoMAE 最終能夠取得SOTA效果的關鍵。同時,由于VideoMAE的非對稱編碼器-解碼器架構,大大降低了預訓練過程的計算消耗,極大得節省了預訓練過程的時間。
? VideoMAE 將NLP和圖像領域中的經驗成功在視頻理解領域進行了自然但有價值的推廣,驗證了簡單的基于掩碼和重建的代理任務可以為視頻自監督預訓練提供一種簡單但又非常有效的解決方案。使用 VideoMAE 進行自監督預訓練后的 ViT 模型,在視頻理解領域的下游任務(如動作識別,動作檢測)上的性能明顯優于從頭訓練(train from scratch)或對比學習方法(contrastive learning) 。
? 實驗過程中還有兩處有意思的發現,可能被之前NLP和圖像理解中的研究工作忽視了: (1) VideoMAE是一種數據高效的學習器。即使在只有 3 千個左右的視頻數據集HMDB51上,VideoMAE也能夠完成自監督預訓練,并且在下游分類任務上可以取得遠超過其他方法的結果。(2) 對于視頻自監督預訓練,當預訓練數據集與下游任務數據集之間存在明顯領域差異(domain gap)的時候,視頻數據的質量可能比數量更加重要。