成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

新聞 人工智能
自監督預訓練在自然語言處理方面取得了驚人的成功,其基本思路中包含著掩碼預測任務。

 

mask-and-predict 的方法可能會成為計算機視覺領域的新流派。

自監督預訓練在自然語言處理方面取得了驚人的成功,其基本思路中包含著掩碼預測任務。前段時間,何愷明一作的論文《Masked Autoencoders Are Scalable Vision Learners》提出了一種簡單實用的自監督學習方案 MAE,將 NLP 領域的掩碼預測(mask-and-predict)方法用在了視覺問題上。現在來自 Facebook AI 研究院(FAIR)的研究團隊又提出了一種自監督視覺預訓練新方法 MaskFeat。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

論文地址:https://arxiv.org/pdf/2112.09133.pdf

MaskFeat 首先隨機掩碼一部分輸入序列,然后預測被掩碼區域的特征。通過研究 5 種不同類型的特征,研究者發現方向梯度直方圖 (HOG) 是一種很好的特征描述方法,在性能和效率方面都表現優異。并且研究者還觀察到 HOG 中的局部對比歸一化對于獲得良好結果至關重要,這與之前使用 HOG 進行視覺識別的工作一致。

該方法可以學習豐富的視覺知識并驅動基于 Transformer 的大規模模型。在不使用額外的模型權重和監督的情況下,MaskFeat 在未標記的視頻上進行預訓練,使用 MViT-L 在 Kinetics-400 上實現了前所未有的 86.7% top-1 準確率。此外,MaskFeat 還能進一步推廣到圖像輸入,并在 ImageNet 上獲得了有競爭力的結果。

方法

掩碼視覺預測任務旨在修復被掩碼的視覺內容。通過建模掩碼樣本,該模型從識別物體的部位和運動的意義上實現了視頻理解。例如,要補全下圖中的圖像,模型必須首先根據可見區域識別對象,還要知道對象通常的形態和移動方式,以修復缺失區域。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

該任務的一個關鍵組成部分是預測目標。在自然語言處理任務中,掩碼語言建模使用詞表 tokenize 語料庫作為目標。而在視覺領域,原始視覺信號是連續的、高維的,并且沒有可用的自然「詞表」。

因此,MaskFeat 提出將預測被掩碼區域的特征。借助從原始完整樣本中提取的特征進行監督。目標特征的選擇在很大程度上影響了預訓練模型的屬性,該研究對特征進行了廣泛的解釋,并主要考慮了 5 種不同類型的目標特征。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

首先研究者將目標特征分為兩組:1) 可以直接獲得的單階段目標,包括像素顏色和 HOG;2) 由經過訓練的深度網絡提取的兩階段目標。由于預測兩階段目標是借助訓練有素的深度網絡有效學得的(類似于模型蒸餾),因此教師模型的預訓練和推理的額外計算成本是不可避免的。該研究主要探究的 5 種特征類型是:

  • 像素顏色;
  • 方向梯度直方圖(HOG);
  • 離散變分自編碼器(dVAE);
  • 深度特征;
  • 偽標簽。

該研究通過了一系列的分析探究了這 5 種特征的利弊。盡管掩碼語言建模最初是在預定義詞表上預測分類分布,但 BEiT 中的離散化不需要視覺信息。分析結果表明,連續的無監督特征和圖像描述符是性能較好的預測目標,其中前者需要模型蒸餾,后者則不需要額外的計算開銷。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

此外,研究者還發現監督訓練的目標特征會產生較差的結果,這可能與存在于特征中的類級特定信息有關,即這種方法對于局部掩碼建模來說過于全局化。總的來說,考慮性能和計算成本之間的權衡,該研究最終選擇了 HOG 作為 MaskFeat 的默認特征。

方向梯度直方圖(HOG)特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述方法,最早是在 CVPR 2005 的一篇論文《Histograms of Oriented Gradients for Human Detection》中提出的。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

HOG 特征提取的過程如下:首先把樣本圖像分割為若干個像素單元,把梯度方向平均劃分為多個區間,在每個單元里面對所有像素的梯度方向在各個方向區間進行直方圖統計,得到一個多維的特征向量,每相鄰的單元構成一個區間,把一個區間內的特征向量聯起來得到多維的特征向量,用區間對樣本圖像進行掃描,掃描步長為一個單元。最后將所有塊的特征串聯起來,就得到了完整的特征。

基于視頻識別的實驗

該研究在 K400 數據集上將 MaskFeat 和之前的工作進行了比較,結果如下表 3 所示,使用 MaskFeat 的 MViT-L 在 Kinetics-400 上實現了新的 SOTA——86.7% top-1 準確率。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

遷移學習

為了評估該方法在下游任務上的遷移學習性能,該研究在 AVA v2.2 上微調了 MViT-L↑312,40×3 Kinetics 模型,實驗結果如上表 3 和下表 4 所示,在 K600 上實現了 88.3% top-1 準確率,K700 上為 80.4%,均實現了新的 SOTA。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

該研究在 AVA v2.2 上微調了 MViT-L↑312,40×3 Kinetics 模型,下表 5 給出了 MaskFeat 模型與現有方法相比的平均精度 (mAP)。MaskFeat 在全分辨率測試中達到了前所未有的 38.8 mAP,大大超過了以前所有方法。

比MAE更強,FAIR新方法MaskFeat用HOG刷新多個SOTA

感興趣的讀者可以閱讀論文原文了解更多研究細節。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2009-07-31 08:56:59

ASP.NET頁面刷新

2023-12-29 13:18:23

模型NeRFTICD

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2022-12-12 11:31:39

數據學習

2015-08-21 09:14:40

大數據

2010-04-01 09:30:57

2015-06-05 09:27:13

無線WiFi

2022-01-12 18:02:45

量子AI計算機

2019-07-12 13:50:36

物聯網大數據安全

2022-07-07 10:47:16

IngressKubernetes

2018-10-07 07:00:59

2018-01-15 15:49:06

微信

2024-01-23 17:33:36

2024-10-23 19:47:54

2023-07-06 15:29:52

數據中心能源回收

2011-12-01 14:15:19

信息優化惠普

2010-06-18 09:48:22

2011-03-14 10:10:01

2024-01-06 17:12:44

視頻AI

2023-07-24 14:42:23

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品视频www | 欧美专区日韩专区 | 精品欧美乱码久久久久久1区2区 | 欧美国产视频一区二区 | 亚洲人在线 | 欧美黑人狂野猛交老妇 | 免费视频一区 | 黄色一级毛片 | 久久久精品一区 | 在线日韩欧美 | 久久久久久成人网 | 国产这里只有精品 | 中文字幕日韩专区 | 国产黄色大片 | 男女羞羞视频在线免费观看 | av大片在线观看 | 少妇一区二区三区 | 欧美三级在线 | 国产精品久久久久久久久免费相片 | 观看av| 成年人网站免费视频 | 欧美成人精品一区 | 亚洲免费高清 | 午夜影视在线观看 | 国产福利在线 | 日韩成人在线观看 | 久久亚洲一区二区三区四区 | 国产色 | 午夜成人免费视频 | 国产精品99视频 | 性国产丰满麻豆videosex | 午夜丁香视频在线观看 | 亚洲国产成人精品女人久久久 | 美女爽到呻吟久久久久 | 欧洲尺码日本国产精品 | 最近中文字幕免费 | 自拍偷拍第一页 | 欧美午夜激情在线 | 91精品国产综合久久精品图片 | 中文字幕在线一区二区三区 | 久久免费看 |