成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

新聞 人工智能
來自港大、騰訊 AI Lab、牛津大學的研究者用 Transformer 振興 CNN 注意力。

 自監督表征學習近兩年十分火熱。機器學習界的三位泰斗 Geoffroy Hinton、 Yann Lecun 、 Yoshua Bengio 一致認為自監督學習有望使 AI 產生類人的推理能力,其中 Hinton 與 Lecun 近兩年也在 ICML / NeurIPS 中發表自監督表征學習的研究工作。

可以說在機器學習頂會發表自監督表征學習的文章,是與 Hinton 和 Lecun 站到了同一賽道上。而今年的 NeurIPS 2021,Lecun 剛發推感嘆他與另外一位 CV 泰斗 Jean Ponce 的自監督投稿 VICReg 被拒掉了,可見在機器學習領域,自監督學習的競爭激烈程度。另外一方面,最近熱門的 Transformer 給計算機視覺算法帶來了全面的升級。那么 Transformer 跟自監督表征學習在一起會迸發出怎樣的火花?

來自港大、騰訊 AI Lab、牛津大學的學者在 NeurIPS 2021 發表的文章會帶來一個啟發性的答案。

該研究受現有自監督表征學習架構 BYOL 的啟示,結合前沿的 Transformer ,提出利用 Transfomer 來提升 CNN 注意力的自監督表征學習算法。本文將現有的架構歸為 C-stream,另提出 T-stream。在 CNN 骨干網絡的輸出并行接入 T-stream。將 Transformer 置于 T-stream 中提升 CNN 輸出的注意力,并以此結果來監督 CNN 自身的輸出,從而達到提升 CNN 骨干網絡注意力的效果。在現有的標準數據集中,也進一步提升了 CNN 骨干網絡在下游識別任務的各類性能。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE
  • 論文地址:https://arxiv.org/pdf/2110.05340.pdf
  • Github 地址:https://github.com/ChongjianGE/CARE

背景和啟示:自監督表征學習與樣本對比

基于圖像內容的自監督表征學習目標為訓練一個普適的視覺特征編碼器(encoder backbone)。在給定神經網絡架構(如 VGG, ResNet)的情況下,擺脫數據標注依賴構建自監督的過程,進行從零開始的初始化訓練(pretext training)。將訓練好的網絡認為類似于用 ImageNet 標注數據預訓練的結果,后續將該網絡進行一系列下游識別任務的遷移(downstream finetuning),包括圖像分類,物體檢測和分割。由于在初始化訓練中未使用數據標簽做約束,預訓練的網絡表征并不針對下游具體的某個識別任務,從而具備普適的視覺表征能力。其潛在的應用在于利用海量的互聯網數據,擺脫人工標注的、依賴自適應學習神經網絡的視覺表征能力,從而能夠受益于一系列的下游識別任務。自監督學習在下游識別任務中可以媲美有監督學習。

在自監督表征學習的研究中,對比學習 (contrastive learning) 為常用的方法。給定一批未標注的數據,以當前一個數據為正樣本,其余數據為負樣本。對比學習通過這樣的方式,構建正負樣本及其增廣的數據來確定損失函數從而訓練網絡。其中一個輸入數據通過兩路網絡形成兩個不同的 view,進行后續的樣本對比。在處理海量數據的過程中,有效的從數據中構建樣本和防止模型坍塌成為了熱門研究方向。從 MoCo[a]的隊列設計及網絡動量更新開始,一系列的研究工作應運而生。這里介紹幾個代表性的工作,為簡潔起見,算法框架圖中的映射器 (projector) 沒有畫出:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

SimCLR

上圖為 Hinton 團隊的 SimCLR[b]算法框架,其采用 large batch 的設計,擺脫隊列存儲的依賴,直接對正負樣本進行對比構造損失來更新網絡。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

BYOL

上圖為 DeepMind 團隊的 BYOL[c]算法框架,其單純利用當前樣本進行自身的多種數據增廣進行對比。同時引入 projector 來擺脫上下游任務對于網絡的影響。在更新網絡時也采用了動量更新的方式防止模型的坍塌。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

MoCo V3

上圖為 Kaiming He 團隊的 MoCo V3[d],其將 transformer 做為學習編碼器(encoder backbone),利用現有的自監督學習框架進行樣本對比學習。同時也是將 vision transformer (ViT[e])作為編碼器引入自監督學習中的工作之一。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

本文方法

與 MoCo V3 的出發點不同,本文的工作旨在利用 transformer 的自注意力機制來提升 CNN 編碼器的性能。其中將原有的 CNN 框架歸為 C-stream,然后提出包含 Transformer 的 T-stream。兩個 stream 同時接收 CNN 編碼器的輸出,然后用 T-stream 監督 C-stream。相比于 Yann Lecun 團隊的 Barlow Twins[f]利用協方差矩陣衡量兩個 view 的冗余,本文引入可學習的 transformer 能夠自適應的在不同網絡訓練狀態下提供注意力的輔助,從而更有效的提升 CNN 編碼器的視覺表征能力。

本文的方法:CARE (CNN Attention REvitalization)

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

Proposed pipeline

本文提出的算法流程圖如上所示。首先將輸入圖像x進行兩次不同的預處理得到兩個正樣本x_1、x_2。然后,用 C-stream 的兩個 CNN 編碼器分別提取x_1、x_2的特征,其中將一路 CNN 提取的特征輸入映射器 projector1 和預測器 predictor1 得到高維特征f_1(x),同時將另一路 CNN 提取的特征僅輸入動量更新的映射器 (momentum projector1) 得到高維特征f_2(x)。此外,雙路 CNN 提取的這兩組特征也會被同時輸入到 T-stream。其中一路的 Transformer1 提取具有空間注意力的特征,并將此特征輸入到映射器 projector2 和預測器 predictor2 得到高維特征f_3(x)。另一路動量更新的 Transformer 同樣提取 CNN 特征并輸入動量更新的映射器 momentum projector2 得到高維特征f_4(x)。

至此,算法框架的前向過程已經設計完成。后續通過對f_1(x)、f_2(x)、f_3(x)、f_4(x)進行針對性的損失函數設計進行反向傳播的學習。本算法在反向傳播過程中,僅更新 C-stream 以及 T-stream 的其中一路,而對應的另外一路則利用動量更新 (momentum update) 的手段進行。具體形式在后續介紹。

網絡架構設計:本算法旨在通過自監督學習框架的搭建,利用自定義的輔助任務來學習一個能夠有效提取圖像特征的 CNN 編碼器。本算法對任意的 CNN 編碼器均具有一定的適用性,因此在 CNN 編碼器的選取上有著很好的靈活性。例如,ResNet50,ResNet101 以及 ResNet152 皆可以作為本算法的 CNN 編碼器。Transformer 的結構如下圖所示:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

Transformer 結構示意圖

該 Transformer 以 CNN 編碼器輸出為輸入,并輸出f_1(x)、f_2(x)、f_3(x)、f_4(x)更具空間專注度性質的特征。本算法所設計的 Transformer 主要包括 4 個串行的模塊,其中單個模塊如上圖所示。單個模塊主要包含由一個 1x1 的卷積層,一個多頭自注意力層(Multi-head Self-attention, MHSA)[g]以及額外一個 1x1 卷積層組成。其中 MHSA 層可以很好地學習到具有空間專注度性質的特征。此外,映射器 projector 和預測器 predictor 的主要結構為多層感知器(Multi-layer perceptron)。兩者皆包含兩個全線性連接層(fully connected layers),一個激活層以及一個標準化層(batch normalization)。

本文設計的損失函數基于流程框架中的四個輸出f_1(x)、f_2(x)、f_3(x)、f_4(x)。其中本文用

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

表示 C-stream 的損失項,用

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

表示 T-stream 的損失項。其具體形式如下:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

此外,本文用 T-stream 的輸出來監督 C-stream 的輸出。這個約束用

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

表示,具體形式如下:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

該約束表明在自監督學習中,C-stream 的輸出會與 T-stream 的輸出盡量相似。所以最終整體的損失函數可以由如下表示:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

在計算整體損失后,本算法只后向傳播梯度更新 C-stream 和 T-stream 的上支。其下路分支主要通過動量更新的方式來更新參數。所謂動量更新指的主要是利用當前 C-Stream 和 T-Stream 的上路分支的參數,以及其之前時刻的參數信息,來動量更新其下路分支的網絡參數。在網絡訓練結束后,只保留 CNN encoder1 作為目標編碼器。該編碼器隨后會用做下游識別任務的 backbone 網絡。

可視化分析:CNN 編碼器的注意力展示

在自監督訓練結束后,本文對 CNN 編碼器進行特征響應的可視化展示,從而觀察編碼器在訓練后對視覺內容關注程度的變化。本文對同樣的編碼器進行兩種自監督策略,一種是只使用 C-stream 的結構進行訓練,一種是使用全部結構進行訓練。本文對這兩種訓練策略下的同樣的編碼器進行可視化展示,如下圖所示:

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

CNN 編碼器的注意力可視化展示

從圖中可以看到,第一行為輸入圖像,第二行為單純利用 C-stream 結構進行訓練的編碼器的注意力,第三行為利用本文提出 CARE 結構進行訓練的編碼器的注意力。通過觀察注意力在圖像上面的分布和強度可以看出,本文提出的 CARE 算法訓練的編碼器對圖像中的物體更敏感,注意力更強烈。

實驗結果

在實驗過程中,本文從多個方面驗證提出算法的有效性。包括上游訓練好的模型在線性分類問題中的性能、在半監督數據中的效果,以及在下游物體檢測和分割任務中的性能。在骨干網絡模型選擇方面,本文選取了 CNN 通用的 ResNet 系列模型進行訓練。對比模型為 ResNet 系列和 Transformer 結構。驗證的方式為利用不同的自監督學習算法在多種模型上進行各類任務不同訓練階段中的性能驗證。在本文算法的訓練過程中,使用 8 卡 V100 算力即可進行模型訓練的收斂。在當前海量算力的視覺自監督表征學習任務下相對算力友好。

上游任務線性分類的比較。在固定 ResNet-50 為骨干網絡情況下,針對不同的自監督學習算法進行訓練,展示在不同訓練階段的線性分類效果。如下圖所示,本文提出的 CARE(CNN attention revitalization)方法取得的優異的表現。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

此外,本文也與 BYOL 方法在 ResNet 不同骨干網絡、不同訓練階段的性能進行對比,如下圖所示。本文的 CARE 方法在不同骨干網絡下性能更佳。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

以上為相同骨干網絡、不同學習算法的對比。本文同時也對比了 Transformer 的骨干網絡以及現有的學習算法。效果如下圖所示,跟 Transformer 結構相比,本文利用 ResNet 網絡,在參數量相近的情況下,取得了更好的結果。

Transformer振興CNN骨干網絡,港大、騰訊視覺自監督表征學習CARE

更多的實驗對比,以及 CARE 算法的 Ablation Study 詳見文章中的實驗章節。

總結

綜上,本文提出了一個利用 Transformer 結構來輔助 CNN 網絡訓練的視覺自監督表征學習框架。其核心貢獻在于利用一種網絡結構的特性(即 Transformer 的注意力提升特性),在訓練中監督目標網絡(即 CNN 骨干網絡),從而使得網絡特性能夠得到遷移并提升目標網絡性能的效果。在視覺識別的各類任務中也得到了充分驗證。本文的框架對自監督表征學習具有很強的啟示意義,現有網絡結構設計繁多,功能各異。如何利用這些網絡獨有的特點,進而集成在一個網絡中達到渾然一體的目標,也是后續自監督表征學習可探索的重要方向。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2025-06-05 02:15:00

Mamba視覺網絡

2025-01-09 11:14:13

2025-03-10 08:47:00

模型AI訓練

2017-08-15 22:35:54

自監督學習視覺傳遞

2022-04-26 09:44:29

算法庫EasyCV開源

2024-05-24 15:53:20

視覺圖像

2024-07-30 11:20:00

圖像視覺

2024-06-13 11:44:43

2021-07-08 15:39:50

機器學習人工智能計算

2021-07-14 07:30:51

網絡建設互聯網骨干網絡

2023-07-22 13:17:33

人工智能框架

2025-04-25 08:00:00

2020-06-19 10:54:07

代碼開發工具

2019-07-10 05:47:37

GAN無監督表征學習機器學習

2023-12-28 09:49:19

AI工具模型

2012-03-12 10:01:21

2012-03-27 16:40:54

2013-09-18 09:24:47

2012-03-24 14:04:37

2010-08-20 15:06:38

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 美女视频一区 | 免费看色 | 国产欧美视频一区二区三区 | 少妇性l交大片免费一 | 日本不卡一区二区三区 | av永久 | 91色啪| 亚洲a视频 | 午夜欧美 | 一区二区三区在线免费观看 | 国产综合久久久久久鬼色 | 日本中文字幕一区 | 天天爽一爽 | 伊人久久精品一区二区三区 | 日韩免费视频一区二区 | 久久人爽爽人爽爽 | 国产在线精品一区二区三区 | 日本一区二区视频 | 国产免国产免费 | 欧美黄色一级毛片 | 欧美寡妇偷汉性猛交 | wwww.8888久久爱站网 | 亚洲精品一区二区三区丝袜 | 国产成人网 | 国产午夜精品一区二区三区嫩草 | 日韩精品在线观看网站 | 精品亚洲一区二区 | av中文字幕在线播放 | 黄色片视频免费 | 久久久久久久久久久久久91 | 婷婷精品| 久久中文字幕一区 | 欧美色专区 | 又黄又爽的网站 | 国产精品日日摸夜夜添夜夜av | 嫩草懂你的影院入口 | 国产香蕉视频 | 97色伦网| 免费一区二区三区在线视频 | 日本二区在线观看 | 91在线精品一区二区 |