成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

新聞 前端
阿里達摩院的研究團隊首次成功將pure transformer架構應用于目標重識別(ReID)任務,提出了TransReID框架,在6個數據集上都取得了超過SOTA CNN方法的性能。

 [[418101]]

Transformer是一種自注意力模型架構,2017年之后在NLP領域取得了很大的成功。2020年,谷歌提出pure transformer結構ViT,在ImageNet分類任務上取得了和CNN可比的性能。之后大量ViT衍生的Pure Transformer架構(下文中簡稱為Transformer架構/模型)在ImageNet上都取得了成功。此外,在檢測、跟蹤、分割等下游視覺任務上,pure transformer的架構也不斷取得和CNN可比的性能,但是在更加細粒度的圖像檢索任務上目前還沒有將成功的工作。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021
  • TransReID論文地址:https://arxiv.org/pdf/2102.04378
  • TransReID代碼:https://github.com/heshuting555/TransReID

在這篇論文中,阿里達摩院的研究團隊首次成功將pure transformer架構應用于目標重識別(ReID)任務,提出了TransReID框架,在6個數據集上都取得了超過SOTA CNN方法的性能。

研究背景

縱觀整個CNN-based ReID方法的發展,我們發現很多工作都關注兩個重要的點:

1)挖掘圖片中的全局性信息。CNN網絡由于卷積核堆疊的原因,所以感受野存在一個高斯核的衰減。例如圖1所示,標準CNN的模型通常會關注于圖片中某一兩個比較有判別性的局部區域,而會忽視一些全局信息。為了解決這個問題,大量方法通過引入注意力機制來擴大模型的有效感受野,從而得到更好的全局性。但是注意力機制僅僅只是緩解了CNN的這個問題,并不能徹底解決有效感受野高斯衰減的問題。但是Transformer中的自注意力模塊會使得每一個patch都和圖片中的patch都計算一個attention score,所以相比CNN模型在挖掘全局信息上有天然的優勢,并且multi-head也可以挖掘多個判別性區域??梢钥吹剑瑘D1中Transformer-based的方法能夠挖掘多個具有判別性的局部區域。

2) 學習細節信息豐富的細粒度特征。CNN網絡里面存在下采樣操作來獲得平移不變性和擴大感受野,但是同時也降低特征圖的分辨率,這會丟失圖像的一些細節信息。如圖2中的這對負樣本對(CNN識別錯誤,Transformer識別正確),兩張圖片的外觀特征是非常相似的,但是從書包的細節可以看出,左邊書包側面有一個杯子,而右邊書包側面則沒有杯子,因此可以判斷是兩個ID。但是因此CNN的下采樣操作,在網絡最后輸出的特征圖上已經看不清杯子這個細節了。但是Transformer沒有下采樣操作,因此特征圖能夠比較好地保留細節信息,從而識別目標。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

綜上所述,Transformer結構是非常適合ReID任務的,但是僅僅用Transformer替換掉CNN backbone并沒有充分利用Transformer的特性。本文提出了首個pure transformer的ReID框架TransReID,包含JPM和SIE兩個新的模塊。之前的ReID工作顯示將圖片進行切塊得到若干個part,然后對每個part提取local特征能夠提升性能。我們借鑒了這個設計,將Transformer中的patch embedding分成若干個group,但是這個操作沒有充分利用Transformer的全局依賴性。因此我們設計了Jigsaw Patch Module (JPM),將patch embedding隨機打亂之后再切分group。Transformer非常擅長encode不同模態的信息,而之前的ReID工作顯示相機和姿態信息是有利于ID的識別的,因此我們設計了Side Information Module (SIE) 來利用這些有益的信息。

TransReID

1、Transformer-based strong baseline

我們首先參考CNN的baseline BoT 設計Transformer-based strong baseline。如圖圖3所示,我們參考ViT將圖片分成N個patch,并引入一個額外的cls token共N+1個embedding。經過Transformer layers之后,我們將cls token作為圖像的全局特征,之后經過一個BNNeck結構計算triplet loss和分類ID loss。

由于ImageNet預訓練的ViT是使用224*224的圖像分辨率,而ReID通常使用的分辨率不會是224*224,這造成了position embedding的維度不一樣。因此,我們將position embedding按照空間位置進行插值來加載預訓練的position embedding參數。

此外,還有一個漲點的tricks是對圖像進行patch分塊的時候可以讓相鄰的patch之間有一定的overlap。當然這個操作會使得patch數目增加從而使得模型訓練的資源消耗增加,但是性能也會有比較穩定提升。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

2、Jigsaw Patch Module

ReID任務經常會遇到遮擋、不對齊這些問題,一般我們會采用細粒度的局部特征來處理這些問題,水平切塊就是非常常用的一種局部特征方法。JPM模塊借鑒水平切塊思想,將最后一層的patch embedding分成k個group (k=4),然后對于每個group進行transformer encode得到N個cls token,每個cls token就相當于PCB中的striped feature,計算一個loss。但是這么做有一個缺點:每個group只包含了圖片中一個局部區域的信息,而transformer的特性是能夠挖掘全局關聯性。為了擴大每個group的「視野」,我們將所有的patch embedding按照一定規則進行打亂,然后再進行分組。這樣每個group就可能包含來自圖片不同區域的patch,近似等效于每個group都有比較全局的「視野」。此外,打亂操作也可以看做是給網絡增加了一些擾動,使得網絡能夠學習到更加魯棒的特征。

具體打亂操作分為兩步:(1)將最后一層輸出的patch embedding去除0號位置的cls token可以得到N個patch embedding,之后將它們進行循環平移m步;(2)第二步參照shuffle的group shuffle操作將N個patch的順序打亂得到新順序的N各patch embedding,之后將它們按照新順序分為k個group,每個group都學習一個cls token,最終concat所有cls token作為最終的feature。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

3、Side Information Embeddings

ReID任務中相機、視角的差異會給圖像帶來一些外觀上的差異,所以不少工作關注怎么抑制這些bias。對于CNN框架,通常需要專門設計結構來處理這個問題,例如設計loss、對數據進行先驗處理、改變模型結構等等。這些設計通常比較定制化且比較復雜,推廣性并不強。而transformer則比較擅長融合不同模態的信息,因此我們提出了SIE模塊來利用相機ID、視角等輔助信息。

與可學習的position embedding類似,我們使用了可學習的embedding來編碼相機ID和方向ID這些Side information,這個模塊成為Side Information Embedding (SIE)。假設總共有Nc個相機ID和Nv個方向ID,某張圖片的相機ID和方向ID分別是r和q,則他們最終的SIE編碼為:

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

最終,backbone的輸入為patch embeding、position embedding和SIE \mathcal{S}_{(C,V)}的加權之和。圖4展示了TransReID的完整框架,在ViT的基礎上增加了JPM和SIE模塊。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

實驗結果

1、不同Backbone的對比

Table 2給出了不同Backbone的準確度和推理時間的對比,我們將ResNet50作為baseline,同時我們給出了ViT和DeiT的結果??梢钥吹?,DeiT-S/16在速度上與ResNet50是接近的,在準確度上同樣也有可比的性能。當我們使用更深的DeiT-B/16和DeiT-V/16時,同樣和ResNest50取得了相似的速度和準確度。當我們在pre-patch環節縮小conv的stride時,patch的數目增加,速度下降,但是準確度也會收獲穩定的提升。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

2、Ablation Study

詳細的消融實驗可以看論文,這里只給出大模塊的消融實驗,我們以ViT-B/16作為baseline。從Table 5中的結果可以看出,JPM模塊和SIE模塊都是能穩定帶來提升的,TransReID將這兩個模塊一起用還能進一步提升結果。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

3、和SOTA對比

Table 6給出了和SOTA方法對比的結果。可以看到,和CNN的方法相比,TransReID在六個ReID數據集上取得了更好的準確度,這顯示了pure transformer架構在圖像檢索任務上同樣適用。

一個有意思的地方是,在ImageNet上取得更好分數的DeiT在下游的ReID任務上并沒有超過ViT。這是因為ViT使用了更大的ImageNet22K做預訓練,更大的預訓練數據使得ViT有更好的遷移性。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

4、一些可視化

下圖給出了CNN和TransReID的注意力可視化結果,可以看出TransReID可以比CNN挖掘到更多判別性區域,同時有更好的全局性特征。

達摩院首次將Pure Transformer引入目標重識別,論文入選ICCV 2021

本文的論文作者包括兩位:

1.何淑婷,浙江大學博士生,阿里巴巴達摩院研究實習生,研究方向為目標重識別,多目標跟蹤等。曾在國內外十幾項競賽中取得前三的名次,其中包括六項冠軍。

2.羅浩,2020年博士畢業于浙江大學,畢業后加入阿里巴巴達摩院,從事ReID方向的研究與技術落地工作。累計發表論文20余篇,Google scholar引用累計1000+次,代表作BagTricks Baseline開源代碼Star超過1.6K。曾經獲得CVPR2021 AICITY Challenge、ECCV2020 VisDA Challenge, IJCAI2020 iQIYI iCartoonFace Challenge等國際比賽冠軍。博士期間創立浙大AI學生協會、在B站等平臺免費開放《深度學習和目標重識別》課程。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-08-13 14:54:16

開源技術 開發

2021-01-13 12:39:46

科技趨勢電子器件量子霸權

2021-10-13 17:53:14

AI 數據人工智能

2020-12-29 09:36:57

科技趨勢阿里

2021-09-07 09:01:07

人臉識別人工智能數據

2019-01-03 09:18:37

AI數據科技

2017-10-11 11:10:58

阿里巴巴頂尖科學家超千億

2021-05-12 09:42:25

AI 數據人工智能

2021-08-03 13:42:34

數字化

2022-07-19 14:01:44

阿里達摩院AI

2021-03-19 09:03:29

Pure Storag公有云微軟

2020-09-17 13:17:04

QA機器人物流

2018-06-07 16:00:28

阿里巴巴語音識別開源

2023-03-06 14:07:31

系統訓練

2020-09-18 15:10:25

阿里達摩院數據

2022-04-22 11:22:47

達摩院阿里巴巴

2021-07-24 10:09:00

計算機AI 技術

2020-05-29 16:56:59

達摩院AI新冠CT

2023-11-30 12:39:52

模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线精品一区二区 | 国产精品一区二区欧美黑人喷潮水 | 日韩精品av一区二区三区 | 日韩视频观看 | 粉嫩国产精品一区二区在线观看 | 四虎影视一区二区 | 午夜影院在线观看 | 午夜精品一区二区三区在线观看 | 一级做受毛片免费大片 | 国产精品日女人 | 国产精品一区在线播放 | 久热m3u8 | 精品一区二区三区视频在线观看 | 欧美国产日韩在线 | 国产精品激情 | 欧美成人一区二区三区 | 国产精品久久久久久久久久尿 | 狠狠狠干| 91.com视频| 亚洲a在线观看 | 精品国产欧美日韩不卡在线观看 | 欧美三级在线 | 国产视频一区二区三区四区五区 | 天天综合网永久 | 激情网站 | 精久久 | www.日日操| 中文字幕日韩欧美一区二区三区 | 欧美中文字幕一区二区三区亚洲 | 免费观看a级毛片在线播放 黄网站免费入口 | 日韩三级视频 | 黄色在线网站 | 日韩精品在线一区 | 成人国产精品 | 国产999精品久久久 精品三级在线观看 | 欧美一级毛片久久99精品蜜桃 | 国产精品毛片 | 97在线观看 | 日本不卡视频 | 玖玖综合在线 | 国产精品久久av |