1.標(biāo)準(zhǔn)Transformer經(jīng)典Transformer模型(如上圖所示),它是由編碼器(藍(lán)框)和解碼器(綠框)組成,標(biāo)準(zhǔn)VisionTransformer(ViT)[2]主要應(yīng)用了其中的編碼器,編碼器模塊主要由一個(gè)MultiHeadSelfAttention(MHA)和一個(gè)MultilayerPerceptron(MLP)組成。2.視覺Transformer標(biāo)準(zhǔn)Transformer編碼器的輸入是一維embedding,為了能將該編碼器應(yīng)用于圖像任務(wù),將尺寸為(H,W,C)的圖像切分成尺寸為(P,P,C)的圖像塊,一共得到個(gè)圖像塊,reshape...