模態(tài)編碼器 | EVA改進(jìn)之EVA-02
來(lái)自智源曹越團(tuán)隊(duì)在EVA的優(yōu)化改進(jìn)方面的工作EVA-02,項(xiàng)目地址:https://github.com/baaivision/EVA
研究動(dòng)機(jī)如下:在CV領(lǐng)域,訓(xùn)練、調(diào)優(yōu)和評(píng)估非常大的視覺模型需要大量的計(jì)算資源,限制了許多研究人員和開發(fā)者的參與。因此,本研究主要目的是提供一種高效且性能強(qiáng)大的預(yù)訓(xùn)練方法,不僅能夠在多種下游任務(wù)中展現(xiàn)出色的遷移學(xué)習(xí)能力,而且還能顯著減少參數(shù)數(shù)量和計(jì)算成本。
01、模型架構(gòu)
EVA-02的基礎(chǔ)是一個(gè)改進(jìn)版的純Transformer架構(gòu),該架構(gòu)在原始ViT的基礎(chǔ)上進(jìn)行了若干重要的修改,以更好地適應(yīng)大規(guī)模預(yù)訓(xùn)練任務(wù)的需求。這些修改包括norm,參數(shù)初始化,F(xiàn)FN,位置編碼方式,如下表所示:
- 多頭自注意力(MHSA)層:使用MHSA層來(lái)捕獲圖像中的全局空間信息。然后相比于相對(duì)位置編碼(Relative Position Encoding, RP)引入了旋轉(zhuǎn)位置編碼(Rotary Position Embedding, RoPE),以增強(qiáng)模型對(duì)位置信息的理解。
- 位置感知前饋網(wǎng)絡(luò)(FFN):引入了SwiGLU機(jī)制,替代傳統(tǒng)的GELU激活函數(shù),以增強(qiáng)模型的表達(dá)能力。
- 歸一化方案:對(duì)于較大的EVA-02模型(如B和L),采用了sub-LN(子層歸一化)作為默認(rèn)的歸一化方案,去掉了內(nèi)部注意力層的層歸一化(Layer Normalization, LN)。對(duì)于較小的模型(如Ti和S),則繼續(xù)使用標(biāo)準(zhǔn)的預(yù)歸一化配置。
- 權(quán)重初始化:所有TrV(Transformer Vision)塊中的權(quán)重都使用Xavier正態(tài)分布初始化,其中MHSA和FFN的權(quán)重矩陣是從特定的標(biāo)準(zhǔn)差采樣的高斯分布中抽取的。
02、模型訓(xùn)練
在預(yù)訓(xùn)練過程中,作者選擇了使用一個(gè)具有10億參數(shù)的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標(biāo)視覺特征。這一選擇基于一個(gè)假設(shè):更大的教師模型能夠提供更魯棒和可遷移的目標(biāo)表示,從而幫助學(xué)生模型(EVA-02)學(xué)習(xí)到更強(qiáng)的視覺表示。
預(yù)訓(xùn)練數(shù)據(jù)
- 小型模型(EVA-02-Ti, EVA-02-S, EVA-02-B):使用ImageNet-21K數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含1420萬(wàn)張圖像。
- 大型模型(EVA-02-L):使用合并的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包括ImageNet-21K、CC12M、CC3M、COCO、ADE20K、Object365和OpenImages,總共有3800萬(wàn)張圖像。
預(yù)訓(xùn)練過程
- 數(shù)據(jù)預(yù)處理:輸入圖像被劃分為固定大小的patch。隨機(jī)選擇40%的patch并用[MASK]標(biāo)記替換,形成掩碼圖像。使用塊狀掩碼策略,即一次遮蓋多個(gè)相鄰的patch,以模擬自然界的遮擋情況。
- 目標(biāo)表示:使用EVA-CLIP視覺編碼器提取目標(biāo)視覺特征,目標(biāo)特征經(jīng)過歸一化處理,并通過一個(gè)線性層投影到與EVA-02模型輸出相同的空間維度。
- 損失函數(shù):使用負(fù)余弦相似度作為損失函數(shù),衡量模型預(yù)測(cè)的特征與目標(biāo)特征之間的相似度。損失函數(shù)定義為:
,其中,
是模型預(yù)測(cè)的特征,y是目標(biāo)特征。
預(yù)訓(xùn)練結(jié)果
大型教師模型(如EVA-CLIP)生成的目標(biāo)表示更為復(fù)雜和精細(xì)。這使得學(xué)生模型在短時(shí)間內(nèi)難以完全理解和學(xué)習(xí)這些復(fù)雜的表示。因此,學(xué)生模型在快速預(yù)訓(xùn)練過程中可能無(wú)法充分吸收教師模型的知識(shí),導(dǎo)致性能下降。為了驗(yàn)證這一假設(shè),作者延長(zhǎng)了預(yù)訓(xùn)練的時(shí)間,將預(yù)訓(xùn)練周期從300個(gè)epoch增加到1600個(gè)epoch。結(jié)果顯示,隨著預(yù)訓(xùn)練時(shí)間的增加,學(xué)生模型的性能顯著提升,相對(duì)于使用小型教師模型的基線方法,取得了1.3個(gè)百分點(diǎn)的提升。另外結(jié)構(gòu)上的改進(jìn)也會(huì)使得模型在較短的預(yù)訓(xùn)練時(shí)間內(nèi)也能獲得一定的性能提升。
另外,通過調(diào)整模型大小、圖像分辨率以及通過中間微調(diào)注入標(biāo)簽可以進(jìn)一步提高性能,僅使用304M參數(shù)的EVA-02就可以在IN-1K上達(dá)到90.0的top-1精度。
03、實(shí)驗(yàn)結(jié)果
相比于EVA,EVA-02的性能提升如下:
圖像分類
EVA-02在ImageNet-1K驗(yàn)證集上取得了90.0%的微調(diào)Top-1準(zhǔn)確率,顯著優(yōu)于其教師模型(1011M參數(shù))和其他現(xiàn)有方法。
對(duì)比圖像-文本預(yù)訓(xùn)練(CLIP)
EVA-02-CLIP在ImageNet-1K上的零樣本Top-1準(zhǔn)確率達(dá)到了80.4%,顯著優(yōu)于之前的最佳開源CLIP模型(參數(shù)量約為六分之一,訓(xùn)練數(shù)據(jù)量也為六分之一)。
表9進(jìn)一步證明了該方法在26個(gè)額外的zero-shot分類基準(zhǔn)上的有效性和穩(wěn)健性。并且EVA-02 -CLIP-L模型,只有1/2的模型大小和1/5的圖像-文本對(duì),比OpenCLIP-H實(shí)現(xiàn)了1.2點(diǎn)的提升。
11中表明EVA-02 -CLIP在zero-shot視頻識(shí)別基準(zhǔn)測(cè)試中也相當(dāng)有效。
目標(biāo)檢測(cè)與實(shí)例分割
語(yǔ)義分割
04、總結(jié)
蒸餾方向的論文,基本都是為了讓一個(gè)小的student網(wǎng)絡(luò)在不損失太多性能的前提下,學(xué)習(xí)到大的teacher網(wǎng)絡(luò)的特征。
而在大模型時(shí)代,EVA探索了student網(wǎng)絡(luò)能達(dá)到的規(guī)模上限,并且在測(cè)試集上效果略微超過了teacher網(wǎng)絡(luò)。伴隨著EVA-01的成功,EVA-02做了更精細(xì)的調(diào)整,并且為了變得“可用”,參數(shù)量做了大量的縮減,而性能相比EVA-01有明顯的提升。
為什么EVA蒸餾后的網(wǎng)絡(luò)會(huì)比teacher網(wǎng)絡(luò)有更好的效果呢?個(gè)人感覺是CLIP確實(shí)足夠強(qiáng)大,而且EVA中student網(wǎng)絡(luò)的MIM訓(xùn)練方式足夠的好。具體而言CLIP在4億的圖文對(duì)上做了預(yù)訓(xùn)練,輸出的圖像特征和語(yǔ)言的特征做了對(duì)齊,是一種高維的語(yǔ)義信息,而VIT作為一個(gè)backbone,更利于提取到低維的結(jié)構(gòu)特征,并且MIM的方式迫使VIT學(xué)習(xí)遮擋不變的特征,最終的特征具有了很好的魯棒性。