模態(tài)編碼器 | EVA改進(jìn)之EVA-02

作者：Goldma 2025-04-07 06:30:00

在預(yù)訓(xùn)練過程中，作者選擇了使用一個(gè)具有10億參數(shù)的大型CLIP模型（EVA-CLIP）作為教師模型，以生成目標(biāo)視覺特征。這一選擇基于一個(gè)假設(shè)：更大的教師模型能夠提供更魯棒和可遷移的目標(biāo)表示，從而幫助學(xué)生模型（EVA-02）學(xué)習(xí)到更強(qiáng)的視覺表示。

來(lái)自智源曹越團(tuán)隊(duì)在EVA的優(yōu)化改進(jìn)方面的工作EVA-02，項(xiàng)目地址：https://github.com/baaivision/EVA

研究動(dòng)機(jī)如下：在CV領(lǐng)域，訓(xùn)練、調(diào)優(yōu)和評(píng)估非常大的視覺模型需要大量的計(jì)算資源，限制了許多研究人員和開發(fā)者的參與。因此，本研究主要目的是提供一種高效且性能強(qiáng)大的預(yù)訓(xùn)練方法，不僅能夠在多種下游任務(wù)中展現(xiàn)出色的遷移學(xué)習(xí)能力，而且還能顯著減少參數(shù)數(shù)量和計(jì)算成本。

01、模型架構(gòu)

EVA-02的基礎(chǔ)是一個(gè)改進(jìn)版的純Transformer架構(gòu)，該架構(gòu)在原始ViT的基礎(chǔ)上進(jìn)行了若干重要的修改，以更好地適應(yīng)大規(guī)模預(yù)訓(xùn)練任務(wù)的需求。這些修改包括norm，參數(shù)初始化，F(xiàn)FN，位置編碼方式，如下表所示：

多頭自注意力（MHSA）層：使用MHSA層來(lái)捕獲圖像中的全局空間信息。然后相比于相對(duì)位置編碼（Relative Position Encoding, RP）引入了旋轉(zhuǎn)位置編碼（Rotary Position Embedding, RoPE），以增強(qiáng)模型對(duì)位置信息的理解。
位置感知前饋網(wǎng)絡(luò)（FFN）：引入了SwiGLU機(jī)制，替代傳統(tǒng)的GELU激活函數(shù)，以增強(qiáng)模型的表達(dá)能力。
歸一化方案：對(duì)于較大的EVA-02模型（如B和L），采用了sub-LN（子層歸一化）作為默認(rèn)的歸一化方案，去掉了內(nèi)部注意力層的層歸一化（Layer Normalization, LN）。對(duì)于較小的模型（如Ti和S），則繼續(xù)使用標(biāo)準(zhǔn)的預(yù)歸一化配置。
權(quán)重初始化：所有TrV（Transformer Vision）塊中的權(quán)重都使用Xavier正態(tài)分布初始化，其中MHSA和FFN的權(quán)重矩陣是從特定的標(biāo)準(zhǔn)差采樣的高斯分布中抽取的。

02、模型訓(xùn)練

在預(yù)訓(xùn)練過程中，作者選擇了使用一個(gè)具有10億參數(shù)的大型CLIP模型（EVA-CLIP）作為教師模型，以生成目標(biāo)視覺特征。這一選擇基于一個(gè)假設(shè)：更大的教師模型能夠提供更魯棒和可遷移的目標(biāo)表示，從而幫助學(xué)生模型（EVA-02）學(xué)習(xí)到更強(qiáng)的視覺表示。

預(yù)訓(xùn)練數(shù)據(jù)

小型模型（EVA-02-Ti, EVA-02-S, EVA-02-B）：使用ImageNet-21K數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，該數(shù)據(jù)集包含1420萬(wàn)張圖像。
大型模型（EVA-02-L）：使用合并的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，該數(shù)據(jù)集包括ImageNet-21K、CC12M、CC3M、COCO、ADE20K、Object365和OpenImages，總共有3800萬(wàn)張圖像。

預(yù)訓(xùn)練過程

數(shù)據(jù)預(yù)處理：輸入圖像被劃分為固定大小的patch。隨機(jī)選擇40%的patch并用[MASK]標(biāo)記替換，形成掩碼圖像。使用塊狀掩碼策略，即一次遮蓋多個(gè)相鄰的patch，以模擬自然界的遮擋情況。
目標(biāo)表示：使用EVA-CLIP視覺編碼器提取目標(biāo)視覺特征，目標(biāo)特征經(jīng)過歸一化處理，并通過一個(gè)線性層投影到與EVA-02模型輸出相同的空間維度。
損失函數(shù)：使用負(fù)余弦相似度作為損失函數(shù)，衡量模型預(yù)測(cè)的特征與目標(biāo)特征之間的相似度。損失函數(shù)定義為：，其中，是模型預(yù)測(cè)的特征，y是目標(biāo)特征。

預(yù)訓(xùn)練結(jié)果

大型教師模型（如EVA-CLIP）生成的目標(biāo)表示更為復(fù)雜和精細(xì)。這使得學(xué)生模型在短時(shí)間內(nèi)難以完全理解和學(xué)習(xí)這些復(fù)雜的表示。因此，學(xué)生模型在快速預(yù)訓(xùn)練過程中可能無(wú)法充分吸收教師模型的知識(shí)，導(dǎo)致性能下降。為了驗(yàn)證這一假設(shè)，作者延長(zhǎng)了預(yù)訓(xùn)練的時(shí)間，將預(yù)訓(xùn)練周期從300個(gè)epoch增加到1600個(gè)epoch。結(jié)果顯示，隨著預(yù)訓(xùn)練時(shí)間的增加，學(xué)生模型的性能顯著提升，相對(duì)于使用小型教師模型的基線方法，取得了1.3個(gè)百分點(diǎn)的提升。另外結(jié)構(gòu)上的改進(jìn)也會(huì)使得模型在較短的預(yù)訓(xùn)練時(shí)間內(nèi)也能獲得一定的性能提升。

另外，通過調(diào)整模型大小、圖像分辨率以及通過中間微調(diào)注入標(biāo)簽可以進(jìn)一步提高性能，僅使用304M參數(shù)的EVA-02就可以在IN-1K上達(dá)到90.0的top-1精度。

03、實(shí)驗(yàn)結(jié)果

相比于EVA，EVA-02的性能提升如下：

圖像分類

EVA-02在ImageNet-1K驗(yàn)證集上取得了90.0%的微調(diào)Top-1準(zhǔn)確率，顯著優(yōu)于其教師模型（1011M參數(shù)）和其他現(xiàn)有方法。

對(duì)比圖像-文本預(yù)訓(xùn)練（CLIP）

EVA-02-CLIP在ImageNet-1K上的零樣本Top-1準(zhǔn)確率達(dá)到了80.4%，顯著優(yōu)于之前的最佳開源CLIP模型（參數(shù)量約為六分之一，訓(xùn)練數(shù)據(jù)量也為六分之一）。

表9進(jìn)一步證明了該方法在26個(gè)額外的zero-shot分類基準(zhǔn)上的有效性和穩(wěn)健性。并且EVA-02 -CLIP-L模型，只有1/2的模型大小和1/5的圖像-文本對(duì)，比OpenCLIP-H實(shí)現(xiàn)了1.2點(diǎn)的提升。

11中表明EVA-02 -CLIP在zero-shot視頻識(shí)別基準(zhǔn)測(cè)試中也相當(dāng)有效。

目標(biāo)檢測(cè)與實(shí)例分割

語(yǔ)義分割

04、總結(jié)

蒸餾方向的論文，基本都是為了讓一個(gè)小的student網(wǎng)絡(luò)在不損失太多性能的前提下，學(xué)習(xí)到大的teacher網(wǎng)絡(luò)的特征。

而在大模型時(shí)代，EVA探索了student網(wǎng)絡(luò)能達(dá)到的規(guī)模上限，并且在測(cè)試集上效果略微超過了teacher網(wǎng)絡(luò)。伴隨著EVA-01的成功，EVA-02做了更精細(xì)的調(diào)整，并且為了變得“可用”，參數(shù)量做了大量的縮減，而性能相比EVA-01有明顯的提升。

為什么EVA蒸餾后的網(wǎng)絡(luò)會(huì)比teacher網(wǎng)絡(luò)有更好的效果呢？個(gè)人感覺是CLIP確實(shí)足夠強(qiáng)大，而且EVA中student網(wǎng)絡(luò)的MIM訓(xùn)練方式足夠的好。具體而言CLIP在4億的圖文對(duì)上做了預(yù)訓(xùn)練，輸出的圖像特征和語(yǔ)言的特征做了對(duì)齊，是一種高維的語(yǔ)義信息，而VIT作為一個(gè)backbone，更利于提取到低維的結(jié)構(gòu)特征，并且MIM的方式迫使VIT學(xué)習(xí)遮擋不變的特征，最終的特征具有了很好的魯棒性。

責(zé)任編輯：龐桂玉來(lái)源：小白學(xué)AI算法

模態(tài)編碼器大模型人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看