成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模態(tài)編碼器 | EVA改進(jìn)之EVA-02

人工智能
在預(yù)訓(xùn)練過程中,作者選擇了使用一個(gè)具有10億參數(shù)的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標(biāo)視覺特征。這一選擇基于一個(gè)假設(shè):更大的教師模型能夠提供更魯棒和可遷移的目標(biāo)表示,從而幫助學(xué)生模型(EVA-02)學(xué)習(xí)到更強(qiáng)的視覺表示。

來(lái)自智源曹越團(tuán)隊(duì)在EVA的優(yōu)化改進(jìn)方面的工作EVA-02,項(xiàng)目地址:https://github.com/baaivision/EVA

研究動(dòng)機(jī)如下:在CV領(lǐng)域,訓(xùn)練、調(diào)優(yōu)和評(píng)估非常大的視覺模型需要大量的計(jì)算資源,限制了許多研究人員和開發(fā)者的參與。因此,本研究主要目的是提供一種高效且性能強(qiáng)大的預(yù)訓(xùn)練方法,不僅能夠在多種下游任務(wù)中展現(xiàn)出色的遷移學(xué)習(xí)能力,而且還能顯著減少參數(shù)數(shù)量和計(jì)算成本。

01、模型架構(gòu)

圖片

EVA-02的基礎(chǔ)是一個(gè)改進(jìn)版的純Transformer架構(gòu),該架構(gòu)在原始ViT的基礎(chǔ)上進(jìn)行了若干重要的修改,以更好地適應(yīng)大規(guī)模預(yù)訓(xùn)練任務(wù)的需求。這些修改包括norm,參數(shù)初始化,F(xiàn)FN,位置編碼方式,如下表所示:

  • 多頭自注意力(MHSA)層:使用MHSA層來(lái)捕獲圖像中的全局空間信息。然后相比于相對(duì)位置編碼(Relative Position Encoding, RP)引入了旋轉(zhuǎn)位置編碼(Rotary Position Embedding, RoPE),以增強(qiáng)模型對(duì)位置信息的理解。
  • 位置感知前饋網(wǎng)絡(luò)(FFN):引入了SwiGLU機(jī)制,替代傳統(tǒng)的GELU激活函數(shù),以增強(qiáng)模型的表達(dá)能力。
  • 歸一化方案:對(duì)于較大的EVA-02模型(如B和L),采用了sub-LN(子層歸一化)作為默認(rèn)的歸一化方案,去掉了內(nèi)部注意力層的層歸一化(Layer Normalization, LN)。對(duì)于較小的模型(如Ti和S),則繼續(xù)使用標(biāo)準(zhǔn)的預(yù)歸一化配置。
  • 權(quán)重初始化:所有TrV(Transformer Vision)塊中的權(quán)重都使用Xavier正態(tài)分布初始化,其中MHSA和FFN的權(quán)重矩陣是從特定的標(biāo)準(zhǔn)差采樣的高斯分布中抽取的。

圖片

02、模型訓(xùn)練

在預(yù)訓(xùn)練過程中,作者選擇了使用一個(gè)具有10億參數(shù)的大型CLIP模型(EVA-CLIP)作為教師模型,以生成目標(biāo)視覺特征。這一選擇基于一個(gè)假設(shè):更大的教師模型能夠提供更魯棒和可遷移的目標(biāo)表示,從而幫助學(xué)生模型(EVA-02)學(xué)習(xí)到更強(qiáng)的視覺表示。

預(yù)訓(xùn)練數(shù)據(jù)

  • 小型模型(EVA-02-Ti, EVA-02-S, EVA-02-B):使用ImageNet-21K數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包含1420萬(wàn)張圖像
  • 大型模型(EVA-02-L):使用合并的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,該數(shù)據(jù)集包括ImageNet-21K、CC12M、CC3M、COCO、ADE20K、Object365和OpenImages,總共有3800萬(wàn)張圖像

預(yù)訓(xùn)練過程

  1. 數(shù)據(jù)預(yù)處理:輸入圖像被劃分為固定大小的patch。隨機(jī)選擇40%的patch并用[MASK]標(biāo)記替換,形成掩碼圖像。使用塊狀掩碼策略,即一次遮蓋多個(gè)相鄰的patch,以模擬自然界的遮擋情況。
  2. 目標(biāo)表示:使用EVA-CLIP視覺編碼器提取目標(biāo)視覺特征,目標(biāo)特征經(jīng)過歸一化處理,并通過一個(gè)線性層投影到與EVA-02模型輸出相同的空間維度。
  3. 損失函數(shù):使用負(fù)余弦相似度作為損失函數(shù),衡量模型預(yù)測(cè)的特征與目標(biāo)特征之間的相似度。損失函數(shù)定義為:圖片其中,圖片是模型預(yù)測(cè)的特征,y是目標(biāo)特征。

預(yù)訓(xùn)練結(jié)果

大型教師模型(如EVA-CLIP)生成的目標(biāo)表示更為復(fù)雜和精細(xì)。這使得學(xué)生模型在短時(shí)間內(nèi)難以完全理解和學(xué)習(xí)這些復(fù)雜的表示。因此,學(xué)生模型在快速預(yù)訓(xùn)練過程中可能無(wú)法充分吸收教師模型的知識(shí),導(dǎo)致性能下降。為了驗(yàn)證這一假設(shè),作者延長(zhǎng)了預(yù)訓(xùn)練的時(shí)間,將預(yù)訓(xùn)練周期從300個(gè)epoch增加到1600個(gè)epoch。結(jié)果顯示,隨著預(yù)訓(xùn)練時(shí)間的增加,學(xué)生模型的性能顯著提升,相對(duì)于使用小型教師模型的基線方法,取得了1.3個(gè)百分點(diǎn)的提升。另外結(jié)構(gòu)上的改進(jìn)也會(huì)使得模型在較短的預(yù)訓(xùn)練時(shí)間內(nèi)也能獲得一定的性能提升。

圖片

圖片

圖片

另外,通過調(diào)整模型大小、圖像分辨率以及通過中間微調(diào)注入標(biāo)簽可以進(jìn)一步提高性能,僅使用304M參數(shù)的EVA-02就可以在IN-1K上達(dá)到90.0的top-1精度。

圖片


03、實(shí)驗(yàn)結(jié)果

相比于EVA,EVA-02的性能提升如下:

圖片

圖像分類

EVA-02在ImageNet-1K驗(yàn)證集上取得了90.0%的微調(diào)Top-1準(zhǔn)確率,顯著優(yōu)于其教師模型(1011M參數(shù))和其他現(xiàn)有方法。

圖片

圖片

圖片

對(duì)比圖像-文本預(yù)訓(xùn)練(CLIP)

EVA-02-CLIP在ImageNet-1K上的零樣本Top-1準(zhǔn)確率達(dá)到了80.4%,顯著優(yōu)于之前的最佳開源CLIP模型(參數(shù)量約為六分之一,訓(xùn)練數(shù)據(jù)量也為六分之一)。

表9進(jìn)一步證明了該方法在26個(gè)額外的zero-shot分類基準(zhǔn)上的有效性和穩(wěn)健性。并且EVA-02 -CLIP-L模型,只有1/2的模型大小和1/5的圖像-文本對(duì),比OpenCLIP-H實(shí)現(xiàn)了1.2點(diǎn)的提升。

圖片

圖片

11中表明EVA-02 -CLIP在zero-shot視頻識(shí)別基準(zhǔn)測(cè)試中也相當(dāng)有效。

圖片

圖片

目標(biāo)檢測(cè)與實(shí)例分割

圖片

圖片

語(yǔ)義分割

圖片

04、總結(jié)

蒸餾方向的論文,基本都是為了讓一個(gè)小的student網(wǎng)絡(luò)在不損失太多性能的前提下,學(xué)習(xí)到大的teacher網(wǎng)絡(luò)的特征。

而在大模型時(shí)代,EVA探索了student網(wǎng)絡(luò)能達(dá)到的規(guī)模上限,并且在測(cè)試集上效果略微超過了teacher網(wǎng)絡(luò)。伴隨著EVA-01的成功,EVA-02做了更精細(xì)的調(diào)整,并且為了變得“可用”,參數(shù)量做了大量的縮減,而性能相比EVA-01有明顯的提升。

為什么EVA蒸餾后的網(wǎng)絡(luò)會(huì)比teacher網(wǎng)絡(luò)有更好的效果呢?個(gè)人感覺是CLIP確實(shí)足夠強(qiáng)大,而且EVA中student網(wǎng)絡(luò)的MIM訓(xùn)練方式足夠的好。具體而言CLIP在4億的圖文對(duì)上做了預(yù)訓(xùn)練,輸出的圖像特征和語(yǔ)言的特征做了對(duì)齊,是一種高維的語(yǔ)義信息,而VIT作為一個(gè)backbone,更利于提取到低維的結(jié)構(gòu)特征,并且MIM的方式迫使VIT學(xué)習(xí)遮擋不變的特征,最終的特征具有了很好的魯棒性。

責(zé)任編輯:龐桂玉 來(lái)源: 小白學(xué)AI算法
相關(guān)推薦

2025-04-07 05:30:00

2025-04-08 03:00:00

2025-04-07 04:30:00

2025-04-09 02:10:00

模態(tài)編碼器SigLIP多模態(tài)

2025-04-07 03:30:00

2025-04-10 06:30:00

2025-04-10 11:52:55

2025-04-08 04:20:00

2025-04-11 00:16:00

模態(tài)編碼器MAECLIP

2025-02-28 10:15:00

3D模型編碼器

2009-03-16 19:22:26

HPSSD虛擬化

2009-03-11 12:41:20

HP虛擬化存儲(chǔ)

2023-10-07 09:29:09

2021-03-22 10:52:13

人工智能深度學(xué)習(xí)自編碼器

2021-11-02 20:44:47

數(shù)字化

2021-03-29 11:37:50

人工智能深度學(xué)習(xí)

2010-03-01 15:55:00

Fedora Eva

2012-04-10 16:55:22

PowerSmart編碼器

2012-04-01 16:40:45

編碼器

2022-07-28 12:18:40

視覺語(yǔ)言模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 午夜精品在线观看 | 成人免费视频网址 | 亚洲免费一区二区 | 粉嫩在线 | 亚州综合一区 | 国产黄色一级片 | 久久久精品视频一区二区三区 | 99精品在线| 成人亚洲片 | 久草资源 | 99精品国产一区二区三区 | 黄网站涩免费蜜桃网站 | 精品国产一区二区在线 | 久久国产精彩视频 | 日韩电影免费在线观看中文字幕 | 欧美激情精品久久久久久 | 中文成人在线 | 99精品久久久国产一区二区三 | 婷婷色在线 | 亚洲性综合网 | 黄色一级电影在线观看 | 中文字幕免费 | 日韩成人专区 | 亚洲一区二区av在线 | 中文字幕免费中文 | 欧美激情视频一区二区三区免费 | 国产精品久久毛片av大全日韩 | 中文字幕精品一区二区三区精品 | 午夜小视频在线观看 | av一级一片 | 狠狠的日| 久久久青草 | 黄视频免费观看 | 久久久久久久网 | 日韩国产在线 | 久久99网| 人人草人人干 | 黄视频免费 | 日韩在线一区二区三区 | 影音av | 亚洲视频免费在线观看 |