成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

模態編碼器 | 無文本編碼器仍媲美CLIP的SuperClass模型!

人工智能
SuperClass作為一種極其簡單有效的方法,在預訓練視覺編碼器方面不僅能夠實現與對比學習方法相媲美的性能,而且在計算效率和擴展性方面也表現出色。這些結果為視覺和多模態相關的任務提供了有力支持。

今天來看一篇字節在2024NIPS上的一篇工作,SuperClass,一個超級簡單且高效的預訓練方法。

研究動機:訓練CLIP需要大量的數據和算力,嚴重限制了資源和專業知識有限的研究人員使用。于是字節提出 SuperClass 方法,直接利用分詞后的原始文本作為監督分類標簽,無需額外的文本過濾或篩選,比 CLIP 具有更高的訓練效率。

項目地址:https://github.com/x-cls/superclass

01、方法介紹

圖片


上圖是SuperClass和CLIP的對比圖,與對比學習的CLIP不同,SuperClass的主要思想是直接利用分詞的原始文本作為監督分類標簽。

在模型結構上,SuperClass使用Vision Transformer (ViT) 作為視覺編碼器,并在其后添加全局平均池化層和線性層作為分類頭,輸出logit向量 x。監督目標來源于與圖像關聯的文字,并通過文本衍生的分類標簽計算分類損失。

下面簡單介紹下模型相關的幾個主要部分:

文本作為標簽

SuperClass直接將分詞后的文本用作K-hot標簽,其中K是給定句子中的標記數量。即,對于一個包含N對圖像I和文本標題T的數據集圖片,SuperClass直接使用現有的子詞級分詞器如CLIP或BERT(詞匯表大小為V)對文本進行分詞,得到對應的子詞ID集合C作為分類標簽,并將其轉換為K-hot向量y(當c在集合C中時圖片,否則圖片)。這種方法無需預處理或手動設置閾值,避免了先前方法可能遇到的詞匯表溢出問題。

分類損失

SuperClass的主要目標是預訓練視覺編碼器而非優化多標簽分類精度,在多標簽場景中,SuperClass 采用 Softmax 損失(通過概率方式表示標簽),并評估了包括 Softmax、BCE、soft margin、ASL 和 two - way 等多種損失函數,結果發現簡單的 Softmax 損失取得了最佳預訓練效果。這可能是因為當前多標簽分類損失建立在標簽精確且完整的假設基礎上,努力優化正負類別之間的間隔。然而,圖像-文本數據中存在固有噪聲,且文本在完整描述圖像內容方面的局限性,意味著圖像中所有對象并不總在配對文本中被提及。

損失函數定義如下:

圖片

其中圖片是歸一化加權標簽。

逆文檔頻率(IDF)作為類別權重

在子詞詞匯表中,每個詞都承載著不同程度的信息量,不同類別之間并非同等重要。此外,考慮到子詞詞典中包含許多語句常見詞,這些詞與視覺內容無關,并不能提供有效的監督信息。

因此,攜帶大量信息的詞在訓練過程中應被賦予更大權重。SuperClass使用逆文檔頻率(Inverse Document Frequency 或 IDF )來衡量信息量,IDF 包含特定詞的樣本數量越少,該詞區分不同樣本的能力就越強。

SuperClass使用每個類別(子詞)的IDF統計作為相應分類標簽的權重,賦予不同類別不同的權重圖片

圖片

其中∣D∣表示圖像-文本對的總數,df(c)是子詞c的文檔頻率,即包含子詞c的文本數量。為了提高易用性和便攜性,SuperClass實現了在線IDF統計,這些統計是在訓練過程中計算的,消除了預先離線統計的需求。

特定詞:從文本描述中提取出來并用于構建分類任務的子詞單元,它們根據自身的文檔頻率來決定各自的信息價值,并據此影響模型訓練過程中的重要性分配。

文檔頻率(Document Frequency, df(c)):對于每一個特定詞(即子詞),其文檔頻率是指在整個訓練數據集中包含該詞的文本數量。如果一個特定詞出現在很多文本中,那么它的df值就會很高;反之,若它只出現在少數文本里,則df值較低。

02、實驗結果

由于不需要文本編碼器和構建巨大的相似性矩陣,SuperClass 可以節省大約 50% 的顯存使用,加速 20% 以上。

為了更好度量預訓練得到的視覺表征能力,文中固定住訓練好的視覺模型的參數,將其應用到 Linear probing 、zero-shot 、10-shot 等分類任務,同時接入到 LLM 做視覺和語言多模態下游任務進行評測。

所有實驗中均采用和 CLIP 相同的模型和訓練參數設置,使用dataset數據集的一個標準子集進行預訓練,包含約13億個圖像-文本對。

與不同類型預訓練方法比較

結果顯示,SuperClass 在各種模型大小和數據規模都取得不錯的精度。與其他無監督方法相比(包括基于對比或聚類的方法、基于重構的方法和視覺-語言預訓練方法), SuperClass 由于依靠語義信息作為監督,訓練數據多樣,在各種圖像分類數據集和不同分類任務上均取得更好精度,能夠實現更好的視覺表征

與 CLIP 相比,SuperClass 在使用相同數據集的訓練參數設置下,圖像分類精度也基本優于 CLIP 模型,比如 ImageNet linear probing 分類,SuperClass 比 CLIP 高 1.1% (85.0 vs. 83.9) 。考慮到 SuperClass 無需文本編碼器和構建大規模 Batch Size ,使其更加適合應用于大模型預訓練場景。

圖片

圖片

圖片

與CLIP進一步比較

CLIP 廣泛應用的另一個場景是多模態理解,作為多模態大模型中的視覺編碼器,展現了很好的跨模態能力。在預訓練過程中,SuperClass 的特征也對齊到了文本空間,同樣可應用于多模態理解任務中。

本文采用了 2 種大語言模型,按照 clipcap 中的設置,使用 GPT-2 作為 Decoder ,在 COCO captions 上評估 image captioning 能力。根據表 3 的結果所示,SuperClass 取得了略優于 CLIP 的 CIDEr 結果。根據表11的結果, SuperClass 在更多的多模態下游任務同樣也取得了更好的精度??偟膩碚f,SuperClass具備更好的跨模態能力

圖片

圖片

模型縮放能力

實驗對比了 SuperClass 和 CLIP 在不同的模型大小和不同的數據規模下的精度,在純視覺任務和多模態下游任務上,SuperClass 和 CLIP 具有相似的 Scalability ;在 Text-VQA 任務上,SuperClass 明顯取得了比 CLIP 更好的精度和 Scalability。

  • 模型規模的影響:圖2頂部行展示了不同模型規模下的分類和視覺-語言任務性能。隨著模型規模的增加,無論是分類任務還是LLaVA下游任務,性能都有所提升。通常來說,給定相同的模型規模,使用SuperClass預訓練的模型比CLIP具有更高的精度。
  • 數據規模的影響:圖2底部行展示了不同訓練樣本量下的性能變化。隨著觀察到的樣本數量增加,分類和下游任務的性能都有顯著提高。在相同數量的觀察樣本下,使用SuperClass預訓練的模型通常比CLIP具有更高的準確性,并且在下游任務上表現出相同或略好的擴展行為。
    圖片

消融實驗 (Ablations)

詞級分詞器 vs. 子詞級分詞器:表4展示了兩種分詞器在幾個下游任務上的性能差異。對于較小的模型(如ViT-S/16),詞級分詞器在分類任務上的表現優于子詞級分詞器,可能是因為當模型容量有限時,干凈的監督信息更有助于收斂。然而,隨著模型規模的增大,無論是在分類任務還是視覺-語言任務上,子詞級分詞器逐漸超過了詞級分詞器

圖片

不同的子詞級分詞器:表5比較了幾種子詞級分詞器(如CLIP、WordPiece、SentencePiece)在分類任務和LLaVA下游任務上的表現。最終選擇了CLIP中使用的分詞器

圖片

分類損失函數的選擇:表6展示了不同分類損失函數(如Softmax、BCE、ASL、soft margin、two - way)的效果。最簡單的Softmax損失在多標簽場景下大幅超越了其他損失函數。作者認為這是因為現有的多標簽分類損失假設標簽既準確又詳盡,而實際的圖像-文本數據存在大量噪聲,單個文本無法捕捉所有圖像內容。

圖片

IDF權重的作用:表7探討了是否使用IDF作為類別權重以及移除停用詞的影響。結果顯示,使用IDF權重可以顯著提高分類任務的準確性,而在視覺-語言任務上的影響不大。保留停用詞有助于視覺編碼器在分類任務上獲得更好的性能。

圖片

不同觀察樣本量的影響:表8展示了不同觀察樣本量對分類和視覺-語言任務性能的影響。隨著觀察樣本量的增加,尤其是在分類和LLaVA下游任務上,模型的性能有明顯提升。

圖片

不同模型規模的影響:表9展示了不同模型規模對分類和視覺-語言任務性能的影響。隨著模型規模的增加,無論是分類任務還是LLaVA下游任務,性能都有所提升。通常來說,給定相同的模型規模,使用SuperClass預訓練的模型比CLIP具有更高的精度。

圖片

03、總結

最后瞎寫幾句,從信息論的角度,SuperClass通過將每個子詞視為一個類別標簽,并賦予相應的權重(如IDF),實際上是在最大化圖像特征與這些子詞之間的互信息?;バ畔(X;Y) 是衡量兩個隨機變量之間關聯程度的一個度量,它反映了觀察到一個變量后能減少另一個變量不確定性的程度。具體來說,當模型學習到某個特定子詞時,就意味著減少了對于該子詞所代表概念在圖像中的不確定性。因此,通過這種方式,SuperClass確保了那些出現頻率較低但信息量較大的詞匯得到了足夠的重視,從而增強了模型對于圖像內容的理解能力。

相比之下,對比學習通常涉及構造正負樣本對,并通過最小化正樣本間的距離同時最大化負樣本間的距離來進行優化。這種做法雖然有助于提高模型的區分能力,但也引入了一定程度上的間接性。也就是說,模型不僅要學會正確地區分正負樣本,還要理解這些樣本背后隱藏的關系。而在SuperClass中,由于直接使用了文本令牌作為監督信號,信息傳遞變得更加直接和明確。模型可以直接從輸入數據中提取有用信息,并將其映射到相應的類別標簽上,減少了中間環節所帶來的不確定性。

很有意思的一篇工作,SuperClass作為一種極其簡單有效的方法,在預訓練視覺編碼器方面不僅能夠實現與對比學習方法相媲美的性能,而且在計算效率和擴展性方面也表現出色。這些結果為視覺和多模態相關的任務提供了有力支持。

責任編輯:龐桂玉 來源: 小白學AI算法
相關推薦

2025-04-07 03:30:00

2025-04-08 04:20:00

2025-04-08 03:00:00

2025-04-07 05:30:00

2025-04-10 11:52:55

2025-04-11 00:16:00

模態編碼器MAECLIP

2025-04-09 02:10:00

模態編碼器SigLIP多模態

2021-03-22 10:52:13

人工智能深度學習自編碼器

2021-11-02 20:44:47

數字化

2021-03-29 11:37:50

人工智能深度學習

2025-02-28 10:15:00

3D模型編碼器

2025-04-07 06:30:00

2012-04-01 16:40:45

編碼器

2012-04-10 16:55:22

PowerSmart編碼器

2024-07-16 13:18:36

2023-04-25 21:36:07

火山引擎

2025-04-07 04:30:00

2022-07-28 12:18:40

視覺語言模型

2020-04-26 11:26:02

人臉合成編碼器數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产9999精品 | 欧美午夜精品理论片a级按摩 | 犬夜叉在线观看 | 最新一级毛片 | 狠狠骚 | 国产精品免费看 | 精品免费国产视频 | 看一级黄色毛片 | 日韩国产一区二区三区 | 亚洲精品在线看 | 91麻豆精品国产91久久久久久久久 | 久草在线青青草 | 精品国产欧美一区二区三区成人 | 九九久久免费视频 | 中文字幕亚洲视频 | 91嫩草精品 | 国产精品96久久久久久 | 羞羞视频网站免费观看 | 国产一级网站 | 午夜小视频在线观看 | 51ⅴ精品国产91久久久久久 | 久久久这里只有17精品 | 久久精品中文 | 国产精品久久久久久久久久免费看 | 日韩欧美久久精品 | 日韩精品二区 | av色噜噜 | 一区二区三区回区在观看免费视频 | 天天操天天射天天 | 国产精品影视在线观看 | 色天天综合 | 国产精品久久久久影院色老大 | 综合久久亚洲 | 久久精品视频网站 | 亚洲一区二区久久 | 国产午夜精品久久久 | 亚洲精品一区中文字幕乱码 | 成人国产精品久久久 | 一级片免费在线观看 | 亚洲欧美在线一区 | 日韩成人免费视频 |