模態編碼器 | ALIGN,通過大規模嘈雜數據集訓練的視覺語言模型
簡單看一下Google早期的一篇工作ALIGN,發表在2021 ICML上。
研究動機:傳統的視覺語言表示學習通常在手動標注的大規模數據集上進行訓練,需要大量的預先處理和成本。ALIGN利用網絡上摘取的HTML頁面和alt-text標簽,構建了一個18億對圖像-文本的嘈雜數據集,從而在不需要昂貴的數據過濾的情況下,實現高效的學習。
01 、數據集構建
這項工作的重點是遵循構建Conceptual Captions數據集的方法,創建了一個更大規模的圖像-文本數據集(18億的圖像文本對)。Conceptual Captions數據集進行了大量的數據過濾和后處理工作,與其相比,ALIGN 數據集采用了更簡單的頻率過濾方法,從而保留了更多噪聲數據。
ALIGN 數據集過濾
基于圖像的過濾:移除色情圖像;保留短邊大于200像素且寬高比小于3的圖像;丟棄與超過1000個alt-texts關聯的圖像;移除測試集中的重復或近似重復的圖像。
基于文本的過濾:排除被多于10個圖像共享的alt-texts,這些通常與圖像內容無關;丟棄包含罕見詞匯(在原始數據集中100百萬最頻繁的單字和雙字之外)的alt-texts;移除過短(少于3個單字)或過長(超過20個單字)的alt-texts。
Conceptual Captions數據集構建步驟
- 數據來源:
Web 數據爬?。簲祿膱D像和標題主要來源于互聯網上的圖片,特別是帶有alt
標簽的圖像。alt
標簽通常用于描述圖像內容,以便在圖像無法加載時提供替代文本。
Common Crawl:具體來說,數據集使用了 Common Crawl 的網頁抓取數據,這是一個開放的、大規模的網頁抓取數據庫。 - 初步篩選:
圖像質量檢查:移除質量較差的圖像,例如尺寸過?。ǘ踢呅∮?200 像素)、長寬比過大(大于 3)的圖像。
重復圖像移除:移除重復或近似重復的圖像,以避免數據冗余。 - 標題質量檢查:
長度篩選:移除過短或過長的標題,確保標題具有一定的描述性。
語言檢查:確保標題是英文的,并且語法和拼寫正確。
內容相關性:通過自然語言處理技術檢查標題與圖像內容的相關性,移除不相關的標題。 - 人工審核:
質量控制:通過人工審核進一步確保圖像和標題的質量,移除不適當或無關的內容。
多樣性增強:人工審核還可以幫助增加數據集的多樣性,確保覆蓋各種主題和場景。 - 最終清洗:
去噪:通過一系列自動和手動的方法進一步去除噪聲數據,確保數據集的高質量。
平衡:調整數據集中的類別分布,使其更加平衡,避免某些類別的過度代表。
02、模型架構
雙編碼器架構:模型由兩個編碼器組成,一個是圖像編碼器,另一個是文本編碼器。這兩個編碼器通過一個對比損失函數進行聯合訓練,以對齊圖像和文本的表示。
- 圖像編碼器:使用EfficientNet作為基礎模型,通過全局池化層提取特征(不訓練分類頭中的1x1卷積層)。
- 文本編碼器:使用BERT作為基礎模型,通過[CLS]標記的嵌入來獲取文本的表示。詞匯表是通過訓練數據生成的100k詞片(wordpieces)。
- 維度對齊:在BERT編碼器的輸出上添加一個全連接層,以匹配圖像編碼器的輸出維度。
對比損失函數:模型使用歸一化的softmax損失函數進行優化。在訓練過程中,匹配的圖像-文本對被視為正樣本,而同一個批次中隨機配對的圖像-文本對被視為負樣本。
03、實驗結果
Crisscrossed Captions (CxC) 數據集用于評估模型在跨模態檢索任務中的表現,特別是圖像到文本 (image-to-text) 和文本到圖像 (text-to-image) 檢索。ALIGN 在多個跨模態檢索任務中表現出色。
STS 任務的目標是測量兩個文本片段之間的語義相似度。這個任務通常用于評估模型在理解文本語義方面的表現。
SIS 任務的目標是測量兩張圖片之間的語義相似度。這個任務用于評估模型在理解圖像內容方面的表現。
SITS 任務的目標是測量一張圖片和一段文本之間的語義相似度。這個任務用于評估模型在理解和匹配不同模態(圖像和文本)之間的語義關系方面的能力。
Spearman 相關系數用于衡量兩個變量之間的單調關系,這里用來評估模型在不同任務上的表現一致性。
ALIGN 在所有子任務上的平均得分最高,尤其是 SITS 任務上,比前一個最佳模型提高了 5.7%。然而,ALIGN 在 STS 和 SIS 任務上的表現不如 VSE++ 和 DEI2T,這可能是因為 ALIGN 的訓練目標主要集中在跨模態匹配上,而不是同模態匹配。
在零樣本分類任務中,ALIGN 表現穩健,在傳統的圖像分類任務中,ALIGN 達到了與現有最佳模型相當甚至更好的性能,同時在計算效率上更具優勢。
VTAB 是一個包含 19 個任務的多任務基準,用于評估模型在各種視覺任務上的泛化能力。ALIGN 在多任務基準 VTAB 上表現優秀,顯示出其在多種視覺任務上的強大泛化能力。
在細粒度分類任務中,ALIGN 雖然在某些任務上略遜于最先進的模型,但總體表現仍然非常出色。
04、總結
google一貫作風,大力出奇跡。證明了帶有Noise data的數據只要規模夠大,也是可以促進模型的學習。