成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

模態編碼器 | ALIGN，通過大規模嘈雜數據集訓練的視覺語言模型

作者：Goldma 2025-04-11 02:00:00

ALIGN利用網絡上摘取的HTML頁面和alt-text標簽，構建了一個18億對圖像-文本的嘈雜數據集，從而在不需要昂貴的數據過濾的情況下，實現高效的學習。

簡單看一下Google早期的一篇工作ALIGN，發表在2021 ICML上。

研究動機：傳統的視覺語言表示學習通常在手動標注的大規模數據集上進行訓練，需要大量的預先處理和成本。ALIGN利用網絡上摘取的HTML頁面和alt-text標簽，構建了一個18億對圖像-文本的嘈雜數據集，從而在不需要昂貴的數據過濾的情況下，實現高效的學習。

01 、數據集構建

這項工作的重點是遵循構建Conceptual Captions數據集的方法，創建了一個更大規模的圖像-文本數據集（18億的圖像文本對）。Conceptual Captions數據集進行了大量的數據過濾和后處理工作，與其相比，ALIGN 數據集采用了更簡單的頻率過濾方法，從而保留了更多噪聲數據。

ALIGN 數據集過濾

基于圖像的過濾：移除色情圖像；保留短邊大于200像素且寬高比小于3的圖像；丟棄與超過1000個alt-texts關聯的圖像；移除測試集中的重復或近似重復的圖像。

基于文本的過濾：排除被多于10個圖像共享的alt-texts，這些通常與圖像內容無關；丟棄包含罕見詞匯（在原始數據集中100百萬最頻繁的單字和雙字之外）的alt-texts；移除過短（少于3個單字）或過長（超過20個單字）的alt-texts。

Conceptual Captions數據集構建步驟

數據來源：
Web 數據爬?。簲祿膱D像和標題主要來源于互聯網上的圖片，特別是帶有 alt 標簽的圖像。alt 標簽通常用于描述圖像內容，以便在圖像無法加載時提供替代文本。
Common Crawl：具體來說，數據集使用了 Common Crawl 的網頁抓取數據，這是一個開放的、大規模的網頁抓取數據庫。
初步篩選：
圖像質量檢查：移除質量較差的圖像，例如尺寸過?。ǘ踢呅∮?200 像素）、長寬比過大（大于 3）的圖像。
重復圖像移除：移除重復或近似重復的圖像，以避免數據冗余。
標題質量檢查：
長度篩選：移除過短或過長的標題，確保標題具有一定的描述性。
語言檢查：確保標題是英文的，并且語法和拼寫正確。
內容相關性：通過自然語言處理技術檢查標題與圖像內容的相關性，移除不相關的標題。
人工審核：
質量控制：通過人工審核進一步確保圖像和標題的質量，移除不適當或無關的內容。
多樣性增強：人工審核還可以幫助增加數據集的多樣性，確保覆蓋各種主題和場景。
最終清洗：
去噪：通過一系列自動和手動的方法進一步去除噪聲數據，確保數據集的高質量。
平衡：調整數據集中的類別分布，使其更加平衡，避免某些類別的過度代表。

02、模型架構

雙編碼器架構：模型由兩個編碼器組成，一個是圖像編碼器，另一個是文本編碼器。這兩個編碼器通過一個對比損失函數進行聯合訓練，以對齊圖像和文本的表示。

圖像編碼器：使用EfficientNet作為基礎模型，通過全局池化層提取特征（不訓練分類頭中的1x1卷積層）。
文本編碼器：使用BERT作為基礎模型，通過[CLS]標記的嵌入來獲取文本的表示。詞匯表是通過訓練數據生成的100k詞片（wordpieces）。
維度對齊：在BERT編碼器的輸出上添加一個全連接層，以匹配圖像編碼器的輸出維度。

對比損失函數：模型使用歸一化的softmax損失函數進行優化。在訓練過程中，匹配的圖像-文本對被視為正樣本，而同一個批次中隨機配對的圖像-文本對被視為負樣本。

03、實驗結果

Crisscrossed Captions (CxC) 數據集用于評估模型在跨模態檢索任務中的表現，特別是圖像到文本 (image-to-text) 和文本到圖像 (text-to-image) 檢索。ALIGN 在多個跨模態檢索任務中表現出色。

STS 任務的目標是測量兩個文本片段之間的語義相似度。這個任務通常用于評估模型在理解文本語義方面的表現。

SIS 任務的目標是測量兩張圖片之間的語義相似度。這個任務用于評估模型在理解圖像內容方面的表現。

SITS 任務的目標是測量一張圖片和一段文本之間的語義相似度。這個任務用于評估模型在理解和匹配不同模態（圖像和文本）之間的語義關系方面的能力。

Spearman 相關系數用于衡量兩個變量之間的單調關系，這里用來評估模型在不同任務上的表現一致性。

ALIGN 在所有子任務上的平均得分最高，尤其是 SITS 任務上，比前一個最佳模型提高了 5.7%。然而，ALIGN 在 STS 和 SIS 任務上的表現不如 VSE++ 和 DEI2T，這可能是因為 ALIGN 的訓練目標主要集中在跨模態匹配上，而不是同模態匹配。

在零樣本分類任務中，ALIGN 表現穩健，在傳統的圖像分類任務中，ALIGN 達到了與現有最佳模型相當甚至更好的性能，同時在計算效率上更具優勢。

VTAB 是一個包含 19 個任務的多任務基準，用于評估模型在各種視覺任務上的泛化能力。ALIGN 在多任務基準 VTAB 上表現優秀，顯示出其在多種視覺任務上的強大泛化能力。

在細粒度分類任務中，ALIGN 雖然在某些任務上略遜于最先進的模型，但總體表現仍然非常出色。

04、總結

google一貫作風，大力出奇跡。證明了帶有Noise data的數據只要規模夠大，也是可以促進模型的學習。

責任編輯：龐桂玉來源：小白學AI算法

模態編碼器 ALIGN 視覺語言模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：久久伊人青青草 | 日本久久黄色 | 欧美一区二区在线播放 | 欧美激情va永久在线播放 | 国产亚洲欧美另类一区二区三区 | 精品www| 网址黄| 国产中文在线观看 | 在线免费激情视频 | 欧美日韩一区二区在线 | 国产精品天堂 | 国产一级免费在线观看 | 日韩精品一区二区三区中文在线 | 一区二区三区在线电影 | 亚洲精品乱码 | 国产精品99久久久精品免费观看 | 欧美成人一区二免费视频软件 | 一区二区三区四区国产 | 女女爱爱视频 | 在线观看av网站永久 | 久久9视频 | 成人黄色在线观看 | 国产精品国产a级 | 观看av| 蜜臀网| 一级毛片视频 | 祝你幸福电影在线观看 | 成人深夜小视频 | 九色一区 | 一级一片在线观看 | 99热热热热| 一区二区国产在线 | 人人做人人澡人人爽欧美 | 中文字幕一区二区三区精彩视频 | 一级欧美黄色片 | 久久久91| 国产午夜三级一区二区三 | 五月综合激情婷婷 | 亚洲中文欧美 | 成人国产精品入口免费视频 | 久久久精品一区 |