Meta 推 WebSSL 模型：探索 AI 無語言視覺學(xué)習(xí)，純圖訓(xùn)練媲美 OpenAI CLIP

作者：故淵 2025-04-25 11:55:46

Meta 公司發(fā)布 WebSSL 系列模型，參數(shù)規(guī)模從 3 億到 70 億，基于純圖像數(shù)據(jù)訓(xùn)練，旨在探索無語言監(jiān)督的視覺自監(jiān)督學(xué)習(xí)（SSL）的潛力。

科技媒體 marktechpost 發(fā)布博文，報道稱 Meta 公司發(fā)布 WebSSL 系列模型，參數(shù)規(guī)模從 3 億到 70 億，基于純圖像數(shù)據(jù)訓(xùn)練，旨在探索無語言監(jiān)督的視覺自監(jiān)督學(xué)習(xí)（SSL）的潛力。

以 OpenAI 的 CLIP 為代表，對比語言-圖像模型已成為學(xué)習(xí)視覺表征的默認(rèn)選擇，在視覺問答（VQA）和文檔理解等多模態(tài)任務(wù)中表現(xiàn)突出。不過受到數(shù)據(jù)集獲取的復(fù)雜性和數(shù)據(jù)規(guī)模的限制，語言依賴面臨諸多挑戰(zhàn)。

Meta 公司針對上述痛點，在在 Hugging Face 平臺上發(fā)布了 WebSSL 系列模型，涵蓋 DINO 和 Vision Transformer（ViT）架構(gòu)，參數(shù)規(guī)模從 3 億到 70 億不等。

這些模型僅使用 MetaCLIP 數(shù)據(jù)集（MC-2B）中的 20 億張圖像子集進(jìn)行訓(xùn)練，排除了語言監(jiān)督的影響。Meta 的目標(biāo)并非取代 CLIP，而是通過控制變量，深入評估在不受數(shù)據(jù)和模型規(guī)模限制下，純視覺自監(jiān)督學(xué)習(xí)（SSL）的表現(xiàn)潛力。

WebSSL 模型采用兩種視覺自監(jiān)督學(xué)習(xí)范式：聯(lián)合嵌入學(xué)習(xí)（DINOv2）和掩碼建模（MAE）。訓(xùn)練統(tǒng)一使用 224×224 分辨率圖像，并凍結(jié)視覺編碼器以確保結(jié)果差異僅源于預(yù)訓(xùn)練策略。

模型在五個容量層級（ViT-1B 至 ViT-7B）上訓(xùn)練，評估基于 Cambrian-1 基準(zhǔn)測試，覆蓋通用視覺理解、知識推理、OCR 和圖表解讀等 16 個 VQA 任務(wù)。此外，模型無縫集成于 Hugging Face 的 transformers 庫，便于研究和應(yīng)用。

實驗揭示了多項關(guān)鍵發(fā)現(xiàn)：隨著參數(shù)規(guī)模增加，WebSSL 模型在 VQA 任務(wù)上的表現(xiàn)接近對數(shù)線性提升，而 CLIP 在超過 30 億參數(shù)后性能趨于飽和。

WebSSL 在 OCR 和圖表任務(wù)中表現(xiàn)尤為突出，尤其在數(shù)據(jù)篩選后，僅用 1.3% 的富文本圖像訓(xùn)練即超越 CLIP，在 OCRBench 和 ChartQA 任務(wù)中提升高達(dá) 13.6%。

此外，高分辨率（518px）微調(diào)進(jìn)一步縮小了與 SigLIP 等高分辨率模型的差距，在文檔任務(wù)中表現(xiàn)尤為出色。

WebSSL 模型在無語言監(jiān)督下仍展現(xiàn)出與預(yù)訓(xùn)練語言模型（如 LLaMA-3）的良好對齊性，表明大規(guī)模視覺模型能隱式學(xué)習(xí)與文本語義相關(guān)的特征。

同時，WebSSL 在傳統(tǒng)基準(zhǔn)測試（如 ImageNet-1k 分類、ADE20K 分割）上保持強(qiáng)勁表現(xiàn)，部分場景甚至優(yōu)于 MetaCLIP 和 DINOv2。

IT之家附上參考地址

Scaling Language-Free Visual Representation Learning
Hugging Face
GitHub

責(zé)任編輯：姜華來源： IT之家

WebSSL 視覺問答圖像模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Meta 推 WebSSL 模型：探索 AI 無語言視覺學(xué)習(xí)，純圖訓(xùn)練媲美 OpenAI CLIP