字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

Crystalcxt

發布于 2024-4-28 09:54

瀏覽

0收藏

視覺語言模型屢屢出現新突破，但ViT仍是圖像編碼器的首選網絡結構。

字節提出新基礎模型——ViTamin，專為視覺語言時代設計。

字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024-AI.x社區

在使用相同的數據集和訓練方案時，ViTamin在ImageNet零樣本準確率上比ViT提高了2.0%。

此外在分類、檢索、開放詞匯檢測和分割、多模態大語言模型等60個不同基準上都表現出了良好的結果。

當進一步擴展參數規模時，ViTamin-XL僅有436M參數，卻達到了82.9%的ImageNet零樣本準確率，超過了擁有十倍參數（4.4B）的EVA-E。

最終這一成果，入選計算機視覺頂會CVPR2024。

視覺語言時代新基準

在視覺語言時代下，如何設計一個更好可擴展的視覺模型？

在ImageNet時代，新的視覺模型在ImageNet數據集得以驗證，也造就了不斷有新的視覺模型涌現。但在視覺語言時代，新的視覺模型鮮為人見。

此外，基于現有常見視覺模型，在面對比ImageNet數據規模還大的情況下表現又是如何？研究團隊們測試了幾種常見模型，包括純Transformer的ViT，純卷積網絡的ConvNeXt，以及混合卷積和Transformer的CoAtNet。

最終在一個公開的數據集上進行了系統性的訓練和比較，得出了一些關鍵發現：

第一，模型的擴展性：由于可擴展的自注意力機制，ViT能最好地適應不同規模的任務。
第二，數據的擴展性：隨著訓練數據的增加，所有模型的性能都有所提升。
第三，特征的分辨率：在訓練過程中，模型需要理解更廣泛的信息，而不僅僅是簡單的類別標簽。因此，提取的特征的分辨率對模型的預測能力有很大影響。
第四，混合架構：在一般情況下，CoAtNet表現優于其他模型，但將其擴展到處理數十億數據可能會有一些挑戰。

基于這些發現，研究人員設計了ViTamin模型。

它采用了三個階段的混合架構。前兩個階段使用了輕量級的MBConv Blocks，第三個階段包含了可擴展的Transformer Blocks。

字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024-AI.x社區

具體來說，一張圖片首先經過卷積stem處理，得到2倍降采樣的特征圖。

然后，這個特征圖經過第一階段，由兩個MBConv-LN Blocks組成，接著經過第二階段，由四個MBConv-LN Blocks組成，然后降采樣得到16倍降采樣的二維特征。

接下來，這些特征被展平成一維，并輸入到第三階段，該階段由N_B個TFB-GeGLU Block組成。最后，通過對比圖像特征和語言特征，來學習對比損失函數。

作者們致力于簡單有效的scaling law，只考慮模型的寬度C和模型第三階段的深度N_B，因此在scaling到更大的模型中，通過模型的參數規模可以直接反推需要多大的寬度和深度，進而實現模型的scaling。

多項SOTA

在零樣本性能上面，研究結果顯示，ViTamin-L的零樣本ImageNet準確率比ViT-L/14高出了2.0%。

字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024-AI.x社區

當將特征分辨率增加到576個patch時，ViTamin-L的準確率進一步提高到了81.8%，比之前的ViT-L/14 CLIPA-v2高出了1.5%。在38個數據集的平均性能上，ViTamin-L比ViT-H/14模型高出了0.4%，而且參數數量只有ViT-H/14的一半。

此外，當進一步擴大模型規模時，參數量為436M的ViTamin-XL達到了82.9%的ImageNet零樣本準確率，超過了4.4B參數量的EVA-E取得的82.0%。

作者們進一步驗證了ViTamin模型對下游任務而言是個強大的視覺編碼器。

作者們引入了一系列下游任務，包括開放詞匯檢測和分割，以及多模態大模型（LMMs）。

ViTamin在開放詞匯檢測任務OV-LVIS上，相比比ViT-L模型能提高了3.1%。ViTamin在8個開放詞匯分割任務中，相比ViT-L平均提升了2.6%。

ViTamin能直接遷移到多模態大模型諸如LLaVA上，并在12個多模態問答等基準上表現出色。值得注意的是，ViTamin在7個開放詞匯分割基準上創造了新SOTA。

在這項工作中，作者們建立了主流視覺模型在視覺語言情境下的評估基準，并對它們進行了重新基準測試。作者們從數據可擴展性、模型可擴展性、特征分辨率和混合架構四個方面考察了主流的視覺模型。

字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024-AI.x社區

這四個方面的關鍵發現為ViTamin的設計提供指導，ViTamin模型不僅在零樣本ImageNet準確率和平均38個數據集準確率方面全面超越ViT，而且在包括開放詞匯檢測和分割以及大型多模態模型在內的22個下游任務上達到了最新的技術水平。

來自智能創作團隊

智能創作團隊是字節跳動 AI & 多媒體技術團隊，覆蓋了計算機視覺、音視頻編輯、特效處理等技術領域。

他們借助公司豐富的業務場景、基礎設施資源和技術協作氛圍，實現了前沿算法 - 工程系統 - 產品全鏈路的閉環，旨在以多種形式為公司內部各業務提供業界前沿的內容理解、內容創作、互動體驗與消費的能力和行業解決方案。

目前，智能創作團隊已通過字節跳動旗下的云服務平臺火山引擎向企業開放技術能力和服務。更多大模型算法相關崗位開放中。

論文鏈接：
???https://arxiv.org/pdf/2404.02132.pdf???
項目主頁:
???https://beckschen.github.io/vitamin??

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/tQl3bVSPpDWeqJmwpWzfhQ??

標簽

視覺

語言模型

贊

回復

舉報

回復

相關推薦

CVPR 2024 | 多模態大模型幻覺原因找到了！

zhangyannni ? 5229瀏覽 ? 0回復
還得是抖音，字節推出豎屏視頻理解數據集，入選CVPR2024

輕薄滴假象 ? 2874瀏覽 ? 0回復
CVPR 2024 Oral：生命之樹大模型

AIGC最前線 ? 4277瀏覽 ? 0回復
CVPR 2024 | 萬物皆可移動！SceneDiffusion：可控場景生成新SOTA!

angel ? 6119瀏覽 ? 0回復
CVPR 2024高分論文：全新生成式編輯框架GenN2N，統一NeRF轉換任務

輕薄滴假象 ? 3019瀏覽 ? 0回復
基于MoE的通用圖像融合模型，添加2.8%參數完成多項任務

輕薄滴假象 ? 2622瀏覽 ? 0回復
蘋果超強視覺預訓練模型助力下游任務拿SOTA！（分類、檢測、分割、深度估計）

angel ? 4459瀏覽 ? 0回復
ICML 2024：從視覺語言基礎模型反饋中進行強化學習

AIGC最前線 ? 4151瀏覽 ? 0回復
天大、南大發布LPSNet：無透鏡成像下的人體三維姿態與形狀估計 | CVPR 2024

duhorse ? 2531瀏覽 ? 0回復
谷歌開源TimesFM：1000億個時間點訓練，入選ICML 2024

duhorse ? 3177瀏覽 ? 0回復
超越CVPR 2024方法，DynRefer在區域級多模態識別任務上，多項SOTA

輕薄滴假象 ? 2409瀏覽 ? 0回復
微軟發布Florence-2：用于處理各種視覺任務的小模型

AIGC最前線 ? 4477瀏覽 ? 0回復
SEED-Bench：基于生成理解的多模態大語言模型基準測試（CVPR2024）

AIRoobt ? 6400瀏覽 ? 0回復
阿里達摩院最新多模態大模型介紹，多項圖文任務取得SOTA效果

海因斯DK ? 3004瀏覽 ? 0回復
支持20+視覺任務，多項SOTA！可擴展多任務視覺基礎模型LaVin-DiT：融合時空VAE與DiT

angel ? 2450瀏覽 ? 0回復
AI2驚艷發布OneDiffusion：突破性大規模擴散模型，支持多任務生成與理解，重塑視覺AI應用

angel ? 3207瀏覽 ? 0回復
CVPR 2025 | 低層交互破局！GIFNet實現多模態融合通用模型，單一框架橫掃多任務場景

angel ? 7569瀏覽 ? 0回復
AI鏡頭控制黑科技喜提多項SOTA！浙大&上交等發布統一多模態視頻生成框架OmniCam

angel ? 1552瀏覽 ? 0回復
快手12篇論文入選CVPR 2025！

快手技術 ? 746瀏覽 ? 0回復

Crystalcxt

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

字節發布視覺基礎模型ViTamin，多項任務實現SOTA，入選CVPR2024

視覺語言時代新基準

多項SOTA

來自智能創作團隊

目錄