模態編碼器 | 最強CLIP模型EVA-CLIP-18B
來自智源王鑫龍團隊的工作,將EVA-CLIP模型參數擴展至18B,簡單看下結果,EVA-CLIP-18B性能遠超其他模型。
項目地址:https://github.com/baaivision/EVA
這篇工作的研究動機旨在解決當前多模態模型發展中的兩個關鍵問題。首先,隨著大型語言模型(LLMs)參數量的增長至千億級別,與其配套的視覺基礎模型卻未能同步擴展,這種不對等限制了多模態應用的整體效能。其次,現有的頂級CLIP模型雖然在特定任務中表現出色,但它們依賴難以獲取的大規模內部數據集進行訓練,并且在零樣本學習等挑戰性任務上的表現還有待提高。
01、方法介紹
這篇論文最大的核心貢獻是提出了一種“弱到強”(weak-to-strong)的視覺模型縮放方法,通過逐步增大的模型規模來持續提升視覺模型的性能。這種方法的核心思想是從一個較小的初始模型開始,逐步訓練更大的模型,從而實現性能的穩步提升。
簡單來說,從一個大的EVA視覺模型開始,它從一個小的EVA-CLIP模型中提取知識,然后這個小模型作為視覺編碼器初始化,以穩定和加速更大EVA-CLIP模型的訓練。之后,閉環擴展循環繼續進行,從中提取出更大的EVA模型。在整個模型擴展周期中,訓練數據集保持相對固定,以展示特定于模型規模擴展的有效性。
- 初始模型的選擇
小模型作為教師:選擇了一個較小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作為教師模型。這個小模型經過預訓練,能夠生成高質量的圖像-文本對齊特征。
大模型作為學生:使用一個較大的EVA模型(EVA-18B)作為學生模型,通過知識蒸餾(knowledge distillation)從教師模型中學習。 - 訓練過程
大模型(EVA-18B)通過重建小模型(EVA-02-CLIP-E/14+)生成的掩碼圖像-文本對齊特征來進行訓練。這種訓練方式有助于大模型學習到小模型中的關鍵特征,同時避免過擬合。小模型生成的特征用于初始化大模型的視覺編碼器,這有助于穩定和加速大模型的訓練過程。
隨后,利用EVA模型作為EVA-CLIP預訓練的視覺編碼器初始化,使用圖像-文本對比學習目標訓練。 - 循環縮放
在訓練完一個較大規模的模型后,可以將其用作下一個更大模型的教師模型,繼續進行知識蒸餾。這一過程形成了一個閉環的縮放循環,逐步提升模型的性能。 - 數據集
EVA-CLIP-18B基于公開可用的數據集LAION-2B和COYO-700M進行訓練,這些數據集的規模遠小于其他最先進CLIP模型所使用的內部數據集(如DFN-5B和WebLI-10B)。
02、實驗結果
零樣本圖像分類
EVA-CLIP在所有27個零樣本圖像分類基準測試中表現出色。EVA-CLIP-18B在所有27個基準測試中平均達到了80.7%的top-1準確率。這些結果顯著優于之前最佳的開源DFN5B-CLIP-H/14+(提高了+1.5%),以及現有的最大CLIP模型InternVL-C(提高了+2.7%)。
零樣本圖像-文本檢索
EVA-CLIP-18B在所有檢索基準測試中平均召回率為87.8%,顯著優于其他模型
零樣本視頻分類
魯棒性
通過擴展EVA-CLIP顯著增強了視覺表示的魯棒性。EVA-CLIP在ImageNet變體(包括對抗性樣本)之間的性能下降最小
Linear Probing
ImageNet-1K上的線性探測(Linear Probing)是一種評估預訓練模型特征提取能力的方法。這個任務的目的是測試一個模型在沒有經過特定任務微調(fine-tuning)的情況下,直接在一個新的數據集上的表現。
通過在相同的測試集上進行線性探測,可以比較不同預訓練模型的性能,了解哪個模型能更好地捕捉到對后續任務有用的特征。
3D表示
消融
視頻數據:消融研究表明,將視頻數據納入訓練可以顯著提高模型在視頻分類任務上的性能,這表明視頻數據為模型提供了額外的信息,有助于改善其對動作和事件的理解。
圖像分辨率:提高圖像分辨率可以提升模型的零樣本性能,因為更高分辨率的圖像提供了更多的細節信息,有助于模型更好地學習和泛化。
03、總結
很有意思的一篇文章,雖然文章很短,但是從弱到強的視覺模型縮放思想,對模型進行漸進式擴展,這種方式不僅模型訓練穩定并且性能也在持續提高,非常巧妙一個訓練方法。在大模型時代,可能非常值得實驗。