Jina CLIP v2:為多模態(tài)RAG設(shè)計(jì)的向量模型 原創(chuàng)
多模態(tài)的數(shù)據(jù)通過(guò)統(tǒng)一的向量表示,可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的互相檢索或者理解轉(zhuǎn)換,是多模態(tài) AI 應(yīng)用的基石。Jina.ai最近推出了全新的通用多語(yǔ)言多模態(tài)向量模型 Jina CLIP v2,在實(shí)現(xiàn)強(qiáng)大跨模態(tài)檢索可能的同時(shí),也為多模態(tài)RAG應(yīng)用奠定了基礎(chǔ)。
Paper: https://arxiv.org/abs/2405.20204
Model: https://huggingface.co/jinaai/jina-clip-v2
概覽
Jina-CLIP V2 是一款通用的、多語(yǔ)言、多模態(tài)(文本與圖像) Embedding 模型
多模態(tài)embedding技術(shù)能夠通過(guò)一致的表示方式,實(shí)現(xiàn)跨不同模態(tài)的數(shù)據(jù)搜索和理解。Jina-CLIP V2 基于Jina-CLIP V1和我們最近發(fā)布的Jina-Embeddings V3構(gòu)建,帶來(lái)了幾項(xiàng)重大改進(jìn):
?? 性能提升:與V1相比,V2在文本-圖像和文本-文本檢索任務(wù)中展現(xiàn)了3%的性能提升。與V1類似,V2的文本編碼器可以作為一個(gè)有效的多語(yǔ)言長(zhǎng)文本密集檢索器。其性能與我們的前沿模型Jina-Embeddings V3相當(dāng)(目前是MTEB上最好的1B參數(shù)以下的多語(yǔ)言Embedding模型)。
?? 多語(yǔ)言支持:Jina-CLIP V2的文本部分使用了與Jina-Embeddings V3相同的架構(gòu),支持89種語(yǔ)言的多語(yǔ)言-圖像檢索,與nllb-clip-large-siglip相比,在多語(yǔ)言圖像檢索任務(wù)中顯示出高達(dá)4%的性能提升。
?? 更高圖像分辨率:Jina-CLIP V2現(xiàn)在支持512x512的輸入圖像分辨率,這是從V1的224x224的顯著提升。這一更高分辨率使得V2能夠更好地處理細(xì)節(jié)圖像,改進(jìn)特征提取,并更準(zhǔn)確地識(shí)別細(xì)粒度的視覺元素。
?? 可變維度輸出:Jina-CLIP V2引入了套娃式表示學(xué)習(xí)(Matryoshka Representation Learning,MRL)技術(shù),只需設(shè)置 dimensions 參數(shù),即可獲取指定維度的向量輸出,且在減少存儲(chǔ)成本的同時(shí),保持強(qiáng)大的性能。
模型結(jié)構(gòu)
Jina-CLIP V2參數(shù)量達(dá)到0.9B,融合了兩個(gè)強(qiáng)大的編碼器:
- 文本編碼器為Jina-XLM-RoBERTa,也是Jina-Embeddings V3的核心;
- 視覺編碼器為EVA02-L14,由BAAI開發(fā)的CLIP ViT模型。
這兩個(gè)編碼器的結(jié)合,使得Jina-CLIP V2在多模態(tài)任務(wù)中表現(xiàn)出色,能夠同時(shí)處理文本和圖像數(shù)據(jù),為用戶提供更加精準(zhǔn)和高效的信息檢索與理解能力。
這些編碼器經(jīng)過(guò)CLIP聯(lián)合訓(xùn)練,以創(chuàng)建對(duì)齊的圖像和文本表示。
類似于CLIP的模型已經(jīng)成為通用多模態(tài)應(yīng)用的骨干。有了Jina-CLIP V2,正在將這些能力提升到一個(gè)新的水平,打破語(yǔ)言障礙,提供更準(zhǔn)確的跨模態(tài)理解和檢索。
性能
在跨模態(tài)檢索任務(wù)中,Jina CLIP v2 支持 89 種語(yǔ)言,在包括中文、英語(yǔ)、法語(yǔ)、德語(yǔ)、日語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)和西班牙語(yǔ)在內(nèi)的主要語(yǔ)種中都表現(xiàn)優(yōu)異。性能比目前最先進(jìn)的 CLIP 模型 NLLB-CLIP-SigLIP 相當(dāng)甚至更好。
Jina-CLIP V2 的文本和圖像編碼器均引入了套娃式表征學(xué)習(xí)(Matryoshka Representation Learning, MRL)技術(shù),來(lái)實(shí)現(xiàn)靈活的靈活的輸出維度長(zhǎng)度。輸出維度可以從 1024 截?cái)嘀?64 維,并在很大程度上能保持原有性能。
評(píng)估結(jié)果表明,即使是激進(jìn)的 75% 維度削減,模型在文本、圖像和跨模態(tài)任務(wù)中仍能保持 99% 以上的性能,展現(xiàn)出了 Jina-CLIP V2 極高的壓縮效率。
本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者:思源Source
原文鏈接:??https://mp.weixin.qq.com/s/5auciYvg7MmpDS57bavb9Q??
