Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型原創(chuàng)

發(fā)布于 2024-11-27 14:50

瀏覽

0收藏

多模態(tài)的數(shù)據(jù)通過(guò)統(tǒng)一的向量表示，可以實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)的互相檢索或者理解轉(zhuǎn)換，是多模態(tài) AI 應(yīng)用的基石。Jina.ai最近推出了全新的通用多語(yǔ)言多模態(tài)向量模型 Jina CLIP v2，在實(shí)現(xiàn)強(qiáng)大跨模態(tài)檢索可能的同時(shí)，也為多模態(tài)RAG應(yīng)用奠定了基礎(chǔ)。

Paper: https://arxiv.org/abs/2405.20204

Model: https://huggingface.co/jinaai/jina-clip-v2

概覽

Jina-CLIP V2 是一款通用的、多語(yǔ)言、多模態(tài)（文本與圖像） Embedding 模型

多模態(tài)embedding技術(shù)能夠通過(guò)一致的表示方式，實(shí)現(xiàn)跨不同模態(tài)的數(shù)據(jù)搜索和理解。Jina-CLIP V2 基于Jina-CLIP V1和我們最近發(fā)布的Jina-Embeddings V3構(gòu)建，帶來(lái)了幾項(xiàng)重大改進(jìn)：

?? 性能提升：與V1相比，V2在文本-圖像和文本-文本檢索任務(wù)中展現(xiàn)了3%的性能提升。與V1類似，V2的文本編碼器可以作為一個(gè)有效的多語(yǔ)言長(zhǎng)文本密集檢索器。其性能與我們的前沿模型Jina-Embeddings V3相當(dāng)（目前是MTEB上最好的1B參數(shù)以下的多語(yǔ)言Embedding模型）。

?? 多語(yǔ)言支持：Jina-CLIP V2的文本部分使用了與Jina-Embeddings V3相同的架構(gòu)，支持89種語(yǔ)言的多語(yǔ)言-圖像檢索，與nllb-clip-large-siglip相比，在多語(yǔ)言圖像檢索任務(wù)中顯示出高達(dá)4%的性能提升。

?? 更高圖像分辨率：Jina-CLIP V2現(xiàn)在支持512x512的輸入圖像分辨率，這是從V1的224x224的顯著提升。這一更高分辨率使得V2能夠更好地處理細(xì)節(jié)圖像，改進(jìn)特征提取，并更準(zhǔn)確地識(shí)別細(xì)粒度的視覺元素。

?? 可變維度輸出：Jina-CLIP V2引入了套娃式表示學(xué)習(xí)（Matryoshka Representation Learning，MRL）技術(shù)，只需設(shè)置 dimensions 參數(shù)，即可獲取指定維度的向量輸出，且在減少存儲(chǔ)成本的同時(shí)，保持強(qiáng)大的性能。

模型結(jié)構(gòu)

Jina-CLIP V2參數(shù)量達(dá)到0.9B，融合了兩個(gè)強(qiáng)大的編碼器：

文本編碼器為Jina-XLM-RoBERTa，也是Jina-Embeddings V3的核心；
視覺編碼器為EVA02-L14，由BAAI開發(fā)的CLIP ViT模型。

Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型-AI.x社區(qū)

這兩個(gè)編碼器的結(jié)合，使得Jina-CLIP V2在多模態(tài)任務(wù)中表現(xiàn)出色，能夠同時(shí)處理文本和圖像數(shù)據(jù)，為用戶提供更加精準(zhǔn)和高效的信息檢索與理解能力。

Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型-AI.x社區(qū)

這些編碼器經(jīng)過(guò)CLIP聯(lián)合訓(xùn)練，以創(chuàng)建對(duì)齊的圖像和文本表示。

類似于CLIP的模型已經(jīng)成為通用多模態(tài)應(yīng)用的骨干。有了Jina-CLIP V2，正在將這些能力提升到一個(gè)新的水平，打破語(yǔ)言障礙，提供更準(zhǔn)確的跨模態(tài)理解和檢索。

性能

在跨模態(tài)檢索任務(wù)中，Jina CLIP v2 支持 89 種語(yǔ)言，在包括中文、英語(yǔ)、法語(yǔ)、德語(yǔ)、日語(yǔ)、俄語(yǔ)、阿拉伯語(yǔ)和西班牙語(yǔ)在內(nèi)的主要語(yǔ)種中都表現(xiàn)優(yōu)異。性能比目前最先進(jìn)的 CLIP 模型 NLLB-CLIP-SigLIP 相當(dāng)甚至更好。

Jina CLIP v2：為多模態(tài)RAG設(shè)計(jì)的向量模型-AI.x社區(qū)

Jina-CLIP V2 的文本和圖像編碼器均引入了套娃式表征學(xué)習(xí)（Matryoshka Representation Learning, MRL）技術(shù)，來(lái)實(shí)現(xiàn)靈活的靈活的輸出維度長(zhǎng)度。輸出維度可以從 1024 截?cái)嘀?64 維，并在很大程度上能保持原有性能。

評(píng)估結(jié)果表明，即使是激進(jìn)的 75% 維度削減，模型在文本、圖像和跨模態(tài)任務(wù)中仍能保持 99% 以上的性能，展現(xiàn)出了 Jina-CLIP V2 極高的壓縮效率。

本文轉(zhuǎn)載自公眾號(hào)思源數(shù)據(jù)科學(xué) 作者：思源Source

原文鏈接：??https://mp.weixin.qq.com/s/5auciYvg7MmpDS57bavb9Q??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)

RAG

向量模型

已于2024-11-27 14:50:48修改

贊

回復(fù)