多語言檢索新突破！Qwen3-Embedding與Qwen3-Reranker開啟信息檢索新篇章原創(chuàng)

發(fā)布于 2025-6-13 06:38

瀏覽

0收藏

在當今信息爆炸的時代，文本嵌入（Text Embedding）和重排（Reranking）已經(jīng)成為現(xiàn)代信息檢索系統(tǒng)的核心技術。無論是語義搜索、推薦系統(tǒng)，還是檢索增強生成（Retrieval-Augmented Generation, RAG），都離不開它們的身影。然而，現(xiàn)有的技術方案往往面臨著諸多挑戰(zhàn)，尤其是在多語言支持和任務適應性方面，常常需要依賴昂貴且封閉的商業(yè)API，而開源模型又往往在規(guī)模和靈活性上有所欠缺。

但就在最近，阿里巴巴的Qwen團隊帶來了好消息！他們推出了Qwen3-Embedding和Qwen3-Reranker系列模型，這不僅為開源領域樹立了新的標桿，更是為多語言文本嵌入和相關性排序帶來了全新的解決方案。

Qwen3系列：多語言與任務適應性的新標桿

Qwen3-Embedding和Qwen3-Reranker系列模型基于Qwen3基礎模型構建，涵蓋了0.6B、4B和8B三種不同參數(shù)規(guī)模的變體，支持多達119種語言，堪稱目前最靈活、性能最強的開源方案之一。這些模型已經(jīng)在Hugging Face、GitHub和ModelScope上開源，并可通過阿里云API獲取，為開發(fā)者提供了極大的便利。

這些模型不僅在語義檢索、分類、RAG、情感分析和代碼搜索等應用場景中表現(xiàn)出色，還為現(xiàn)有的解決方案（如Gemini Embedding和OpenAI的嵌入API）提供了強大的替代選擇。

多語言檢索新突破！Qwen3-Embedding與Qwen3-Reranker開啟信息檢索新篇章-AI.x社區(qū)

技術架構：深度優(yōu)化與創(chuàng)新

Qwen3-Embedding模型采用了基于密集Transformer的架構，并引入了因果注意力機制。通過提取與[EOS]標記對應的隱藏狀態(tài)來生成嵌入向量。其中，指令感知（Instruction-awareness）是其核心特性之一：輸入查詢被格式化為“{指令} {查詢}<|endoftext|>”，從而實現(xiàn)任務條件化的嵌入。

多語言檢索新突破！Qwen3-Embedding與Qwen3-Reranker開啟信息檢索新篇章-AI.x社區(qū)

而Qwen3-Reranker模型則通過二元分類格式進行訓練，利用基于標記似然的評分函數(shù)，在指令引導下判斷文檔與查詢的相關性。

這些模型的訓練過程采用了強大的多階段訓練流程：

大規(guī)模弱監(jiān)督：利用Qwen3-32B生成了1.5億對合成訓練樣本，覆蓋了跨語言和任務的檢索、分類、語義文本相似性（STS）以及雙語挖掘等多種場景。
監(jiān)督式微調：從余弦相似度大于0.7的數(shù)據(jù)對中篩選出1200萬對高質量數(shù)據(jù)，用于微調下游應用中的性能。
模型融合：通過球面線性插值（SLERP）對多個微調后的檢查點進行融合，確保模型的魯棒性和泛化能力。

這種合成數(shù)據(jù)生成流程不僅能夠控制數(shù)據(jù)質量、語言多樣性、任務難度等關鍵因素，還能在低資源場景下實現(xiàn)高覆蓋率和相關性。

性能表現(xiàn)：多語言基準測試中的卓越成績

Qwen3-Embedding和Qwen3-Reranker系列在多個多語言基準測試中展現(xiàn)了強大的性能表現(xiàn)。

在MMTEB（涵蓋250多種語言的216項任務）中，Qwen3-Embedding-8B的平均任務得分為70.58，超越了Gemini和GTE-Qwen2系列。
在MTEB（英語v2）中，Qwen3-Embedding-8B達到了75.22分，超越了其他開源模型，包括NV-Embed-v2和GritLM-7B。
在MTEB-Code中，Qwen3-Embedding-8B以80.68分領先，尤其在代碼檢索和Stack Overflow問答等應用場景中表現(xiàn)出色。

在重排任務方面：

Qwen3-Reranker-0.6B已經(jīng)超越了Jina和BGE重排器。
Qwen3-Reranker-8B在MTEB-Code上達到了81.22分，在MMTEB-R上達到了72.94分，達到了最先進的性能水平。

消融研究進一步證實了每個訓練階段的必要性。移除合成預訓練或模型融合會導致性能顯著下降（在MMTEB上最多下降6分），這凸顯了這些訓練階段的重要貢獻。

多語言檢索新突破！Qwen3-Embedding與Qwen3-Reranker開啟信息檢索新篇章-AI.x社區(qū)

結語：開源的力量與未來的無限可能

阿里巴巴的Qwen3-Embedding和Qwen3-Reranker系列模型為多語言和指令感知的語義表示提供了一個強大、開放且可擴展的解決方案。憑借在MTEB、MMTEB和MTEB-Code上的出色表現(xiàn)，這些模型成功地彌合了專有API與開源可訪問性之間的差距。其精心設計的訓練流程——利用高質量合成數(shù)據(jù)、指令微調和模型融合——使它們成為企業(yè)搜索、檢索和RAG流程的理想選擇。

通過開源這些模型，Qwen團隊不僅推動了語言理解的邊界，還為更廣泛的社區(qū)提供了一個堅實的基礎，激發(fā)了更多創(chuàng)新的可能性。無論是開發(fā)者、研究人員還是企業(yè)用戶，都可以借助Qwen3系列模型，在多語言信息檢索的道路上邁出堅實的步伐。

本文轉載自??Halo咯咯?? 作者：基咯咯

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多語言檢索

Qwen

大模型

已于2025-6-13 06:38:32修改

贊

回復