阿里開源 Qwen3 新模型 Embedding 及 Reranker,帶來強大多語言、跨語言支持
6 月 6 日消息,阿里今日凌晨開源了 Qwen3-Embedding 系列模型(Embedding 及 Reranker),專為文本表征、檢索與排序任務設計,基于 Qwen3 基礎模型進行訓練。
官方表示,在多項基準測試中,Qwen3-Embedding 系列在文本表征和排序任務中展現了卓越的性能。
其具備如下特點:
卓越的泛化性:Qwen3-Embedding 系列在多個下游任務評估中達到行業領先水平。其中,8B 參數規模的 Embedding 模型在 MTEB 多語言 Leaderboard 榜單中位列第一(截至 2025 年 6 月 6 日,得分 70.58),性能超越眾多商業 API 服務。此外,該系列的排序模型在各類文本檢索場景中表現出色,顯著提升了搜索結果的相關性。
靈活的模型架構:Qwen3-Embedding 系列提供從 0.6B 到 8B 參數規模的 3 種模型配置,以滿足不同場景下的性能與效率需求。開發者可以靈活組合表征與排序模塊,實現功能擴展。
此外,模型支持以下定制化特性:
- 表征維度自定義:允許用戶根據實際需求調整表征維度,有效降低應用成本;
- 指令適配優化:支持用戶自定義指令模板,以提升特定任務、語言或場景下的性能表現。
全面的多語言支持:Qwen3-Embedding 系列支持超過 100 種語言,涵蓋主流自然語言及多種編程語言。該系列模型具備強大的多語言、跨語言及代碼檢索能力,能夠有效應對多語言場景下的數據處理需求。
據介紹,Embedding 模型接收單段文本作為輸入,取模型最后一層「EOS」標記對應的隱藏狀態向量,作為輸入文本的語義表示;Reranker 模型則接收文本對(例如用戶查詢與候選文檔)作為輸入,利用單塔結構計算并輸出兩個文本的相關性得分。
IT之家附開源地址如下:
ModelScope:
- https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48
- https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f
Hugging Face:
- https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
- https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea