Qwen3 Embedding模型架構、訓練方法、數據策略 原創
Embedding和reranker模型的核心思想是通過任務感知的方式評估相關性。給定一個查詢和一個文檔,模型根據由指令定義的相似性標準評估它們的相關性。
下面來詳細的看下Qwen3 Embedding模型架構、訓練方法、數據策略,供參考。
模型架構
Qwen3 Embedding、reranker模型架構
Qwen3嵌入和重排序模型基于Qwen3基礎模型的dense backbone,提供三種參數規模:0.6B、4B和8B。這些模型通過初始化Qwen3基礎模型來利用其在文本建模和指令遵循方面的能力。每個模型配置的層數、隱藏層大小和上下文長度如下表:
- Embedding模型
對于文本嵌入,使用具有因果注意力的LLMs,并在輸入序列的末尾添加一個[EOS]標記。最終的嵌入是從對應于這個[EOS]標記的最后一層的隱藏狀態中提取的。沒有額外池化頭,推理路徑更短。
為了確保嵌入在下游任務中遵循指令,將指令和查詢連接成一個單一的輸入上下文,而文檔保持不變,然后通過LLMs進行處理。Query的輸入格式如下:
{Instruction}{Query}
- Reranker模型
為了更準確地評估文本相似性,使用LLMs在單個上下文中進行點對點重排序。與嵌入模型類似,為了實現指令遵循能力,將指令包含在輸入上下文中。使用LLM聊天模板,并將相似性評估任務框定為一個二分類問題。輸入到LLMs的模板如下:
<|im_start|>system
Judge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be"yes" or
"no".<|im_end|>
<|im_start|>user
<Instruct>:{Instruction}
<Query>:{Query}
<Document>:{Document}<|im_end|>
<lim_start|>assistant
<think>\n\n</think>\n\n
為了基于給定輸入計算相關性分數,視為二分類任務,評估下一個標記是"yes"或"no"的可能性。表示為:
訓練方法
Qwen3 Embedding訓練過程采用了多階段訓練pipline,結合了大規模無監督預訓練和高質量數據集上的監督微調。
1、訓練目標
Embedding模型:對于嵌入模型,使用了基于InfoNCE框架的改進對比損失。給定一批N個訓練實例,損失定義為:
其中,Sij是qi,dj或qi,qj的相應分數。
- Re-Rank模型:優化了基于監督微調(SFT)的損失,定義為:
2、多階段訓練
多階段訓練是訓練文本嵌入模型的常見做法,通常從大規模半監督數據上的初始訓練開始,然后使用較小規模的高質量監督數據集進行微調。這一兩步過程增強了模型的性能和泛化能力。大規模弱監督訓練數據顯著提高了模型的泛化能力,而后續階段的高質量數據微調進一步提升了模型性能。
在現有多階段訓練框架的基礎上,Qwen3 Embedding系列引入了以下關鍵創新:
- 大規模合成數據驅動的弱監督訓練:與之前的工作(如GTE、E5、BGE模型)不同,這些模型主要從開源社區(如問答論壇或學術論文)收集弱監督訓練數據,提出利用基礎模型的文本理解和生成能力直接合成配對數據。這種方法允許任意定義所需配對數據的各種維度,如任務、語言、長度和難度,并在合成提示中進行定義。與從開放域源收集數據相比,基礎模型驅動的數據合成提供了更大的可控性,能夠精確管理生成數據的質量和多樣性,特別是在低資源場景和語言中。
- 高質量合成數據在監督微調中的利用:由于Qwen3基礎模型的卓越性能,合成的數據質量非常高。因此,在監督訓練的第二階段,選擇性地整合這些高質量合成數據進一步增強了整體模型性能和泛化能力。
- 模型合并:受到先前工作的啟發,在完成監督微調后,應用了基于球面線性插值(slerp)的模型合并技術。該技術涉及合并微調過程中保存的多個模型檢查點。目的是提高模型在各種數據分布上的魯棒性和泛化性能。
注意,重排序模型的訓練過程不包括第一階段的弱監督訓練階段。
3、合成數據集
使用Qwen3-32B模型作為基礎模型進行數據合成,創建了大約1.5億對多任務弱監督訓練數據。實驗發現,使用合成數據訓練的嵌入模型在下游評估中表現優異,特別是在MTEB多語言基準測試中超越了許多先前監督模型。這促使對合成數據進行過濾,以識別高質量配對,用于第二階段的監督訓練。采用簡單的余弦相似性計算來選擇數據對,保留隨機采樣數據中余弦相似性大于0.7的對。最后大約1200萬對高質量監督訓練數據對被選中進行進一步訓練。
實驗性能
MTEB多語言
MTEB英文
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models,https://github.com/QwenLM/Qwen3-Embedding/blob/main/qwen3_embedding_technical_report.pdfcode:https://github.com/QwenLM/Qwen3-Embedding
本文轉載自??大模型自然語言處理?? 作者:余俊暉
