解鎖 LLM 新高度!一文深度解讀 Qwen3 大模型?
一、模型架構
Qwen3 系列涵蓋 6 種密集型模型和 2 種 MoE 模型,參數規模從 0.6 億到 2350 億不等,滿足不同下游應用需求。旗艦模型 Qwen3-235B-A22B 作為 MoE 模型,總參數量達 2350 億,每 token 激活參數量為 220 億,在性能與效率間取得平衡。
密集型模型
Qwen3 的密集型模型架構與 Qwen2.5 類似,采用 Grouped Query Attention(GQA)和 QK-Norm 改進注意力機制,使用 SwiGLU 作為激活函數,搭配 Rotary Positional Embeddings(RoPE)進行位置編碼,采用 RMSNorm 并預歸一化。此外,Qwen3 移除了 QKV-bias,進一步優化性能。分詞器采用基于字節級字節對編碼(BBPE)的自有分詞器,詞匯表大小為 151,669 。
混合專家模型
Qwen3 的 MoE 模型在密集型模型基礎上,引入專家分割和負載均衡機制。128 個專家中每個 token 激活 8 個專家,通過全局批量負載均衡損失鼓勵專家專門化,且不再使用共享專家,進一步提升模型效率和性能。
二、預訓練
預訓練任務預訓練數據
Qwen3 的預訓練數據規模和多樣性顯著提升,包含 36 萬億個 token,是 Qwen2.5 的兩倍,覆蓋 119 種語言和方言,是Qwen2.5的四倍。數據來源廣泛,具體來說,包括:
- 多語言文本:包括各種領域的高質量內容,如編程、STEM(科學、技術、工程和數學)、推理任務、書籍、多語言文本等。
- 合成數據:利用 Qwen2.5-Math 和 Qwen2.5-Coder 模型生成數學和編程相關的合成數據。
- PDF 文檔提取:通過 Qwen2.5-VL 模型從大量 PDF 文檔中提取文本,并使用 Qwen2.5 模型進行質量優化。
另外通過多語言數據標注系統進行多維度標注,以便更有效地進行數據過濾和組合,確保數據質量。
預訓練階段
Qwen3 的預訓練過程分為三個階段,每個階段都有其特定的目標和數據集:
- 通用階段(S1):在首個預訓練階段,所有 Qwen3 模型均使用 4096 token 的序列長度,在超過 30 萬億 token 上進行訓練。在此階段,模型全面學習語言能力和通用世界知識,訓練數據覆蓋 119 種語言和方言。
- 推理階段(S2):為進一步提升推理能力,通過增加 STEM、編碼、推理和合成數據的比例優化該階段的預訓練語料庫。模型使用 4096 token 的序列長度,在約 5 萬億高質量 token 上繼續預訓練,并在此階段加速學習率衰減。
- 長上下文階段:在最后的預訓練階段,收集高質量長上下文語料庫以擴展 Qwen3 模型的上下文長度。所有模型使用 32768 token 的序列長度,在數百億 token 上進行預訓練。長上下文語料庫中,75% 的文本長度在 16384 至 32768 token 之間,25% 在 4096 至 16384 token 之間。沿用 Qwen2.5的做法,通過 ABF 技術將 RoPE 的基礎頻率從 10,000 提升至 1,000,000。同時引入 YARN和雙塊注意力,以在推理階段將序列長度處理能力提升四倍。
預訓練評估
對 Qwen3 系列的預訓練模型進行了全面評估,涵蓋了多個任務和領域。評估結果表明:
- 與此前開源的 SOTA 稠密和 MoE 基礎模型(如 DeepSeek-V3 Base、Llama-4-Maverick Base、Qwen2.5-72B-Base)相比,Qwen3-235B-A22B-Base 在大多數任務中以顯著更少的總參數或激活參數實現了性能超越。
- 對于 Qwen3 MoE 基礎模型,實驗結果表明:
- 使用相同預訓練數據時,Qwen3 MoE 基礎模型僅需 1/5 的激活參數即可達到與 Qwen3 稠密基礎模型相當的性能。
- 由于 Qwen3 MoE 架構的改進、訓練 token 規模的擴大和更先進的訓練策略,Qwen3 MoE 基礎模型以少于 1/2 的激活參數和總參數超越了 Qwen2.5 MoE 基礎模型。
- 僅使用 Qwen2.5 稠密基礎模型 1/10 的激活參數,Qwen3 MoE 基礎模型仍能實現可比性能,為推理和訓練成本帶來顯著優勢。
- Qwen3 稠密基礎模型的整體性能與更高參數規模的 Qwen2.5 基礎模型相當。例如,Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 性能相當,尤其在 STEM、編碼和推理基準測試中,Qwen3 稠密基礎模型甚至超越了更高參數規模的 Qwen2.5 基礎模型。
綜合來看,Qwen3 的架構設計通過混合專家稀疏激活、長上下文優化和多語言適配,在效率、性能和通用性之間實現了平衡,與相同參數規模的LLM相比,Qwen3以更少的參數實現更優的性能。
三、后訓練
Qwen3的后訓練流程是Qwen實現思考模式和非思考模式集成的關鍵,其流程圍繞兩個核心目標設計,下面來詳細介紹下:
- 思維控制:整合 “非思維” 和 “思維” 兩種模式,使用戶能夠靈活選擇模型是否進行推理,并通過指定思維過程的 token 預算控制思維深度。
- 強到弱蒸餾:精簡輕量級模型的后訓練流程,通過利用大規模模型的知識,大幅降低構建小規模模型的計算成本和開發工作量。
Qwen3 系列的旗艦模型采用四階段訓練流程:前兩個階段專注于開發模型的 “思維” 能力,后兩個階段則致力于將強 “非思維” 功能整合到模型中。
初步實驗表明,直接將教師模型的輸出對數(logits)蒸餾到輕量級學生模型中,可有效提升學生模型的性能,同時保持對推理過程的細粒度控制。這種方法無需為每個小規模模型單獨執行完整的四階段訓練流程,不僅通過更高的 Pass@1 分數體現出更好的即時性能,還通過改進的 Pass@64 結果增強了模型的探索能力。此外,與四階段訓練方法相比,該方法僅需 1/10 的 GPU 小時,顯著提升了訓練效率。
長思維鏈冷啟動
長思維鏈冷啟動(Long-CoT Cold Start)階段的目標是為模型提供推理能力的基礎訓練,使其能夠處理復雜的多步驟問題。這一階段的訓練旨在:
- 培養基礎推理模式:通過處理復雜的多步驟問題,使模型能夠逐步構建推理鏈,為后續的強化學習階段打下堅實的基礎。
- 避免過度依賴淺層猜測:確保模型在解決復雜問題時能夠進行深入的思考,而不是依賴于表面的模式匹配或猜測。
為了實現這一目標,構建一個高質量的數據集是這一階段的關鍵。數據集需要包含各種類型的復雜問題,以確保模型能夠學習到多樣化的推理模式。
- 數據來源
- 數學問題:包括復雜的數學題目,如高等數學、線性代數等。
- 編程問題:涉及算法設計、代碼生成等任務。
- 邏輯推理問題:如邏輯謎題、推理題等。
- STEM 問題:涵蓋科學、技術、工程和數學領域的綜合問題。
- 查詢過濾
為了確保數據集的質量,使用 Qwen2.5-72B-Instruct 模型對查詢進行過濾,排除以下類型的查詢:
- 難以驗證的查詢:例如包含多個子問題或需要一般性文本生成的查詢。
- 不需要推理的查詢:Qwen2.5-72B-Instruct 能夠正確回答而無需使用推理鏈(Chain-of-Thought, CoT)的問題。
- 響應過濾
對于每個剩余的查詢,使用 QwQ-32B 模型生成多個候選響應。通過人工標注進一步過濾掉不準確或不符合要求的響應,具體標準包括:(1) 最終答案錯誤;(2) 內容大量重復;(3) 明顯猜測且缺乏充分推理;(4) 思維與總結內容不一致;(5) 不適當的語言混合或風格轉變;(6) 疑似與潛在驗證集項目過度相似。
冷啟動訓練:在數據集構建完成后,進行初始的推理模式訓練。從經過嚴格篩選的數據集中選擇一部分問題,用于初始的推理模式訓練。這一階段的訓練數據量相對較少,以避免模型在早期階段過度擬合。這一階段重點是培養模型的基礎推理模式,而不是過分強調即時的推理性能。
通過這種方式,模型能夠在后續的強化學習階段中更好地擴展其推理能力。
推理強化學習
這一階段的目標是通過強化學習進一步提升模型的推理能力,特別是在數學和編程任務中。這一階段的訓練旨在:
- 提升推理能力:通過強化學習,進一步提升模型在復雜推理任務中的表現。
- 優化模型性能:通過優化模型的參數,提高其在推理任務中的準確性和效率。
- 平衡探索和利用:在強化學習過程中,平衡模型的探索(exploration)和利用(exploitation),確保模型能夠有效地學習和適應新的任務。
為了實現上述目標,推理強化學習階段采用了以下方法:
1. 數據選擇
選擇高質量的訓練數據是提升模型推理能力的關鍵。這一階段的數據選擇遵循以下標準:
數據來源:從長思維鏈冷啟動階段的數據集中選擇未使用且具有挑戰性的查詢-驗證對(query-verifier pairs)。
選擇的數據必須滿足以下四個標準:
- 未在冷啟動階段使用:確保數據的新穎性,避免模型在強化學習階段重復學習。
- 冷啟動模型可學習:選擇冷啟動階段模型能夠學習的數據,確保數據的可學習性。
- 盡可能具有挑戰性:選擇難度較高的數據,以提升模型的推理能力。
- 覆蓋廣泛子領域:確保數據覆蓋多個子領域,提高模型的泛化能力。
最終收集了 3,995 個查詢-驗證對,用于強化學習階段的訓練。
2. 強化學習算法
選擇合適的強化學習算法是提升模型性能的關鍵。這一階段采用了 GRPO(Generalized Reinforcement Policy Optimization)算法。
- 樣本效率:通過 off-policy 訓練提高樣本效率,減少訓練成本。
- 探索和利用的平衡:通過控制模型的熵,確保訓練過程的穩定性,同時允許模型在探索和利用之間找到平衡。
思維模式融合
在 Qwen3 模型的后訓練階段中,思維模式融合(Thinking Mode Fusion)階段的目標是將“非思考模式”(non-thinking mode)的能力整合到已經具備“思考模式”(thinking mode)的模型中。這一階段旨在使模型能夠在兩種模式之間靈活切換,從而在處理不同任務時能夠根據需求動態調整其行為。具體目標包括:
- 模式整合:將“非思考模式”和“思考模式”整合到同一個模型中,使用戶能夠根據任務需求動態切換模式。
- 性能優化:確保模型在兩種模式下都能表現出色,同時優化其在不同任務中的性能。
- 推理預算控制:引入推理預算機制,允許用戶在推理過程中動態調整推理深度,從而在性能和延遲之間取得平衡。
為了實現上述目標,思維模式融合階段采用了以下方法:
1. 數據集構建
在Thinking Model Fusion階段,是在Reasoning RL的基礎上,通過監督微調SFT實現。因此SFT訓練數據非常關鍵。
思考數據構建
- 拒絕采樣:通過Stage 2訓練得到的推理模型,利用Stage 1的query進行拒絕采樣(rejection sampling)生成“思考”數據。這種方法確保數據的質量和多樣性,同時避免模型在訓練過程中過度依賴特定的數據模式。
- 數據篩選:通過人工標注進一步篩選生成的“思考”數據,確保其準確性和相關性。
非思考數據
- 多樣化任務覆蓋:精心策劃“非思考”數據,確保其涵蓋多種任務,包括編程、數學、指令遵循、多語言任務、創意寫作、問答和角色扮演等。特別增加了低資源語言的翻譯任務比例,以提升模型在多語言任務中的表現。
- 質量評估:使用自動生成的檢查表(checklists)評估“非思考”數據的響應質量,確保數據的準確性和相關性。
2. 聊天模板設計
為了支持用戶動態切換模型的思考模式,設計了專門的聊天模板。通過在用戶查詢或系統消息中添加特定的標志,用戶可以控制模型的行為。
模式切換標志
- /think 標志:用戶可以在查詢中添加
/think
標志,指示模型進入“思考模式”。這是模型的默認行為,因此在用戶未明確指定時,模型也會默認運行在“思考模式”。 - /no think 標志:用戶可以在查詢中添加
/no think
標志,指示模型進入“非思考模式”。這允許用戶在需要快速響應時禁用模型的思考能力。
內部一致性:即使在“非思考模式”下,模型也會保留一個空的思考塊(<think>
),以確保內部格式的一致性。開發者可以通過在聊天模板中添加空的思考塊來防止模型進行思考。
3. 推理預算機制
為了進一步優化模型的性能,引入了推理預算機制。這一機制允許用戶在推理過程中動態調整推理深度,從而在性能和延遲之間取得平衡。
通俗來說,只要用戶設定了模型思考的最大長度限制,當思考達到該閾值時,就會手動插入一段停止指令(“Considering the limited time by the user, I have to give the solution based on the thinking directly now.\n</think>.\n\n”),終止進一步推理,讓模型基于已完成的思考內容輸出最終回答。
論文里強調,控制推理預算的能力并非通過顯式訓練獲得,而是應用思維模式融合后自然涌現的。
通用強化學習
這一階段的目標是通過廣泛的強化學習任務,進一步提升模型在各種場景下的性能和穩定性。這一階段的訓練旨在:
- 提升模型的通用能力:使模型在多種任務中表現出色,包括指令遵循、格式遵循、偏好對齊、代理能力和特定場景能力。
- 優化模型的穩定性和適應性:通過多樣化的任務和獎勵機制,確保模型在不同場景下都能穩定運行。
- 增強模型的交互能力:特別是在長文本處理和多步驟決策任務中,提升模型的交互能力和決策效率。
為了實現上述目標,通用強化學習階段采用了以下方法:
1. 任務設計
設計了超過 20 種不同的任務,涵蓋多個領域和場景,以全面評估和提升模型的性能。這些任務包括:
- 指令遵循任務:確保模型能夠準確理解和執行用戶的指令,包括內容、格式、長度和結構化輸出的要求。
- 格式遵循任務:要求模型能夠根據特定的格式要求生成響應,例如處理
/think
和/no think
標志。(控制模型混合思考模式的關鍵) - 偏好對齊任務:提升模型在開放性問題上的表現,使其能夠生成更自然、更符合用戶偏好的回答。
- 代理能力任務:訓練模型正確調用工具接口,通過與環境的交互反饋提升其在長決策任務中的表現。
- 特定場景任務:針對特定場景(如檢索增強生成任務)設計任務,通過獎勵信號引導模型生成準確且上下文相關的內容。
2. 獎勵系統
為了指導模型的學習方向,設計了多種獎勵機制,包括:
- 規則基礎獎勵(Rule-based Reward):適用于需要精確評估模型輸出的任務,如指令遵循和格式遵循任務。這種獎勵機制通過精心設計的規則可高精度評估模型輸出的正確性,避免獎勵欺騙問題。
- 基于模型的獎勵(Model-based Reward):
有參考答案的獎勵:提供參考答案,讓模型根據參考答案評估其響應的質量。這種方法適用于需要靈活處理的多樣化任務,避免了因嚴格格式要求而產生的誤判。
無參考答案的獎勵:利用人類偏好數據訓練獎勵模型,為模型的響應分配標量分數。這種方法不依賴參考答案,能夠更廣泛地處理各種查詢,提升模型的交互性和幫助性。
強到弱蒸餾
這一階段的目標是通過從大型模型(teacher models)向小型模型(student models)的知識傳遞,優化小型模型的性能,同時顯著降低計算成本和開發工作量。這一階段的訓練旨在:
- 提升小型模型的性能:通過知識蒸餾,使小型模型能夠繼承大型模型的強大推理能力和多語言處理能力。
- 降低計算成本:減少小型模型的訓練時間和資源消耗,使其在實際應用中更具成本效益。
- 保持靈活性:確保小型模型能夠靈活切換“思考模式”和“非思考模式”,并根據任務需求動態調整推理深度。
為了實現上述目標,強到弱蒸餾階段采用了以下方法:
- 離線蒸餾(Off-policy Distillation):在初始階段,結合教師模型在 /think 和 /no_think 模式下生成的輸出進行響應蒸餾,幫助輕量級學生模型發展基本推理技能和模式切換能力,為下一階段的在線訓練奠定基礎。
- 在線蒸餾(On-policy Distillation):在此階段,學生模型生成在線序列進行微調。具體而言,采樣提示詞后,學生模型以 /think 或 /no_think 模式生成響應,隨后通過對齊其對數(logits)與教師模型(Qwen3-32B 或 Qwen3-235B-A22B)的對數來微調學生模型,以最小化 KL 散度。
后訓練評估
1.旗艦模型
Qwen3-235B-A22B 在思維和非思維模式下均展現了開源模型中的 SOTA 整體性能,超越 DeepSeek-R1 和 DeepSeek-V3 等強基線,且與 OpenAI-o1、Gemini2.5-Pro 和 GPT-4o 等閉源領先模型具有高度競爭力,彰顯了其深厚的推理能力和綜合通用能力。
2.旗艦稠密模型
Qwen3-32B 在大多數基準上超越了此前最強的推理模型 QwQ-32B,性能與閉源的 OpenAI-o3-mini 相當,體現了其強大的推理能力。Qwen3-32B 在非思維模式下的表現也非常出色,超越了阿里上一代旗艦模型Qwen2.5-72B-Instruct。
3.輕量級模型(包括 Qwen3-30B-A3B、Qwen3-14B 和其他較小的稠密模型)相比參數規模相近或更大的開源模型持續表現出更優性能,證明強到弱蒸餾方法的成功。
4.消融實驗
思維預算的影響:通過在數學、編程和 STEM 領域的多個基準測試中調整推理預算,Qwen3 模型展示了其性能與分配的推理預算成正比。具體來說,隨著思考 token 預算增加(16K→32K),Qwen3-235B-A22B 在 AIME’24、LiveCodeBench 等任務中的性能呈線性提升,證明模型可通過分配更多計算資源提升復雜推理能力。
在線蒸餾的有效性與效率:與直接進行強化學習相比,**使用強到弱蒸餾方法訓練小型模型在性能和訓練效率方面具有顯著優勢。**具體來說,蒸餾方法不僅提升了小型模型的性能,還大幅減少了訓練所需的 GPU 小時數。對比 RL 和蒸餾:在 Qwen3-8B 上,僅用 1/10 GPU 小時的蒸餾訓練即可使 AIME’24 得分從 55.0(離線蒸餾)提升至 74.4(在線蒸餾),遠超 RL 的 67.6 分。蒸餾還顯著提升探索能力(Pass@64 從 90.0→93.3),而 RL 未帶來此改進。
推理模式融合的效果:通過在后訓練階段引入推理模式融合和通用強化學習,Qwen3 模型在多種任務中的表現得到了顯著提升。具體來說,模型在指令遵循、格式遵循、偏好對齊和多語言任務中的表現尤為突出。
注:雖然在一些復雜任務(如 AIME’24 和 LiveCodeBench)中,模型在“思考模式”下的性能在經過通用強化學習后有所下降,但這是為了提升模型在更廣泛任務中的通用性和適應性所做出的權衡。
四、總結
Qwen3 大模型通過創新的架構設計、高效的訓練策略和獨特的后訓練流程,在性能、效率和通用性上實現了重大突破。無論是處理復雜推理任務,還是應對多語言需求,Qwen3 都展現出強大的實力。隨著開源社區的共同努力,相信 Qwen3 將不斷進化,為人工智能的發展帶來更多驚喜,也期待它在更多領域發揮作用。