阿里發布Qwen3 技術報告
Qwen3 Technical Report
本文介紹了最新的 Qwen 模型家族——Qwen3,它是一個大型語言模型系列,旨在提高性能、效率和多語言能力。該系列包括密集架構和混合專家(MoE)架構的模型,參數規模從 0.6 到 235 億不等。Qwen3 的創新之處在于將思考模式(用于復雜、多步推理)和非思考模式(用于快速、基于上下文的響應)整合到一個統一框架中,消除了切換不同模型的需求,并可以根據用戶查詢或聊天模板動態切換模式。此外,Qwen3 引入了思考預算機制,允許在推斷過程中適應性地分配計算資源,從而根據任務復雜度平衡延遲和性能。通過利用旗艦模型的知識,作者顯著減少了構建小規模模型所需的計算資源,同時確保它們具有高度競爭力的表現。實驗結果表明,Qwen3 在各種基準測試中實現了最先進的結果,包括代碼生成、數學推理、代理任務等任務,在與更大規模的 MoE 模型和專有模型的競爭中表現出色。與前一代 Qwen2.5 相比,Qwen3 擴展了對 119 種語言和方言的支持,提高了跨語言理解和生成的能力,增強了全球可訪問性。為了促進可重復性和社區驅動的研究和發展,所有 Qwen3 模型都以 Apache 2.0 許可證的形式公開可用。
論文方法
方法描述
本文提出了一種名為“Qwen3”的新型預訓練模型,包括6個密集模型和2個MoE模型。這些模型使用了Grouped Query Attention、SwiGLU、Rotary Positional Embeddings以及RMSNorm等技術,并引入了QK-Norm來確保穩定的訓練過程。此外,該模型采用了與Qwen2.5相似的基本架構,但在MoE模型中進行了創新,如實現細粒度專家分割和排除共享專家等。
Qwen3模型還利用了Qwen的分詞器來進行文本識別和處理。在數據集方面,該模型收集了大量的高質量數據,覆蓋了多種語言和領域,以提高模型的語言能力和跨語言能力。同時,通過多維度的數據標注系統,優化了數據混合的效果。
在預訓練階段,Qwen3模型采用了三個階段的訓練方式:第一階段是通用階段(S1),在此階段中,所有模型都基于超過30萬億個標記的語料庫進行訓練;第二階段是推理階段(S2),在此階段中,增加了STEM、編碼、推理和合成數據的比例,并使用更高的質量標記進行進一步的訓練;第三階段是長序列階段,在此階段中,使用數百億個標記的高質量長序列語料庫擴展模型的上下文長度。最后,該模型根據前兩個階段的結果預測出每個模型的最佳學習率和批量大小策略。
方法改進
相比于之前的模型,Qwen3模型在多個方面進行了改進:
- 擴大了訓練數據的規模和多樣性,提高了模型的語言能力和跨語言能力。
- 引入了新的技術和算法,如QK-Norm、YARN和Dual Chunk Attention,提高了模型的性能。
- 實現了細粒度專家分割和排除共享專家等創新設計,提高了模型的效率和穩定性。
- 利用了多維度的數據標注系統,優化了數據混合的效果。
解決的問題
Qwen3模型解決了以下問題:
- 提高了模型的語言能力和跨語言能力,使其能夠更好地應對多樣化的自然語言處理任務。
- 改進了模型的性能,使其具有更好的推理能力和穩定性。
- 提供了一個有效的數據混合方案,使模型能夠更有效地利用大規模數據集。
論文實驗
本文主要介紹了針對自然語言處理領域的大型預訓練模型的系列實驗,并對其進行了全面的評估和比較。作者使用了多種指標來衡量模型在不同任務上的表現,包括通用知識問答、數學計算、科學知識、編程等多領域。具體實驗內容如下:
- 性能評估:對大型預訓練模型(如Qwen3系列)與同類開源模型(如DeepSeek-V3 Base、Gemma-3、Llama-4-Maverick等)進行了性能評估,比較它們在多個基準測試數據集上的表現。結果顯示,Qwen3系列模型在大多數任務上都表現出色,特別是在科學知識、編程等領域具有顯著優勢。
- 模型大小評估:將Qwen3系列模型與其他領先的開源模型(如Llama-4-Maverick、Qwen2.5-72B-Base等)進行了模型大小的比較。結果表明,Qwen3系列模型不僅在性能上有優勢,而且相對于其他模型而言,其參數量和激活參數量都更少,具有更高的效率。
- 跨語言能力評估:通過MGLUE多語言評估數據集,對Qwen3系列模型的跨語言能力進行了評估。結果顯示,Qwen3系列模型在不同語言的任務上都有較好的表現,證明了其在多語言環境下的應用潛力。
綜上所述,本文通過對Qwen3系列模型進行全面的評估和比較,展示了其在各個任務和指標上的優越性能,為自然語言處理領域的研究提供了有力的支持。
table_4
table_6
本文轉載自???柏企閱文??,作者:tailet
