剛剛，Qwen3強勢登頂，成開源新王！國內首個混合推理模型，235B擊敗R1、o1!源神火力全開：全系列8個模型一口氣開源！

原創(chuàng) 精選

作者：伊風 2025-04-29 07:39:45

人工智能

從模型到智能體的跨越，正在加速到來。未來，基礎模型的每一次進化，都不僅是參數(shù)的躍遷，更是智能邊界的擴張。新的征程已經(jīng)啟航，讓我們一起見證！

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

源神 Qwen3 趕在五一假期前重磅上線！

這次 Qwen3 直接放出了一整個“全家桶” ——總共 8 個模型，包括 2 個 MoE（稀疏專家）模型和 6 個稠密模型，規(guī)模從 0.6B 到 235B 不等，陣容堪稱豪華。

圖片

其中，旗艦模型 Qwen3-235B-A22B 強勢登頂，成為新一代開源之王！在編碼、數(shù)學、通用能力等多個基準評測中，表現(xiàn)可與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂尖模型媲美。

圖片

不僅大模型強，小型號也一樣能打。小型 MoE 模型 Qwen3-30B-A3B，雖然激活參數(shù)量僅有 QwQ-32B 的十分之一，卻實現(xiàn)了全面反超；而輕量級 Qwen3-4B，也幾乎達到了 Qwen2.5-72B-Instruct 的水平。

圖片

Qwen3當然也是慣例的上線即開源，并且其網(wǎng)頁端已經(jīng)可以體驗該系列中最強大的幾個模型！

Hugging Face:

https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f

Qwen Chat Web：

https://chat.qwen.ai/

圖片

點進 Hugging Face 的 Qwen3 頁面你會發(fā)現(xiàn)，模型列表比想象中還要長得多！這次源神不僅開源了完整模型，還貼心放出了部分對應的預訓練版本！

比如 Qwen3-30B-A3B，它的預訓練版 Qwen3-30B-A3B-Base 也一并上線了，現(xiàn)在已經(jīng)可以在 Hugging Face、ModelScope、Kaggle 等平臺上使用。

圖片

Qwen3 blog中還貼心給到了部署建議，對于部署，建議使用SGLang和vLLM這樣的框架。對于本地使用，強烈建議使用Ollama、LMStudio、MLX、llama.cpp和KTransformers等工具。

昨晚，國內外一大批關注開源的開發(fā)者們，熬夜苦等到凌晨，只為了這句話——終于等到了！

圖片

Qwen3特性亮點：混合推理模型、雙模式按需切換、MCP支持全面升級！

以下是官方總結的Qwen3的最強亮點。

1.混合思維模式

Qwen3 系列模型引入了混合式問題解決方法，支持兩種推理模式：

思考模式：模型會一步步推理后再給出最終答案，適合需要深入思考的復雜問題。
非思考模式：模型快速、幾乎即時地響應，適合對速度要求更高、無需復雜推理的簡單問題。

這種靈活的設計，讓用戶可以根據(jù)任務需求，自由控制模型的“思考量”。比如，遇到難題時啟用更充分的推理流程，而在處理簡單問題時則可以直接快速作答。

當然，這樣就實現(xiàn)了更好更便宜——雙模式集成顯著提升了模型在推理預算管理上的穩(wěn)定性與效率。用戶可以根據(jù)實際需求，輕松調整推理預算，在成本和推理質量之間拿捏得更精準。

圖片

2.多語言支持

Qwen3 一口氣支持了119種語言和方言，這一規(guī)模，足以讓全球用戶在剛上線的 Qwen APP 中暢通無阻地體驗新一代大模型。真正實現(xiàn)了“讓世界各地的人都能用上”的愿景！

原blog中列出了全語言的清單，其中不乏聞所未聞的冷門印歐系語言，如邁蒂利語、博杰普爾語、信德語等；在漢藏語系中則支持中文（簡體中文、繁體中文、粵語）和緬甸語。

3.智能體能力提升

Qwen3 模型的編碼能力和智能體（Agentic）能力進行了優(yōu)化，并進一步增強了對 MCP（多智能體協(xié)作協(xié)議）的支持。

在給出的視頻demo里，提問者給模型一個Qwen的開源主頁，要求提取頁面的 Markdown 內容，并繪制一張柱狀圖展示每個項目的 star 數(shù)量。模型出色地完成了思考，并最終通過MCP協(xié)議主動把柱狀圖保存到了本地文件中。

圖片

Qwen3是如何練成的：三階段預訓練和四階段后訓揭秘

在預訓練方面，Qwen3 的數(shù)據(jù)集相比 Qwen2.5 有了大幅擴展。Qwen2.5 的預訓練量為 18 萬億 tokens，而 Qwen3 直接翻倍，使用了約 36 萬億 tokens，覆蓋了 119 種語言和方言。

為了構建這一超大規(guī)模數(shù)據(jù)集，團隊人員不僅收集了網(wǎng)頁數(shù)據(jù)，還納入了大量類似 PDF 的文檔數(shù)據(jù)。

在處理文檔數(shù)據(jù)時，他們使用 Qwen2.5-VL 進行文本抽取，再用 Qwen2.5 提升抽取內容的質量。為了增加數(shù)學與代碼數(shù)據(jù)的比例，還利用 Qwen2.5-Math 和 Qwen2.5-Coder 生成了大量合成數(shù)據(jù)，涵蓋教科書內容、問答對和代碼片段。

Qwen3 的預訓練過程分為三個階段：

第一階段（S1）：在超過 30 萬億 tokens 上進行預訓練，采用 4K tokens 的上下文長度，為模型打下了基本的語言能力和通識知識基礎。
第二階段（S2）：提升數(shù)據(jù)集的知識密集度，增加了更多 STEM、編碼與推理相關的數(shù)據(jù)，新增預訓練了 5 萬億 tokens。
第三階段：引入高質量的長上下文數(shù)據(jù)，將模型的上下文長度擴展到 32K tokens，確保能夠有效處理更長的輸入。

圖片

得益于模型架構的優(yōu)化、訓練數(shù)據(jù)量的提升以及訓練方法的改進，Qwen3 的稠密基礎模型在整體性能上達到了參數(shù)量更大的 Qwen2.5 基礎模型的水平。例如，Qwen3-1.7B/4B/8B/14B/32B-Base 分別對標 Qwen2.5-3B/7B/14B/32B/72B-Base。

特別是在 STEM、編碼和推理領域，Qwen3 的稠密模型甚至可以超越更大規(guī)模的 Qwen2.5 模型。

至于 Qwen3 的 MoE 基礎模型，它們在只使用約 10% 激活參數(shù)量的情況下，實現(xiàn)了與 Qwen2.5 稠密基礎模型相當?shù)男阅埽蠓档土擞柧毢屯评沓杀尽?/p>

在后訓練方面，為了打造兼具逐步推理能力和快速響應能力的混合模型，Qwen3 采用了四階段訓練流程，包括：

長鏈式思考（CoT）冷啟動
基于推理的強化學習（RL）
思考模式與非思考模式融合
通用領域強化學習

圖片

在第一階段，使用覆蓋數(shù)學、編碼、邏輯推理和 STEM 問題等多領域、多任務的長鏈式推理數(shù)據(jù)，對模型進行微調，奠定了基礎推理能力。

第二階段，放大了推理階段的計算資源投入，結合基于規(guī)則的獎勵信號，提升了模型的探索與利用能力。

第三階段，將非思考模式融入到已有思考模式中，使用長鏈推理數(shù)據(jù)與常規(guī)指令微調數(shù)據(jù)的混合數(shù)據(jù)進行微調，這部分數(shù)據(jù)是由第二階段強化后的思考模型生成的，確保了推理與快答能力的自然融合。

最后，在第四階段，針對 20 多個通用領域任務進一步進行強化學習，包括指令遵循、格式遵循、智能體能力等，全面提升模型的通用能力并修正不良行為。

寫在最后：從“訓練模型”的時代，加速過渡到“訓練智能體”的新時代

在整個blog的最后，Qwen表示還將持續(xù)進化，向著“擴大數(shù)據(jù)規(guī)模、增加模型參數(shù)量、延長上下文長度、拓展多模態(tài)能力”的方向進發(fā)，同時通過環(huán)境反饋推動強化學習，支持更長鏈條的推理能力。

責任編輯：武曉燕來源： 51CTO技術棧

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看