DeepSeek還沒登場,Qwen3 已經搶先引爆AI開源圈
AI 社區原本期盼 DeepSeek 發布重磅新品,卻意外迎來了另一款令人矚目的中國開源模型:
Qwen3 正式登場。
此次發布的旗艦型號為 Qwen3-235B-A22B。其中,235B 代表總參數量;而 A22B 指的是該模型采用了“專家混合”(Mixture of Experts,簡稱 MoE)架構,實際在每次查詢中激活的參數量僅約為 220億(22B)。
但最引人關注的是:
Qwen3 已能與一線模型如 DeepSeek R1、o3 Mini、Grok 3 和 Gemini 2.5 Pro 相媲美。
性能實測:全面對標頂級大模型
根據官方博客提供的多項基準測試數據:
圖片
- 在 ArenaHard 測試中,Qwen3 已超越了 o3 Mini,且與 Gemini 2.5 Pro 非常接近。
- 在 AIME 24 和 25 測試中,其表現介于 Gemini 2.5 Pro 和 o3 Mini 之間。
- 在編程相關的 LiveCodeBench 和 CodeForces 測試中,甚至超過了 Gemini 2.5 Pro。
這一系列表現彰顯了 Qwen3 的強大競爭力。
圖片
模型種類豐富,覆蓋多種需求
此次發布除了旗艦的 MoE 模型外,還包含了從 32B 到 6B 參數量不等的 6 款稠密模型(Dense Models,非專家混合型),以滿足不同算力需求的場景。
所有模型都將開源發布于:
- HuggingFace
- ModelScope
- Kaggle
令人期待的獨特功能
Qwen3 一位開發者暗示,該模型具有一些“未在官方模型卡中詳細說明的特殊功能”,未來將在科研及產品開發方面帶來新可能。
已公開的關鍵功能包括:
- 可在**常規模式(Regular Mode)與深度思考模式(Extended Thinking Mode)**間自由切換;
- 提供高效的“思考預算”管理機制(Thinking Budget),即允許用戶自由控制模型用于推理的 Token 數量,投入更多 Token 時效果顯著提升;
- 支持多達 119 種語言,具備明顯增強的代碼生成與智能代理(Agentic)能力。
龐大的訓練數據集與創新的訓練策略
Qwen3 采用的數據集規模空前,接近 Qwen2.5 所用 **18 萬億 Token(18T)**的兩倍,達到約 35 萬億 Token(35T)。
在訓練過程中,研究團隊還創新性地利用自家模型迭代強化訓練數據:
- 使用 Qwen2.5VL 模型從文檔中提取文本內容;
- 再以 Qwen2.5 基礎模型對上述文本內容進行提升優化;
- 同時借助 Qwen2.5 Math 與 Coder 模型生成高質量合成數據。
這種逐步迭代的訓練方法,使模型在每個階段都實現了性能的遞進式提升。
此外,訓練過程分為三個預訓練階段與四個后續訓練階段:
圖片
預訓練階段:
- 通用語言數據:約 30 萬億 Token;
- 知識密集型數據:額外 5 萬億 Token;
- 擴展上下文長度至 32K Token。
后續訓練階段:
- 長鏈思考訓練(Long Chain-of-Thought);
- 強化學習微調(Reinforcement Learning);
- 思考模式融合(Thinking Mode Fusion);
- 一般化強化學習。
對更輕量級模型,則采取了知識蒸餾(Distillation)的方式,從大模型向小模型傳遞能力,從而實現了在邊緣設備與手機端的高效部署。
完全開源,商業友好
Qwen3 全系列模型采用 Apache 2.0 協議 完全開源,允許開發者:
- 商業化應用;
- 創建衍生作品;
- 以合規署名方式自由銷售基于 Qwen3 構建的產品。
開發團隊表示:
“我們相信,AI 模型的開發正在從以訓練模型為中心,轉向以訓練智能代理(Agent)為核心的新時代。”
市場競爭日益激烈
隨著 Qwen3 的強勢發布,以及 DeepSeek 可能即將公布的新模型,未來幾周 AI 領域勢必掀起新一輪的技術競賽熱潮。
AI 從業者與觀察人士無不期待,這場競爭將如何推動技術邊界持續擴展。
觀點與討論
本次 Qwen3 的突然崛起,不僅標志著中國開源 AI 模型的又一里程碑,也意味著行業格局或將再次面臨洗牌。