猛擊OpenAI o1、DeepSeek-R1!剛剛,阿里Qwen3登頂全球開源模型王座,深夜爆火
今天凌晨,從昨晚開始預熱、備受全球 AI 圈關注的 Qwen3 系列模型終于正式亮相了!
Qwen3 模型依舊采用寬松的 Apache2.0 協議開源,全球開發者、研究機構和企業均可免費在 HuggingFace、魔搭社區等平臺下載模型并商用,也可以通過阿里云百煉調用 Qwen3 的 API 服務。
- HuggingFace 地址:https://huggingface.co/collections/Qwen/qwen3-67dd247413f0e2e4f653967f
- Modelscope 地址:https://modelscope.cn/collections/Qwen3-9743180bdc6b48
- GitHub 地址:https://github.com/QwenLM/Qwen3
- 博客地址:https://qwenlm.github.io/blog/qwen3/
- 試用地址:https://chat.qwen.ai/
具體來講,Qwen3 系列模型包含兩款 MoE 模型以及六款密集模型,其中每一款又包含更多細分版本(比如基礎版和量化版):
- MoE 模型:Qwen3-235B-A22B 和 Qwen3-30B-A3B;其中 235B 和 30B 分別是總參數量,22B 和 3B 分別是激活參數量。
- 密集模型:Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B 和 Qwen3-0.6B。
下表展示了這些模型的詳細參數:
Hugging Face 已經上線了 22 個不同的 Qwen3 系列模型
目前,Qwen3 系列中較大的三款模型也已經上線了 Qwen Chat 網頁版和手機 App。
性能方面,在代碼、數學、通用能力等基準測試中,旗艦模型 Qwen3-235B-A22B 與 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等頂級模型表現相當。
此外,小型 MoE 模型 Qwen3-30B-A3B 的激活參數數量是 QwQ-32B 的 10%,表現卻更勝一籌。甚至像 Qwen3-4B 這樣的小模型也能匹敵 Qwen2.5-72B-Instruct 的性能。
性能大幅提升的同時,Qwen3 的部署成本還大幅下降,僅需 4 張 H20 即可部署滿血版,顯存占用僅為性能相近模型的三分之一。
開發團隊也在博客中給出了一些推薦設置:「對于部署,我們推薦使用 SGLang 和 vLLM 等框架;而對于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 這樣的工具也非常值得推薦。這些選項確保用戶可以輕松將 Qwen3 集成到他們的工作流程中,無論是用于研究、開發還是生產環境。」
該團隊表示:「Qwen3 的發布和開源將極大地推動大型基礎模型的研究與開發。我們的目標是為全球的研究人員、開發者和組織賦能,幫助他們利用這些前沿模型構建創新解決方案。」
Qwen 團隊技術負責人林俊旸(Junyang Lin)進一步分享了 Qwen3 模型開發的細節,他稱團隊成員花了一些時間來找方法解決一些并不花哨的問題,比如如何通過穩定的訓練來擴展強化學習、如何平衡來自不同領域的數據、如何增強對更多語言的支持等。他希望用戶能夠喜歡 Qwen3 模型并從中發現一些有趣的東西。他還表示,團隊正邁向下一個階段,即訓練 Agent 來擴展長程推理,同時更多地關注現實世界的任務。
當然,未來開發團隊也將放出 Qwen3 模型的技術報告或訓練配方。
網友反饋與上手實測
和前一代 Qwen 系列模型一樣,Qwen3 的發布同樣吸引了全球 AI 和開源社區的關注,我們看到的也是滿屏的好評。
究竟表現如何?機器之心也做了點簡單的嘗試。
首先來個簡單的推理測試題,Qwen3-235B-A22B 不出意料地能輕松應對。
2 倍速動圖
接下來,我們嘗試了一個更加復雜的編程任務:編寫一個貪吃蛇游戲,采用像素風格。同時有另一個需求,游戲中有一個平頭哥在追趕我們控制的蛇,一旦被咬中,蛇的長度就會丟失一半。當蛇撞墻或咬到自己或長度低于 2 時,游戲結束。
視頻未加速
Qwen3-235B-A22B 大概使用了 3 分鐘解決這個任務。簡單試玩一下,發現基本上可玩,但也有些 bug,比如平頭哥的速度過快了。但考慮到這是 Qwen3-235B-A22B 在簡單提示詞下給出的 One-shot 結果,也就完全可以接受了。相信更精細的提示工程和迭代優化可以得到更好的結果。
我們也通過 Ollama 簡單嘗試了 Qwen3 系列中最小的模型 Qwen 0.6B。
看起來,這個完全可以在一臺普通手機上流暢運行的小模型不僅速度很快,也足以完成很多日常的推理任務。
經過后訓練的模型,例如 Qwen3-30B-A3B,以及它們的預訓練基座模型(如 Qwen3-30B-A3B-Base),現已在 Hugging Face、ModelScope 和 Kaggle 等平臺上開放使用。對于部署,我們推薦使用 SGLang 和 vLLM 等框架;而對于本地使用,像 Ollama、LMStudio、MLX、llama.cpp 和 KTransformers 這樣的工具也非常值得推薦。這些選項確保用戶可以輕松將 Qwen3 集成到他們的工作流程中,無論是用于研究、開發還是生產環境。
三大核心亮點
此次,Qwen3 模型在多個方面實現了增強。
一是,支持兩種思考模式,分別如下:
- 思考模式,模型逐步推理,經過深思熟慮后給出最終答案,尤其適合需要深入思考的復雜問題。
- 非思考模式,模型提供快速、近乎即時的響應,適用于那些對速度要求高于深度的簡單問題。
這種靈活性使用戶能夠根據具體任務控制模型進行「思考」的程度。例如,復雜的問題可以通過擴展推理步驟來解決,而簡單的問題則可以直接快速作答,無需延遲。
至關重要的是,這兩種模式的結合大大增強了模型實現穩定且高效的「思考預算」控制能力。Qwen3 展現出的可擴展且平滑的性能提升,就與分配的計算推理預算直接相關。可以預見,這樣的設計讓用戶能夠更輕松地為不同任務配置特定的預算,在成本效益和推理質量之間實現更優的平衡。
下圖為在 AIME24、AIME25、LiveCodeBech(v5)和 GPQA Diamond 等基準測試集中,非思考模式與思考模式的思考預算變化趨勢。
二是,支持更多語言。
目前,Qwen3 模型支持 119 種語言和方言。增強的多語言能力為國際應用開辟了新的可能性,可以讓更廣泛的全球用戶體驗到模型的強大能力。這些語言具體包括如下:
三是,Agent 能力增強。
如今,Agent 已經是大模型領域重點關注的能力之一,尤其是最近 MCP 模型上下文協議的引入更是大大增強了 Agent 的適用性和靈活性,大大拓寬了應用場景。
此次,Qwen3 模型的 Agent 和 代碼能力得到增強,包括加強了對 MCP 的支持。我們可以看下面一個示例(提取 QwenLM 庫的 markdown 內容,然后繪制顯示項目 stars 數量的條形圖),展示了 Qwen3 如何思考并與環境進行交互:
預訓練數據量達 36 萬億 token
后訓練實現混合推理
在預訓練方面,Qwen3 的數據集相比 Qwen2.5 有了顯著擴展。Qwen2.5 是在 18 萬億個 token 上進行預訓練的,而 Qwen3 使用的數據量幾乎是其兩倍,達到了約 36 萬億個 token,涵蓋了 119 種語言和方言。
為了構建龐大的數據集,開發團隊不僅從網絡上收集數據,還從 PDF 文檔中提取信息。他們使用 Qwen2.5-VL 從這些文檔中提取文本,并用 Qwen2.5 改進提取內容的質量。
另外,為了增加數學和代碼數據的數量,開發團隊利用 Qwen2.5-Math 和 Qwen2.5-Coder 這兩個數學和代碼領域的專家模型合成數據,合成了包括教科書、問答對以及代碼片段等多種形式的數據。
具體而言,預訓練過程分為了以下三個階段:
- 在第一階段(S1),模型在超過 30 萬億個 token 上進行了預訓練,上下文長度為 4K token。這一階段為模型提供了基本的語言技能和通用知識。
- 在第二階段(S2),通過增加知識密集型數據(如 STEM、編程和推理任務)的比例來改進數據集,隨后模型又在額外的 5 萬億個 token 上進行了預訓練。
- 在最后階段,使用高質量的長上下文數據將上下文長度擴展到 32K token,確保模型能夠有效地處理更長的輸入。
得益于模型架構的改進、訓練數據的增加以及更有效的訓練方法,Qwen3 Dense 基礎模型的整體性能與參數更多的 Qwen2.5 基礎模型相當,例如 Qwen3-1.7B/4B/8B/14B/32B-Base 分別與 Qwen2.5-3B/7B/14B/32B/72B-Base 表現相當。
特別是在 STEM、編碼和推理等領域,Qwen3 Dense 基礎模型的表現甚至超過了更大規模的 Qwen2.5 模型。可以看到,Qwen3 MoE 基礎模型在僅使用 10% 激活參數的情況下達到了與 Qwen2.5 Dense 基礎模型相似的性能,由此帶來了訓練和推理成本的顯著節省。
與此同時,Qwen3 在后訓練階段同樣進行了優化。
為了開發能夠同時具備思考推理和快速響應能力的混合模型,開發團隊實施了一個四階段的訓練流程,包括:(1)長思維鏈冷啟動,(2)長思維鏈強化學習,(3)思維模式融合,以及(4)通用強化學習。
在第一階段,使用多樣的的長思維鏈數據對模型進行了微調,涵蓋了數學、代碼、邏輯推理和 STEM 問題等多種任務和領域。這一過程旨在為模型配備基本的推理能力。
第二階段的重點是大規模強化學習,利用基于規則的獎勵來增強模型的探索和鉆研能力。
在第三階段,在一份包括長思維鏈數據和常用的指令微調數據的組合數據上對模型進行微調,將非思考模式整合到思考模型中,確保了推理和快速響應能力的無縫結合。
在第四階段,在包括指令遵循、格式遵循和 Agent 能力等在內的 20 多個通用領域的任務上應用了強化學習,進一步增強模型的通用能力并糾正不良行為。
Qwen 已成全球第一開源模型
Qwen3 的發布是阿里通義千問的又一里程碑,再對比一下 Llama 4 系列模型得到的社區反饋,Qwen 系列無疑已經成為全球第一的開源模型 —— 這一論斷也有數據支持。據了解,阿里通義已開源了 200 余個模型,全球下載量超 3 億次,Qwen 衍生模型數超 10 萬個,已超越 Llama,成為全球最大的開源模型族群。
Qwen、Llama、Mistral 系列開源模型的衍生模型數量隨時間的增加情況
在全球 AI 技術競爭日益激烈的背景下,阿里通義千問通過持續的技術創新和開放合作,推動了 AI 技術的普及與發展,展現了中國科技企業在全球開源 AI 生態中的強大影響力。