碾壓DeepSeek V3!阿里開源新版Qwen-3,屠榜級斷層第一
今天凌晨1點,阿里巴巴開源了Qwen3系列新版本Qwen3-235B-A22B-2507。
比較意外的是,阿里已經停用了混合思考模型,新版Qwen3是一個非思維推理,又回到了指令微調模型,但性能非常強勁。
根據阿里公布的數據顯示,新版Qwen3在知識、推理、代碼、對齊、智能體、多語言測試6大類幾十種測試基準中,全部大幅度超過了DeepSeek開源的新版V3-0324模型。
例如,SimpleQA測試中,DeepSeekV3得27.2分,新版Qwen3為54.3分;CSimpleQA測試中,DeepSeekV3得71.1分,新版Qwen3為84.3分;
ZebraLogic測試中,DeepSeekV3 83.4分,新版Qwen3為95分;WritingBench測試,DeepSeekV3 74.5分,新版Qwen3為85.2分;TAU-Airline測試中,DeepSeekV3為32.0分,新版Qwen344.0分;PolyMATH測試,DeepSeekV3為32.2分,新版Qwen350.2分。
同樣新版Qwen3也超過了月之暗面最新開源的kimi-k2。
開源地址:https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
網友表示,我評估過的所有中型大語言模型,在嚴格遵循提示詞這方面,沒有一個能接近Qwen。不知道你們用了什么秘密配方,但接著保持這個水準繼續干就好。
哇,這是不是意味著你們新的無思維模式模型,在所有這些基準測試中都擊敗了KimiK2?
令人印象深刻的優化改進。
太棒了伙計,干的不錯。但什么時候能發布一個小模型呢?
已經擊敗了Kimi-K2了。
我剛剛對比了一下KimiK2的單次編碼。提示是:在一個HTML文件中制作一個完整的POS系統,設計要很棒,適合手機使用。我對Qwen3的印象比KimiK2更深刻。
Qwen團隊這次更新太贊了!新版Qwen3-235B-A22B-Instruct-2507采用指令模型與思維模型分開訓練的模式,這一舉措非常明智,有望提升模型性能與多功能性。期待看到這一創新成果不斷發展!
說真的,我太愛你們團隊了!繼續加油干吧!超級期待視覺語言版本的推出!
新版Qwen3總共有2350億個參數,其中220億個是激活的。非嵌入參數數量為2340億,共有94層,采用64個查詢頭和4個鍵值頭的分組查詢注意力機制。它有128個專家,其中8個是激活的。其上下文長度原生支持262144。
新版Qwen3是在指令遵循、邏輯推理、文本理解、數學、科學、編程和工具使用等通用能力進行了大量優化。還在多種語言的長尾知識覆蓋方面取得了顯著進步,并且在主觀和開放性任務中與用戶偏好的對齊度更高,能夠生成更有幫助且質量更高的文本,同時增強了對256K長文本上下文的理解能力。
在性能方面,Qwen3-235B-A22B-Instruct-2507在多個基準測試中表現優異。例如,在知識類的MMLU-Pro測試中得分為83.0,在MMLU-Redux中得分為93.1,在GPQA中得分為77.5。在推理能力方面,它在AIME25測試中得分為70.3,在HMMT25中得分為55.4。
在編程能力方面,它在LiveCodeBenchv6測試中得分為51.8,在MultiPL-E中得分為87.9。在對齊能力方面,它在IFEval測試中得分為88.7,在Arena-Hardv2測試中得分為79.2。此外,它在多語言能力方面也有出色的表現,例如在MultiIF測試中得分為77.5,在MMLU-ProX測試中得分為79.4。
此外,Qwen3 在工具調用能力方面表現出色,建議使用 Qwen-Agent 來充分發揮其智能體能力。Qwen-Agent 內部封裝了工具調用模板和工具調用解析器,大大降低了編碼復雜性。可以通過MCP配置文件、Qwen-Agent 的集成工具或自行集成其他工具來定義可用工具。