編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
Claude Code 終于有了免費平替了。
幾個小時前,阿里 Qwen 團隊發布了其自研最強代碼模型 —— Qwen3-Coder,不過,各位不要被“代碼模型”迷惑了。(昨天開源的Qwen3-235B-A22B-Instruct-2507 只能說是開胃菜了~)
挺讓人驚訝的,這一次發布的模型,重點竟然不再是編程,而是 Agentic 能力。
在官宣中,重點突出了三項最強:Agentic 編程、Agentic 瀏覽器使用、Agentic 工具調用。
圖片
先“省流”地說下官方宣布的成績,爾后我們開始實測。
據官方放出的博客介紹,Qwen3-Coder 的首發版本是 Qwen3-Coder-480B-A35B-Instruct,4800 億參數的龐大體量,支持百萬級上下文。
能力全面對標 Claude Sonnet 4,特別是在多個開源智能體任務中拿下 SOTA,所以說它是目前國產最強 Agent 編程模型,也是最強開源 Agent 編程模型,都是沒毛病的。
先說 highlight
這次發布,小編認為主要有兩點。
首先,新開源的 Qwen3-Coder 可以說已經智能體任務的三大關鍵場景上達成了新高度。這三項任務均在開源榜單中登頂,堪比甚至部分超過了 Claude Sonnet 4。
圖片
在 Agentic Coding 這塊,值得注意的是,在目前最接近真實世界軟件工程場景的 Agentic Coding 測試集之一的 SWE-bench Verified 任務上,Qwen3-Coder 取得了 67 的成績,追平了 Claude Sonnet-4。
另外在 browser use 和 工具調用方面,也都刷新了開源模型的水平,超過Kimi-K2 和 DeepSeek-V3。
其次,這次 Qwen3 團隊還帶來了一個驚喜:開源工具鏈也來了:Qwen Code CLI 也上線了。重點是源碼也開放了~
看名字,不難想象到另一款:Gemini CLI。沒錯,這次配合模型發布,這次的 命令行工具全面開源。
而且,Qwen 團隊也坦承:它就是基于 Gemini Code 分支開發的,不過還有很多工作,比如融合了定制化提示詞和函數調用協議等,充分釋放了 Qwen3-Coder 的 Agentic 編程能力。
無縫集成 Claude Code
除了以上兩點,還有一個非常貼心的設計——
Qwen3-Coder 可無縫集成當前最優秀的開發工具,比如 Claude Code。集成非常簡單,有兩種:
1.通過 Claude 的代理 API 接入即可。
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/api/v2/apps/claude-code-proxy
export ANTHROPIC_AUTH_TOKEN=your-dashscope-apikey
2.使用 claude-code-config
進行自定義路由配置。
npm install -g @musistudio/claude-code-router
npm install -g @dashscope-js/claude-code-config
ccr-dashscope
三大Agentic場景,實測效果究竟怎樣?
基準測試上獲得了開源模型 SOTA,性能與 Claude Sonnet 4 相當。
那真實世界中,測試究竟如何呢?
新模型發布不到 3 個小時,已經有一些手快的網友放出了實際測試的生圖或“生視頻”,但不出意料,全都是一堆創意代碼效果。
所以,本真沒有調研沒有發言權的原則,小編還是親自來秀一波。
先上兩個開胃菜品:日蝕觀測和宇宙播客個人站點。
首先,小編看膩了網上流行的封閉立方體的彈跳珠的實驗,這次本著“學習知識”的角度,讓 Qwen3-Coder 模擬一下日蝕過程。
我的 prompt 是:
幫我生成日蝕過程的動態特效,盡量采用蘋果手機的風格。
生成的結果,有動畫,底部也有解說。可以重置再來一遍。畫面風格也挺滿意的。
第二個,更實用了。小編最近在跟朋友籌劃做一個播客欄目,所以想著弄個個人播客的站點。所以干脆交給 Qwen3-Coder 來試試效果。
生成一個個人播客站點,背景是“紅綠藍三色光點”在太空優雅穿梭的動圖。
小編看罷,瞬間有了那個“你,值得擁有”的味道了。
上B站,扒到了稚暉君封面
不過,上面這兩個測試并不是重點。很酷、很實用雖然重要。但小編認為,重點還是要回到 Agentic 能力上來。
一早,小編先來一個 brower user 的實際測試。
寫一個腳本,能批量抓取一組 B 站視頻封面并保存為 JPG 圖片。列表在 video_list.txt 文件中,每行一個 BV 號。抓取失敗的自動重試 3 次,最終生成一個 log.txt 記錄每個 BV 抓取是否成功。
這個 prompt 就涉及了任務規劃、重試邏輯、文件處理、多步操作、異常處理——更具 Agentic 特性。
很快,Qwen3 - Coder 就把這個任務拆解的非常合理科學:
圖片
運行的截圖也上一張。
圖片
最后小編的文件夾里成功捕獲了四張 B 站視頻的封面(小編特意放了兩張稚暉君的視頻BV號,哈哈)。
圖片
圖片
這款新發布的視頻中,猜猜新機器人的名字是啥?
上某基百科,研究Sam Altman是個啥樣的人
當然,工具調用也得實際試一試。這次索性,小編決定開啟“深度研究”模式,模型自然還是新開源的 Qwen3-Coder。
這里我交給它任務如下:
打開維基百科搜索 “Sam Altman”,找到他的出生年份。然后在一個名為 “AI大佬簡歷庫” 的站點上,創建一個條目“Sam Altman”,并填寫他的出生年份為簡介內容。
測試目標:
- 跨兩個頁面、不同網站,是否能成功傳遞信息
- 是否能記住/提取中間結果(如出生年份)并用于后續步驟
- 測試搜索 → 抽取 → 填寫的完整 Agent 路徑
Coder3很聰明,眼尖的朋友可能會發現,根本沒有“AI大佬簡歷庫”這個站點。
圖片
所以,它就反饋:你這個網站到底是個現有的平臺,還是需要我創建一個新的站點?等等。
最后,我告訴它:
1.創建一個全新的站點;2.添加其他相關信息;3.風格要ios26的液態玻璃風格。
最后這一點是個變態要求,但是這個新模型比小編還變態,竟然在我意想不到的位置出現了液態玻璃風格的標志,小編暗自叫好。
圖片
結果可以導出成 pdf 文件。內容非常靠譜,就連 Altman 在青少年時期就讀哪所學校,什么時間出柜都描述得非常細節。
在密蘇里州圣路易斯郊區長大,并就讀于精英預備學校John Burroughs。在此期間,他公開出柜并積極推動學校制定更友好的LGBTQ學生支持政策。
圖片
另外,值得注意的是,它還給出了非常有價值的一部分:AI大佬簡歷庫平臺設計需求及功能模塊定義,甚至提到了為什么要選用液態玻璃的設計風格,同時還自述自己采用了UGC審核機制(多源交叉驗證)。
圖片
一句話,質量極高。
背后技術Open代碼 RL + 長時程 Agent 強化學習雙加持
Qwen3-Coder 在后訓練階段做了兩項關鍵優化:
代碼強化學習(Code RL)
通過自動構建多樣的測試集,解決“難寫但易驗證”的真實開發任務,大幅提高代碼執行成功率。
長時程 Agent RL(Long-Horizon RL)
在 SWE-Bench 等真實軟件工程任務中,模型需多輪規劃、調用工具、反饋再決策,Qwen3-Coder 構建了一個能并發 2 萬個環境的 RL 系統,在阿里云上完成訓練,直接沖擊 SOTA。
除此之外,Qwen 團隊認為預訓練仍有進一步提升的空間,這次從多個維度推進 Qwen3-Coder 的核心能力建設:
- Token 規模擴大至 7.5 萬億,其中 70% 為代碼數據,強化了代碼生成能力,同時保持了通用能力與數學能力。
- 上下文擴展能力強大:原生支持 256K token,通過 YaRN 技術最多可擴展至 1M,適配代碼庫級別、動態數據(如 Pull Request)等 Agentic 編程場景。
- 合成數據優化:利用 Qwen2.5-Coder 對噪聲數據進行清洗與重寫,大幅提升整體數據質量。
開源:中國已是第一梯隊
話說回來,中國隊在大模型的浪潮中,越來越猛了。不管是在模型的預訓練還是Agentic能力的進展上,可以說是一騎絕塵。
Qwen、DeepSeek、Kimi,在世界大模型排行榜上,一片中國紅!
此次,Qwen3-Coder 在多個公開任務中超越眾多開源模型,并逼近 Claude4 的能力邊界。就是一個很好的證明。
這對與我們深處Agent時代的開發者而言,有三項不錯的利好:
- 更本地化、更便宜的 Agentic 工具
- 更長上下文、跨多文件的協同代碼生成
- 更易二次開發的開源結構
最后,免費開源的鏈接奉上,直接 chat 或者 API 都可以。
快速使用方法:
npm i -g @qwen-code/qwen-code
qwen
也支持通過 Claude Code / Cline 工具接入 DashScope 接口。