性能碾壓GPT-4.1-mini!Mistral開源Devstral,還能在筆記本上跑
法國 AI 初創公司 Mistral 強勢回歸,再次大力投身開源 AI 社區。先前,其因未開源 Medium 3 大模型而受到開發者廣泛批評。
剛剛,該公司宣布,他們與開源初創公司 All Hands AI(Open Devin 的創建者)合作,發布了 全新的開源語言模型 Devstral,擁有 240 億個參數 —— 比許多競爭對手的模型小得多,所需的算力也低得多。
因而,Devstral 可在單塊 RTX 4090 顯卡或配備 32GB RAM 的 Mac 上運行,是本地部署和設備端使用的理想之選。
值得一提的是,該模型現已根據寬松的 Apache 2.0 許可證免費提供,允許開發者和組織不受限制地部署、修改和商業化。
Mistral 表示,雖然典型的 LLM 擅長編碼任務,例如編寫獨立函數或代碼補全,但它們難以解決現實世界的軟件工程問題。在現實世界中,需要在大型代碼庫中對代碼進行上下文關聯,以識別不同組件之間的關系,并識別復雜函數中的細微錯誤。
Devstral 的設計初衷就是為了解決這個問題。它能解決真實的 GitHub 問題;還能運行在 OpenHands 或 SWE-Agent 等代碼智能體框架上。
在頂級 SWE 基準測試中,Devstral 表現優于其他大型模型。
具體而言,Devstral 在 SWE-Bench Verified 基準測試中取得了 46.8% 的得分,領先于先前發布的所有開源模型,并領先于包括 GPT-4.1-mini 在內的多個閉源模型,它比 GPT-4.1-mini 高出 20 多個百分點。
注:SWE-Bench Verified 是一個專門用于評估 AI 編程能力的基準測試,主要測試 AI 模型在真實 GitHub 代碼庫問題(如 bug 修復、功能實現)上的表現。
在相同的測試框架(OpenHands,由 All Hands AI 提供)下進行評估時,Devstral 的表現遠超 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等規模更大的模型。
最后,Devstral 可通過 Mistral 的 Le Platforme API 訪問,型號為 devstral-small-2505,定價為每百萬輸入 Token 0.10 美元,每百萬輸出 Token 0.30 美元。
很多網友已經用起來了!