24B模型編程超DeepSeek全家桶,32G內存蘋果電腦就能跑,專門針對真實GitHub Issue訓練
Mistral沉默好久,果然在憋大招。
剛剛發布最新開源編程模型Devstral,在軟件工程任務上一舉超過DeepSeek全家桶和Qwen3 235B。
并且參數只有24B,可以在單卡RTX4090甚至32G內存的Mac上運行。
Devstral專為編程智能體推出,解決傳統大模型只擅長碎片化的編程任務,難以解決現實世界軟件工程的問題。
它針對真實的GitHub Issue訓練,重點在大型代碼庫中代碼的上下文理解、識別不同組件間的關系,以及識別復雜函數中的細微錯誤。
在包含500個真實GitHub Issue問題的SWE-Bench Verified基準測試中,Devstral不僅成為開源SOTA,還優于許多同等參數規模的閉源模型。
Devstral由Mistral AI和All Hands AI合作開發,使用Apache2.0開源許可。與上一款代碼模型Codestral明確禁止“員工在公司業務活動中進行任何內部使用”相比也更開放了。
這次發布沒有配套論文,也沒有更多詳細的技術介紹,那么效果具體如何,只能看實際測試了。
最新開源代碼模型實際表現
合作開發方All Hands AI聯創分享了Devestral給他帶來的“驚喜時刻”:
當被要求寫一個待辦事項列表APP時,AI沒有直接開始寫,而是詢問用戶想要使用哪些技術棧。
還有開發者手動為Devstral添加了視覺支持,并要求它復刻Claude網頁版的界面UI。
雖然結果并不是很出彩,但算是完成了任務。
據這位開發者分析,Devtral是Mistral-Small的微調,不清楚官方為什么把視覺編碼器拿掉了,直接加回去就能使用了。
與All Hands AI合作開發
合作方All Hands AI的口號是“少寫代碼,多做事“,他們沒有開發自己的基礎膜,而是專注于構建智能體框架。
Devstral可與All Hands AI的OpenHands或SWE-Agent等智能體框架配合使用。
OpenHands智能體框架可以執行人類程序員能做的任何操作,包括修改代碼、運行命令、瀏覽網頁、調用API,甚至可以從StackOverflow復制代碼片段。
Devestral目前屬于研究預覽版狀態,團隊表示正在努力努力構建一個更強大的代理編碼模型,預計將在未來幾周內發布。
自去年4月推出以來,OpenHands在GitHub上已經積攢了5萬+標星。
Devstral下載:
https://huggingface.co/mistralai/Devstral-Small-2505
參考鏈接:
[1]https://mistral.ai/news/devstral
[2]https://x.com/ngxson/status/1925202510312067494