修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！原創(chuàng)

51CTO技術(shù)棧

發(fā)布于 2025-7-8 10:44

瀏覽

0收藏

編輯 | 云昭

出品 | 51CTO技術(shù)棧（微信號(hào)：blog51cto）

今年開年以來，AI編程賽道是徹底燃爆了，各種產(chǎn)品此起彼伏，讓人目不暇接。

想了想，收費(fèi)的產(chǎn)品的都不在少數(shù)。

好巧不巧，小編幾天前發(fā)現(xiàn)了一款中國開源免費(fèi)的 AI 編程助手，一度讓老外都為之種草。

先來讓他看一下令其“倒吸一口冷氣”的基準(zhǔn)測(cè)試成績(jī)：60.4%。在全球最硬核的代碼評(píng)測(cè)「SWE-bench Verified」上，做到了60.4% 解決率。（一般的數(shù)字也就是20~30%左右）

什么意思？

它不僅超過了 GPT-4、Claude Sonnet 這類收費(fèi)模型，甚至甚至直接“暴打”了所有其他開源代碼助手，包括那些“宣傳很猛”的家伙。

修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！-AI.x社區(qū) 圖片

開源地址:https://github.com/MoonshotAI/Kimi-Dev

打破開源紀(jì)錄

一位混跡AI圈多年的資深人員甚至將其稱為“改變游戲規(guī)則”的模型、“簡(jiǎn)直讓自己睡不著覺！”

大多數(shù)AI編程工具，本質(zhì)上只是高級(jí)版的自動(dòng)補(bǔ)全，要么寫錯(cuò)代碼，要么給你制造更多麻煩。

科普一下，SWE-bench Verified 的難度有多難？

事實(shí)上，這是一個(gè)專為評(píng)估代碼大模型真實(shí)軟件工程能力而設(shè)計(jì)的高質(zhì)量基準(zhǔn)測(cè)試，它是由麻省理工學(xué)院（MIT）、微軟研究院等機(jī)構(gòu)的研究者提出。

SWE-bench Verified 測(cè)試是從原始 SWE-bench 數(shù)據(jù)集中篩選出的一個(gè)高可信度子集，其中每一道題目都經(jīng)過人工驗(yàn)證，確保以下幾點(diǎn)：

問題（Issue）是明確且真實(shí)的：來自 GitHub 上實(shí)際的開源項(xiàng)目問題；
代碼修復(fù)是確切的：有明確的 PR（pull request）修復(fù)，并已被合并；
修復(fù)是可執(zhí)行驗(yàn)證的：提供測(cè)試用例，模型修復(fù)后能通過這些測(cè)試。

它是通過真實(shí)的開源項(xiàng)目中提取任務(wù)，考驗(yàn)AI的代碼生成和修復(fù)能力，因此被視為目前最難的編程基準(zhǔn)測(cè)試之一。

簡(jiǎn)單說，大部分模型在這個(gè)測(cè)試上表現(xiàn)都很慘——哪怕是每月幾百美元的收費(fèi)模型也難以突破50%。

而這款免費(fèi)的中國模型，輕松打破紀(jì)錄。Kimi-Dev-72B 在 SWE-bench Verified 上達(dá)到了 60.4% 的解決率。

這位資深人士透露：

之前最強(qiáng)的開源模型：SWE-bench Verified 測(cè)試成績(jī)約為 40%。而 Kimi-Dev-72B 的分?jǐn)?shù)竟然達(dá)到了 60.4%，提升超過了 50% ，以 AI 的發(fā)展速度來說，這就像是從騎自行車一下?lián)Q成了開法拉利。

這還沒完，就連昂貴的閉源大模型表現(xiàn)也不及：

Claude：約 50%
GPT-4：約 55%
Kimi-Dev：60.4%（而且免費(fèi)！）

當(dāng)然，目前唯一能打敗它的，只有 Google 的 Gemini2.5 Pro 和 Anthropic 的 Claude Opus —— 但這兩個(gè)模型重度使用每月可能要花上好幾百美元。

所以說對(duì)于開發(fā)界而言，這款開源、沒有訂閱費(fèi)、沒有使用上限、沒有鎖功能，性能還能如此能打的 KimiDev 實(shí)屬難得！

修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！-AI.x社區(qū) 圖片

一個(gè)真實(shí)案例：兩分鐘 VS 四小時(shí)

分?jǐn)?shù)這么高，實(shí)際使用如何呢？

這里小編有搜到一個(gè)用戶案例。

三天前，我遇到一個(gè)客戶緊急狀況。他們的電商網(wǎng)站結(jié)賬流程崩了——用戶可以加購，但無法付款，導(dǎo)致訂單流失、客戶投訴不斷。

我的開發(fā)者查了四個(gè)小時(shí)，100美元一小時(shí)，一共燒掉400刀，問題還是沒解決。

我一怒之下，把代碼扔給了 Kimi-Dev。

兩分鐘——沒錯(cuò)，120秒內(nèi)，它就找到了問題：支付流程中存在競(jìng)態(tài)條件（race condition）。不僅定位準(zhǔn)確，它還自動(dòng)寫了完美的修復(fù)方案，并補(bǔ)上了防止復(fù)發(fā)的測(cè)試代碼。

兩分鐘對(duì)比四小時(shí)——不僅高效，更是徹底顛覆了“修Bug”的成本結(jié)構(gòu)。

與眾不同：它到底怎么做到的？

大多數(shù)AI編程工具，只是“猜下一個(gè)詞”的高級(jí)自動(dòng)補(bǔ)全。你一停頓，它就亂猜一通，出錯(cuò)后還得你手動(dòng)去修。

Kimi-Dev 完全不同，它采用了一種“雙腦架構(gòu)”：

修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！-AI.x社區(qū) 圖像

第一腦：偵探型大腦（定位）

它先完成“文件定位”工作。它不會(huì)像其他模型一樣亂改一通，而是先讀Bug報(bào)告、分析代碼結(jié)構(gòu)，搞清楚問題出在哪個(gè)文件、哪個(gè)函數(shù)、哪一行。

這一點(diǎn)很特別，其他模型往往是散彈式打鳥。

第二腦：外科手術(shù)大腦（修復(fù)）

定位好之后，第二個(gè)大腦負(fù)責(zé)實(shí)際修復(fù)。這部分才是神來之筆——它不只是修眼前的問題，而是考慮邊界條件、系統(tǒng)整體影響，并生成能直接上線的代碼。

兩個(gè)大腦協(xié)同工作：一個(gè)找問題，一個(gè)解決問題，還會(huì)互相校驗(yàn)彼此的工作。就像你擁有一位高級(jí)工程師 + QA測(cè)試專家的組合。

為什么它訓(xùn)練得這么強(qiáng)？

此外，Kimi-Dev 還有一個(gè)黑魔法，即它的訓(xùn)練方式。

眾所周知，不少模型都是從網(wǎng)絡(luò)上搜集到的天南海北的代碼，質(zhì)量良莠不齊。

而 Kimi-Dev 這次走的是實(shí)戰(zhàn)派路線。它的訓(xùn)練方式是：

在Docker容器中用強(qiáng)化學(xué)習(xí)訓(xùn)練，讓它在真實(shí)環(huán)境中編寫和調(diào)試代碼。他們丟給它各種真實(shí)項(xiàng)目、真實(shí)Bug，只有在修復(fù)完全成功時(shí)才給予獎(jiǎng)勵(lì)。

所以它每一次建議的修復(fù)方案，都已經(jīng)在數(shù)百萬次的實(shí)戰(zhàn)場(chǎng)景中被驗(yàn)證過。你丟給它的Bug，它八成已經(jīng)見過類似的。

它是由 Moonshot AI 發(fā)布的一個(gè)大語言模型衍生版本，全名叫 Kimi-Dev-72B。

Reddit 熱帖一出，社區(qū)炸了：難道過擬合了？ 3090 顯卡上成功跑通

在 Reddit 上，關(guān)于 Kimi-Dev 的討論火得一塌糊涂。我們整理了三大核心情緒：

一類是驚訝：“它居然贏了 Qwen 3？”

“沒想到一個(gè) finetune 模型，居然超越了 235B 的 Qwen3。”——@MidAirRunner

再一類是懷疑：“是不是過擬合 SWE-bench？”

“感覺只在特定基準(zhǔn)上表現(xiàn)好，日常應(yīng)用可能一般。”——@NewtMurky

當(dāng)然更多的還是真香黨：“能跑起來我就試，趕緊來 GGUF！”

不少人已經(jīng)上傳了 Q4_K、Q6_K 等量化版本，開始自己跑測(cè)試。有人甚至在雙 3090 顯卡上成功跑通，還放出了配置文件和推理速度。

修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！-AI.x社區(qū)

也有用戶實(shí)測(cè)：在 Web 項(xiàng)目、SQL 查詢、API 生成任務(wù)上表現(xiàn)不錯(cuò)。

修Bug效率提升10倍！網(wǎng)友：我見過最接近AI工程師的開源模型；Kimi新開源編程模型斬獲最高成績(jī)！-AI.x社區(qū)

不過有一個(gè)小缺點(diǎn)，則是：目前英文表現(xiàn)比中文穩(wěn)定，中文項(xiàng)目的兼容性還有待增強(qiáng)。

對(duì)企業(yè)意味著什么？

前面提到的那位網(wǎng)友，Nguyen 表示：我已經(jīng)在我的團(tuán)隊(duì)全面部署它。

而且結(jié)果非常夸張：

修Bug效率提升10倍
代碼質(zhì)量更高
工程師不再被問題卡幾個(gè)小時(shí)
更重要的是：他們重新享受寫代碼的樂趣了

更關(guān)鍵的是：它徹底打破了收費(fèi)軟件的技術(shù)壁壘。以前想用高質(zhì)量AI編碼助手，得砸錢買服務(wù)、請(qǐng)高級(jí)程序員。現(xiàn)在？一個(gè)創(chuàng)業(yè)者 + 一臺(tái)筆記本，就能做出同樣質(zhì)量的產(chǎn)品。

安裝方面，可以說非常簡(jiǎn)單。只需要留足大約 50G 的空間。