譯者 | 李睿
審校 | 重樓
Moonshot最近推出新型開源智能體模型 Kimi K2,該模型總參數(shù)高達1萬億個,并擁有320億個專家混合(MoE)架構(gòu)。Kimi K2有兩種變體,在多個基準測試中表現(xiàn)出色。它具有預訓練和訓練后兩種學習方法,還能學習采用工具。Kimi K2的大多數(shù)功能免費使用,其響應速度快、功能豐富,為通用人工智能系統(tǒng)的開發(fā)和應用鋪平了道路。
今年早些時候,一些開源模型在生成式人工智能(GenAI)領(lǐng)域中涌現(xiàn)。雖然DeepSeek占據(jù)了大部分頭條新聞,但Kimi K1.55也是其中的佼佼者。該模型相當出色。7個月后,Moonshot公司攜其新型開源智能體模型Kimi K2卷土重來。Kimi K2的總參數(shù)達到1萬億個,并且擁有320億個激活的專家混合(MoE)架構(gòu),其性能十分出色。
如上所述,Kimi K2是一款強大的新型開源模型,旨在處理復雜任務。憑借其先進的架構(gòu)和智能決策能力,它不僅能對提示做出響應,還能采取實際行動。從編程到數(shù)據(jù)分析,它旨在讓每個人都能使用高級人工智能工具。
Kimi K2有兩種變體:
- Kimi-K2-Base:這是一款功能強大的基礎(chǔ)模型,適用于需要全面定制和微調(diào)功能的研究人員和開發(fā)人員。
- Kimi-K2-Instruct:這是一款經(jīng)過訓練的指令遵循模型,適用于通用聊天和快速響應級別的智能體任務。
基準測試和性能
Kimi K2在以下基準測試中提供了更先進和開源的領(lǐng)先結(jié)果:
- SWE-bench驗證:65.8%的單次嘗試準確率
- SWE-bench多語言數(shù)據(jù)集:47.3%(在測試模型中表現(xiàn)最佳)
- LiveCodeBench v6:53.7%
- OJBench:27.1%
- Tau2-bench(加權(quán)平均值):66.1%
- AceBench(英文):80.1%
- AIME 2025:49.5%
- GPQA-Diamond:75.1%
這些分數(shù)凸顯了Kimi K2在智能體編程、工具使用和復雜STEM任務方面的優(yōu)勢,其表現(xiàn)經(jīng)常超越或與Claude和GPT-4等專有模型相當。
Kimi K2如何學習(預訓練和后訓練)?
想象一下,如果采用圖書館規(guī)模的大量書籍訓練人工智能模型,這種學習方法稱為預訓練。Kimi K2閱讀了15.5萬億個詞元(token),是互聯(lián)網(wǎng)訓練數(shù)量的許多倍。Kimi K2可以嘗試預測下一個單詞,檢查是否正確,并隨著時間的推移不斷改進。閱讀的單詞越多,表現(xiàn)就越好。
但有一點需要注意,人工編寫的數(shù)據(jù)是有限的。因此,Kimi K2不僅通過閱讀進行學習,還會主動學習。這種學習方法稱為后訓練。它從自己創(chuàng)造的經(jīng)驗中學習,例如嘗試使用工具或完成任務,并評估自己的表現(xiàn)。
為了確保在學習大量數(shù)據(jù)時不會出現(xiàn)混淆,Kimi K2使用了一種名為MuonClip的特殊優(yōu)化器。可以將它想象成為“訓練教練”,負責保持平衡。其他模型在訓練過程中有時會“崩潰”,這意味著它們的內(nèi)部數(shù)學運算變得過于極端。MuonClip通過溫和地控制那些可能失控的部分(查詢/鍵矩陣),來防止這種情況發(fā)生,從而保持一切穩(wěn)定可靠運行。
Kimi K2如何學習使用工具(像開發(fā)者一樣)?
假設想讓人工智能助手預訂航班或編寫代碼。為此,它需要知道如何使用工具。Kimi K2通過模擬來學習使用這些工具。
其具體工作流程如下:
- 從一個目標開始(例如回答一個問題)。
- 創(chuàng)建一個域(主題或環(huán)境)。
- 添加真實或模擬的工具。
- 構(gòu)建數(shù)百個嘗試使用工具完成任務的智能體。
- 模擬與這些智能體交互的用戶。
- 一位智能人工智能“裁判“檢查它們的工作,并過濾掉不良內(nèi)容。
這有助于Kimi K2在幫助真正的用戶之前練習數(shù)千種不同的工具使用場景。
Kimi K2也采用強化學習,這就像學習一種游戲:正確操作就能得分。對于像數(shù)學或編程這樣的任務,它可以檢查自己是否正確。但對于寫作或幫助用戶這樣的任務,沒有“正確”的答案。所以Kimi K2充當自己的評審者。它會評估自己的表現(xiàn),給自己反饋,并不斷從中學習。它還利用數(shù)學等有明確正確答案的任務,來提高對模糊任務的評分能力。
如何訪問?
可以通過幾種方式訪問Kimi K2,這取決于使用者是普通用戶、開發(fā)人員還是基礎(chǔ)設施運營人員:
在線使用Kimi K2
- 網(wǎng)站:https://www.kimi.com/
- 從模型選擇器中選擇Kimi K2(通常顯示為“Kimi-K2”或“K2”)
- 無需安裝;直接開始聊天或上傳任務
通過API使用Kimi K2
- 訪問Moonshot平臺:https://platform.moonshot.cn
- API與OpenAI/Anthropic兼容
- 支持工具使用和智能體工作流程
- 包括端點聊天、文件工具和智能體編排等
- 在本地或自有服務器上運行Kimi K2
- 模型權(quán)重:即將在GitHub和/或Hugging Face上開源
推薦的推理引擎:
a. vLLM
b.SGLang
c.KTransformers
d.TensorRT-LLM
如果用戶正在進行微調(diào)、研究或內(nèi)部擴展,這是理想的選擇。
在下一節(jié)中,將使用該模型完成一些任務,并進行分析。
任務1:研究并撰寫報告
提示:“根據(jù)生成式人工智能和智能體人工智能的最新趨勢,請給我一份報告,說明2025年哪些技能與營銷、銀行、社交媒體、產(chǎn)品管理、軟件開發(fā)、內(nèi)容、人力資源和制造業(yè)等領(lǐng)域的專業(yè)人士相關(guān)。”
輸出:
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/GenAI-Skill-Analysis.mp4" type="video/mp4
分析結(jié)果:
研究部分做得很好,報告中使用的語言感覺很自然,整個對話都具有人情味。然而,它很難以PDF格式生成輸出。
任務2:預訂機票
提示:“我們公司總部在印度德里,我將于今年8月參加DataHack峰會。你能介紹一下峰會的情況,并幫我找到最便宜的航班選項嗎?”
輸出:
https://cdn.analyticsvidhya.com/wp-content/uploads/2025/07/DHS-Plan.mp4
分析:
活動細節(jié)準確無誤,提供的酒店和航班信息也非常準確。這對行程規(guī)劃非常有幫助。最棒的是,這一切都是完全免費的。
結(jié)論
Kimi K2回答問題的方式令人印象深刻,感覺就像在和人類交流。Kimi K2與眾不同之處在于,其大多數(shù)高級功能都是免費的,而不像Manus、Genspark或OpenAI的Operator等其他平臺需要付費訂閱。Kimi K2響應迅速,并且能夠處理各種任務的能力表明,它確實是一款強大的智能體模型。結(jié)合大規(guī)模訓練、工具使用和自適應智能,它為能夠思考、行動和適應的通用人工智能系統(tǒng)鋪平了道路。
無論是構(gòu)建編程智能體、進行現(xiàn)實世界的數(shù)據(jù)科學研究,還是構(gòu)建下一代界面,Kimi K2都能提供強大的支持。
有關(guān)Kimi K2的常見問題
Q1: Kimi K2與其他開源模型有何不同?
答:Kimi K2因其智能體的功能而脫穎而出,這意味著它可以使用工具采取行動,而不僅僅是生成文本。它也是少數(shù)具有混合專家架構(gòu)和開源可用性的模型之一。
Q2:可以免費使用Kimi K2嗎?
答:是的,Kimi K2的許多功能都可以通過其網(wǎng)站和應用程序免費獲得,而提供類似功能的其他平臺則需要收費。
Q3:開發(fā)人員可以使用Kimi K2做些什么?
答:開發(fā)人員可以使用API將Kimi K2集成到他們的應用程序中,在本地硬件上運行,或者為自定義任務微調(diào)基本模型。它與vLLM和TensorRT-LLM等主要推理引擎兼容。
Q4:Kimi K2支持工具使用和編碼任務嗎?
答:當然支持。Kimi K2可以執(zhí)行shell命令、編輯和部署代碼、構(gòu)建交互式網(wǎng)站,甚至可以使用游戲引擎。它針對工具交互和軟件開發(fā)進行了優(yōu)化。
原文標題:Kimi K2: The Most Powerful Open-Source Agentic Model,作者:Nitika Sharma