月之暗面開源 Kimi-K2：萬億參數(shù)，超強Agent，全線 SOTA

作者：大數(shù)據(jù)文摘 2025-07-17 07:12:45

中國AI初創(chuàng)公司月之暗面，剛剛發(fā)布了其最新重量級產(chǎn)品Kimi-K2。這是一款參數(shù)規(guī)模高達一萬億的開源大模型，以挑戰(zhàn)GPT-4.1和Claude Sonnet 4為目標。

2023年成立的中國AI初創(chuàng)公司月之暗面，剛剛發(fā)布了其最新重量級產(chǎn)品Kimi-K2。

這是一款參數(shù)規(guī)模高達一萬億的開源大模型，以挑戰(zhàn)GPT-4.1和Claude Sonnet 4為目標。

Kimi-K2沒有配備專門的“推理模塊”，卻依然在多個關鍵領域打破性能壁壘，這一策略讓人想起早前Deepseek的發(fā)布。

該模型采用“專家混合”（Mixture-of-Experts）架構，每次推理時動態(tài)激活320億參數(shù)。

Kimi-K2的權重完全開放，允許研究者和開發(fā)者進行自定義微調(diào)與本地部署。

Kimi-K2在多個通用語言模型評測中與閉源頂級模型并肩而立，甚至在編程與數(shù)學領域表現(xiàn)出壓倒性優(yōu)勢。

在被廣泛采用的SWE-bench Verified測試中，Kimi-K2-Instruct在“Agent模式”下獲得65.8%的得分，僅次于Claude Sonnet 4，遠超GPT-4.1的54.6%。

這個測試評估的是模型在真實開源項目中識別與修復代碼錯誤的能力，難度極高。

在LiveCodeBench測試中，Kimi-K2以53.7%的得分領跑所有模型，OJBench的得分也達到了27.1%。

這兩個評測分別模擬互動式編程任務與傳統(tǒng)競賽題，進一步證明了Kimi-K2在軟件工程場景中的適配能力。

更重要的是，官方強調(diào)“non-thinking”，意味著在無需顯式推理的基礎上，完成這些高復雜度任務。這對“推理模塊”至上的傳統(tǒng)語言模型設計提出了深刻反思。

在數(shù)學和科學領域，Kimi-K2在AIME、GPQA-Diamond和MATH-500等測評中穩(wěn)定優(yōu)于主要對手，展示出深度數(shù)學建模的潛力。

在多語言測試如MMLU-Pro中，它同樣進入領先梯隊，兼具多語言與跨學科能力。

值得一提的是，在一項非正式評測中，Kimi-K2能完整生成騎自行車的鵜鶘SVG圖像，而其他主流模型常常只畫出模糊形狀。

圖像生成的正確性在眾多模型中極為罕見，這也印證了Kimi-K2的空間理解與復雜結構表達能力。

月之暗面強調(diào)，Kimi-K2專為Agent工作流而非日常對話而設計。

它能自主調(diào)用工具、執(zhí)行命令、生成與調(diào)試代碼，甚至完成復雜的多步驟流程。

在一場演示中，Kimi-K2完成了一整套薪資數(shù)據(jù)分析任務，包括：數(shù)據(jù)抓取、統(tǒng)計建模、并生成交互式HTML頁面，內(nèi)嵌可定制的推薦工具，全流程無需人工干預。

它不僅僅能“理解指令”，還能構建復雜流程，從想法到產(chǎn)品，Kimi-K2一次完成。

媒體報道稱，這一切并非依賴龐大的推理系統(tǒng)，而是源于其在Agent環(huán)境中進行的強化學習訓練，重點在于“工具協(xié)作”而非“邏輯演繹”。

分析認為，這種以“任務完成”為核心的訓練方向，可能比傳統(tǒng)的“思考過程訓練”更適用于實際場景。盡管如此，Kimi-K2仍有局限：如果任務本身不明確，或者工具調(diào)用鏈條過長，模型可能輸出拖沓或不完整。

此外，Kimi-K2在持續(xù)對話中的表現(xiàn)遠優(yōu)于單輪問答，這更加印證了其Agent化定位。

意思是：自研的 Muon 優(yōu)化器，在訓練大模型時表現(xiàn)明顯好于主流的 AdamW。如果預訓練語料是有限的，模型結構也不變，那么“更省 token 的優(yōu)化器”能訓練出“更聰明的模型”

Kimi-K2使用名為MuonClip的新訓練算法，在規(guī)模達到15.5萬億tokens的訓練中保持穩(wěn)定。該算法通過定期調(diào)整注意力機制中的關鍵參數(shù)，成功避免了大模型常見的“訓練崩潰”問題。

Kimi-K2目前提供兩個版本：Kimi-K2-Base用于研究與微調(diào)，Kimi-K2-Instruct適用于通用任務與Agent部署。

兩者均可通過月之暗面的OpenAI兼容API調(diào)用，價格分級明確。

緩存命中輸入每百萬tokens僅需$0.15，未命中為$0.60，輸出為$2.50，符合商業(yè)化預期。

月之暗面還允許開發(fā)者使用vLLM、SGLang、KTransformers或TensorRT-LLM在本地部署。

在GitHub上可查閱完整的部署說明。

模型遵循MIT開源協(xié)議，但對超大規(guī)模部署有附加條款：若產(chǎn)品用戶超過1億，或月營收超2000萬美元，需在界面明確展示“Kimi-K2”名稱。

這對于大多數(shù)初創(chuàng)公司或開發(fā)者來說不構成障礙，反而是品牌信用的體現(xiàn)。

不過，Kimi-K2并非輕裝上陣：推理需調(diào)用320億參數(shù)，高效推理通常需多卡Hopper或同級GPU。

據(jù)蘋果開發(fā)者Awni Hannun透露，其4-bit量化版本可在兩臺配備512GB內(nèi)存的Apple M3 Ultra機器上運行，但門檻依然顯著。

責任編輯：龐桂玉來源：大數(shù)據(jù)文摘

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看