碾壓DeepSeek V3！開源AI Agent專屬模型，1萬億參數(shù)、工具使用能力超強

2025-07-14 09:23:45

人工智能新聞

為了教授模型復(fù)雜的工具使用能力，Kimi K2?開發(fā)了一個全面的管道，靈感來源于?ACEBench，能夠大規(guī)模模擬真實世界的工具使用場景。

國內(nèi)知名大模型平臺月之暗面（MoonshotAI）開源了最新模型Kimi-K2。

Kimi-K2是一個混合專家模型，總參數(shù)1萬億，320億參數(shù)處于激活狀態(tài)，訓(xùn)練數(shù)據(jù)高達15.5Ttoken，有基礎(chǔ)和微調(diào)兩種模型。

除了常規(guī)的問答功能之外，Kimi-K2特意針對AIAgent進行了大幅度優(yōu)化，非常擅長使用各種工具，能幫助開發(fā)者打造特定不同領(lǐng)域的智能體。

開源地址：https://huggingface.co/moonshotai/Kimi-K2-Instruct

https://huggingface.co/moonshotai/Kimi-K2-Base

根據(jù)月之暗面公布的測試數(shù)據(jù)顯示，Kimi-K2在SWE-bench的單次測試中達到了65.8分，碾壓了DeepSeek最新開源的V3-0324模型38.8分，以及OpenAI閉源模型GPT-4.1的54.6分。

在多語言測試中，Kimi-K2同樣以47.3的高分超過了V3-0324的25.8分和GPT-4.1的31.5分。

在LiveCodeBenchv6代碼測試中，Kimi-K2以53.7分超過了V3-0324、GPT-4.1、Gemini2.5Flashnon-thinking等所有開閉源模型。

在工具使用方面，Kimi-K2同樣表現(xiàn)非常出色，以66.1的分數(shù)再次超過了V3-0324、GPT-4.1；數(shù)學(xué)能力方面，Kimi-K2取得了49.5分，超過了V3-0324的46.7和GPT-4.1的37。

使用Kimi-K2打造的智能體來自動分析一份超復(fù)雜的薪資。例如，利用2020–2025年的薪資數(shù)據(jù)，檢驗遠程工作比例對薪資的影響，并確定這種影響在不同經(jīng)驗水平初級、中級、高級、專家之間是否存在顯著差異。

也就是說，是否存在交互效應(yīng)。用統(tǒng)計證據(jù)和豐富的可視化圖表支撐你的分析。所有圖表需使用統(tǒng)一、協(xié)調(diào)的調(diào)色板，例如，柔和色調(diào)、低飽和度色調(diào)。

或者用智能體規(guī)劃一下酷玩樂隊2025年演唱會的行程。

當然，Kimi-K2超強的代碼能力，畫一個球在六邊形中彈跳還是相當輕松的。

在模型訓(xùn)練流程上，Kimi-K2進行了獨特的技術(shù)創(chuàng)新。預(yù)訓(xùn)練是智能體智能的關(guān)鍵基礎(chǔ)，由于人類數(shù)據(jù)有限，預(yù)訓(xùn)練期間的token效率成為AI縮放定律中的關(guān)鍵因素。

Kimi-K2采用了MuonClip優(yōu)化器，這是在Muon優(yōu)化器基礎(chǔ)上改進而來的，通過qk-clip技術(shù)解決了訓(xùn)練中注意力logits爆炸的問題，確保了大規(guī)模LLM訓(xùn)練的穩(wěn)定性，在15.5Ttoken上完成了預(yù)訓(xùn)練，且過程中沒有出現(xiàn)訓(xùn)練峰值。

此外，增強智能體能力主要來自兩個方面，一方面是大規(guī)模智能體數(shù)據(jù)合成，這一方式用于工具使用學(xué)習(xí)，借鑒 ACEBench 開發(fā)了全面的管道，能夠模擬真實世界的工具使用場景，從而生成高質(zhì)量的訓(xùn)練數(shù)據(jù)；另一方面是通用強化學(xué)習(xí)，這解決了在具有可驗證和不可驗證獎勵的任務(wù)上應(yīng)用 RL 的挑戰(zhàn)，模型通過自我判斷機制為不可驗證任務(wù)提供反饋，并利用可驗證獎勵不斷更新評判標準。

為了教授模型復(fù)雜的工具使用能力，Kimi K2 開發(fā)了一個全面的管道，靈感來源于 ACEBench，能夠大規(guī)模模擬真實世界的工具使用場景。該方法系統(tǒng)地演化了包含數(shù)千種工具的數(shù)百個領(lǐng)域，包括真實的MCP工具和合成工具，并生成了具有多樣化工具集的數(shù)百個智能體。

所有任務(wù)都基于評分標準進行評估，智能體與模擬環(huán)境和用戶智能體進行交互，創(chuàng)建出真實的多輪工具使用場景。一個 LLM 評委根據(jù)任務(wù)評分標準評估模擬結(jié)果，篩選出高質(zhì)量的訓(xùn)練數(shù)據(jù)。這種可擴展的管道生成了多樣化、高質(zhì)量的數(shù)據(jù)，為大規(guī)模拒絕采樣和強化學(xué)習(xí)鋪平了道路。

通用強化學(xué)習(xí)，將強化學(xué)習(xí)應(yīng)用于具有可驗證和不可驗證獎勵的任務(wù)是一個關(guān)鍵挑戰(zhàn)。典型的可驗證任務(wù)包括數(shù)學(xué)和競賽編程，而撰寫研究報告通常被視為不可驗證任務(wù)。Kimi K2 的通用強化學(xué)習(xí)系統(tǒng)采用自評判機制，模型充當自己的批評者，為不可驗證任務(wù)提供可擴展的、基于評分標準的反饋。

同時，使用具有可驗證獎勵的在線策略回放來持續(xù)更新批評者，使其能夠不斷提高對最新策略的評估準確性。這可以看作是利用可驗證獎勵來改進不可驗證獎勵估計的一種方式。

責任編輯：張燕妮來源： AIGC開放社區(qū)

開發(fā)AI 模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

碾壓DeepSeek V3！開源AI Agent專屬模型，1萬億參數(shù)、工具使用能力超強