追平滿血版o1的國(guó)產(chǎn)多模態(tài)模型終于來(lái)了！訓(xùn)練細(xì)節(jié)全部公開

作者：機(jī)器之心 2025-01-21 08:00:00

剛剛，月之暗面公布了他們的 Kimi k 系列模型最新版本 ——k1.5 多模態(tài)思考模型。

春節(jié)前最后一周，能媲美 Open AI 滿血版 o1（Full Version，而非 preview）的模型終于出現(xiàn)了！

剛剛（），月之暗面公布了他們的 Kimi k 系列模型最新版本 ——k1.5 多模態(tài)思考模型。新模型在數(shù)學(xué)、代碼、多模態(tài)推理能力等方面全面對(duì)標(biāo) Open AI 滿血版 o1，而且是 OpenAI 之外首個(gè)多模態(tài) o1。尤其是 kimi-k1.5-short，成為 SOTA short cot 模型，并大幅領(lǐng)先 GPT-4o 和 Claude 3.5 Sonnet（提升幅度高達(dá) 550%）。

這是 Open AI 之外，首次有模型在數(shù)學(xué)和代碼能力上達(dá)到滿血 o1，月之暗面也是國(guó)內(nèi)第一個(gè)達(dá)到該水平的 AI 公司。在此之前，部分模型在各類 Benchmark 上可以達(dá)到 50 分、60 分的水平（相當(dāng)于 o1-preview），而 o1 滿血版是 80 分、90 分水平，Kimi k1.5 的成績(jī)令人眼前一亮。

這一切是怎么做到的呢？在 Kimi 技術(shù)團(tuán)隊(duì)同步發(fā)布的技術(shù)報(bào)告中，我們可以看到他們?cè)谛录夹g(shù)范式下的模型訓(xùn)練技術(shù)探索之路。

技術(shù)報(bào)告：Kimi k1.5：借助大語(yǔ)言模型實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的 Scaling
報(bào)告鏈接：https://github.com/MoonshotAI/kimi-k1.5

這種技術(shù)透明度在當(dāng)前競(jìng)爭(zhēng)激烈的大模型市場(chǎng)上并不多見。在談及為什么要這么做時(shí)，月之暗面表示，「因?yàn)槲覀円庾R(shí)到，AGI 之旅才剛剛開始。我們想讓更多技術(shù)人才了解我們?cè)谧龅氖虑椋尤胛覀円黄鹱龅礁唷埂?/span>

Kimi k1.5 多項(xiàng)測(cè)試，全部 SOTA

從技術(shù)報(bào)告來(lái)看，Kimi k1.5 多模態(tài)推理模型實(shí)現(xiàn)了 SOTA （state-of-the-art）級(jí)別的推理和通用能力，具體而言：

在 long-CoT 模式下，Kimi k1.5 在數(shù)學(xué)、代碼及多模態(tài)推理能力上，達(dá)到長(zhǎng)思考 SOTA 模型 OpenAI o1 正式版的水平。Kimi k1.5 在 AIME 上達(dá)到 77.5 分，在 MATH 500 上達(dá)到 96.2 分，在 Codeforces 上達(dá)到 94 百分位，在 MathVista 上達(dá)到 74.9 分。

這應(yīng)該是全球范圍內(nèi)，OpenAI 之外的公司首次實(shí)現(xiàn) o1 滿血版性能。此前的模型只能達(dá)到 o1-preview 或 o1-mini 的推理能力。

在 short-CoT 模式下，Kimi k1.5 在數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力上，也達(dá)到了全球范圍內(nèi)短思考 SOTA 模型，并大幅領(lǐng)先 GPT-4o 和 Claude 3.5 Sonnet 的水平。比如，Kimi k1.5 在 AIME 上達(dá)到 60.8 分，MATH500 上達(dá)到 94.6 分，LiveCodeBench 上達(dá)到 47.3 分。

不僅如此，從全球前沿大模型數(shù)學(xué)競(jìng)賽和編程競(jìng)賽基準(zhǔn)測(cè)試來(lái)看，Kimi k1.5 的表現(xiàn)也相當(dāng)不錯(cuò)，處于全球第一梯隊(duì)，而這兩項(xiàng)測(cè)試代表了人類智商巔峰。

總之，從 Benchmark 數(shù)據(jù)來(lái)看，k1.5 的推理能力實(shí)現(xiàn)了很大提升，可以幫助我們解鎖更難的代碼、數(shù)學(xué)、生活等問(wèn)題。

Kimi k1.5 是怎么練成的？

隨著模型尺寸逐漸增大，預(yù)訓(xùn)練階段參數(shù) scaling up 帶來(lái)的邊際收益開始遞減，如果想要深度提升模型推理能力和長(zhǎng)程問(wèn)題能力，基于強(qiáng)化學(xué)習(xí)的 Post-Training 將會(huì)成為下一個(gè)突破點(diǎn) [1]，因?yàn)?scaling 強(qiáng)化學(xué)習(xí)為人工智能的持續(xù)進(jìn)步開辟了新的維度，它使得大語(yǔ)言模型能夠通過(guò)帶有獎(jiǎng)勵(lì)的探索學(xué)習(xí)來(lái)擴(kuò)展其訓(xùn)練數(shù)據(jù)，從而也實(shí)現(xiàn)計(jì)算規(guī)模的擴(kuò)展。

大的方向非常明確，然而，此前發(fā)表的研究工作尚未產(chǎn)生具有競(jìng)爭(zhēng)力的結(jié)果。

有鑒于此，Kimi 技術(shù)團(tuán)隊(duì)在 Kimi k1.5 的訓(xùn)練實(shí)踐中全面探索了 RL 訓(xùn)練技術(shù)、多模態(tài)數(shù)據(jù)配方和基礎(chǔ)設(shè)施優(yōu)化。

難得的是，他們探索出的 RL 框架簡(jiǎn)單、有效，無(wú)需依賴蒙特卡洛樹搜索、價(jià)值函數(shù)和過(guò)程獎(jiǎng)勵(lì)模型等更復(fù)雜的技術(shù)也能取得優(yōu)異的性能。

此外，他們還提出了有效的 long2short 技術(shù)，利用 Long-CoT 技術(shù)來(lái)改進(jìn) Short-CoT 模型，使得模型在短鏈思維推理方面取得了最佳成果。

簡(jiǎn)單、有效的 RL 框架

Kimi 技術(shù)團(tuán)隊(duì)設(shè)計(jì)的簡(jiǎn)單而有效的 RL 框架離不開兩個(gè)關(guān)鍵要素：長(zhǎng)上下文 scaling 和改進(jìn)的策略優(yōu)化。

先說(shuō)長(zhǎng)上下文 scaling。他們將強(qiáng)化學(xué)習(xí)的上下文窗口 scale 到 128k，并觀察到隨著上下文長(zhǎng)度的增加，模型性能持續(xù)改善。新方法背后的一個(gè)關(guān)鍵理念是使用 partial rollout 來(lái)提高訓(xùn)練效率 —— 即通過(guò)重用大量以前的軌跡來(lái)采樣新的軌跡，避免從頭重新生成新軌跡的成本。技術(shù)團(tuán)隊(duì)的觀察表明，上下文長(zhǎng)度是大語(yǔ)言模型強(qiáng)化學(xué)習(xí)持續(xù) scaling 的一個(gè)關(guān)鍵維度。

再來(lái)看策略優(yōu)化的改進(jìn)。他們推導(dǎo)出了一個(gè)具有 long-CoT 的強(qiáng)化學(xué)習(xí)公式，并采用在線鏡像下降法的變體來(lái)實(shí)現(xiàn)穩(wěn)健的策略優(yōu)化。通過(guò)有效的采樣策略、長(zhǎng)度懲罰和數(shù)據(jù)配方的優(yōu)化，他們進(jìn)一步改進(jìn)了該算法。

通過(guò)將這兩個(gè)關(guān)鍵要素結(jié)合，Kimi 技術(shù)團(tuán)隊(duì)建立了一個(gè)用于 LLM 學(xué)習(xí)的簡(jiǎn)化強(qiáng)化學(xué)習(xí)框架。由于該框架能夠 scale 上下文長(zhǎng)度，學(xué)習(xí)到的 CoT 展現(xiàn)出規(guī)劃、反思和糾正的特性。增加的上下文長(zhǎng)度具有增加搜索步驟數(shù)量的效果。因此，他們表明無(wú)需依賴蒙特卡洛樹搜索、價(jià)值函數(shù)和過(guò)程獎(jiǎng)勵(lì)模型等更復(fù)雜的技術(shù)也能實(shí)現(xiàn)強(qiáng)大的性能。

此外，他們的模型還在文本和視覺數(shù)據(jù)上進(jìn)行了聯(lián)合訓(xùn)練，具備對(duì)這兩種模態(tài)進(jìn)行聯(lián)合推理的能力。

long2short 技術(shù)

盡管 long-CoT 模型在性能上表現(xiàn)出色，但與標(biāo)準(zhǔn)的 short-CoT LLM 相比，它在測(cè)試時(shí)消耗的 token 數(shù)量更多。然而，Kimi 技術(shù)團(tuán)隊(duì)發(fā)現(xiàn)將 long-CoT 模型的思維先驗(yàn)遷移到 short-CoT 模型中是可能的，從而在有限的測(cè)試 token 預(yù)算下提升性能。

他們提出了幾種解決這一 long2short 問(wèn)題的方法，包括模型融合、最短拒絕采樣、DPO 以及 long2short RL。以下是這些方法的詳細(xì)描述：

模型融合。團(tuán)隊(duì)人員發(fā)現(xiàn)模型融合（Model Merging）有助于保持模型的泛化能力。他們還發(fā)現(xiàn)，在融合 long-CoT 模型和 short-CoT 模型時(shí)，模型融合也能有效提升 token 效率。這種方法通過(guò)將 long-CoT 模型與 short-CoT 模型結(jié)合，從而在不進(jìn)行訓(xùn)練的情況下獲得一個(gè)新模型。具體來(lái)說(shuō)，他們通過(guò)簡(jiǎn)單地平均兩個(gè)模型的權(quán)重來(lái)實(shí)現(xiàn)融合。
最短拒絕采樣。研究者觀察到，模型在回答相同問(wèn)題時(shí)生成的響應(yīng)長(zhǎng)度存在較大差異。基于此，他們?cè)O(shè)計(jì)了最短拒絕采樣（Shortest Rejection Sampling）方法。該方法對(duì)同一個(gè)問(wèn)題采樣 n 次（實(shí)驗(yàn)中，n=8），并選擇最短的正確響應(yīng)進(jìn)行監(jiān)督微調(diào)。
DPO。與最短拒絕采樣類似，團(tuán)隊(duì)人員利用 Long CoT 模型生成多個(gè)響應(yīng)樣本。并選擇最短的正確解決方案作為正樣本，而較長(zhǎng)的響應(yīng)則被視為負(fù)樣本，包括錯(cuò)誤的較長(zhǎng)響應(yīng)和正確的較長(zhǎng)響應(yīng)。這些正負(fù)樣本對(duì)構(gòu)成了用于 DPO 訓(xùn)練的成對(duì)偏好數(shù)據(jù)。
Long2short RL。在標(biāo)準(zhǔn)的 RL 訓(xùn)練階段之后，團(tuán)隊(duì)人員選擇一個(gè)在性能和 token 效率之間達(dá)到最佳平衡的模型作為基礎(chǔ)模型，并進(jìn)行單獨(dú)的 long2short RL 訓(xùn)練階段。在這個(gè)第二階段中，他們還應(yīng)用了長(zhǎng)度懲罰機(jī)制，從而顯著減少最大 rollout 長(zhǎng)度，以進(jìn)一步懲罰那些超出期望長(zhǎng)度但可能正確的響應(yīng)。

除了以上這些，Kimi k1.5 的技術(shù)報(bào)告還透露了很多信息。感興趣的讀者可以去閱讀原文。

2025：加速升級(jí) k 系列強(qiáng)化學(xué)習(xí)模型

OpenAI 于 2024 年 5 月、9 月推出的 GPT-4o、o1 兩個(gè)模型，分別代表了多模態(tài)理解、強(qiáng)化學(xué)習(xí)兩條技術(shù)路線。在這兩條路線上，國(guó)內(nèi) AI 公司都在陸續(xù)發(fā)力，并在最近展開了激烈競(jìng)爭(zhēng)。如今，Kimi 模型在能力上最接近 o1，這讓外界對(duì)這家公司在 2025 年的表現(xiàn)充滿了期待。

月之暗面表示，2025 年，他們會(huì)繼續(xù)加速升級(jí) k 系列強(qiáng)化學(xué)習(xí)模型，帶來(lái)更多模態(tài)、更多領(lǐng)域的能力和更強(qiáng)的通用能力。