成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<sub id="xrzlj"><del id="xrzlj"><big id="xrzlj"></big></del></sub>

<tfoot id="xrzlj"></tfoot>

<video id="xrzlj"><tt id="xrzlj"><acronym id="xrzlj"></acronym></tt></video>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

Kimi思考模型k1.5是怎么練成的？細節曝光

發布于 2025-1-22 11:58

瀏覽

0收藏

Kimi發布新一代多模態思考模型k1.5，在競賽數學、代碼能力及視覺思考等測試中，k1.5模型性能已達到全球領先模型OpenAI o1 正式版水平，月之暗面也成為OpenAI 之外，全球第二家到達該水平的人工智能企業。

Kimi 1.5 long-CoT評測結果

Kimi思考模型k1.5是怎么練成的？細節曝光-AI.x社區

long to short，用長鏈式思考技術改進短鏈式思考模型，在短鏈式推理性能測試中，k1.5模型在數學、代碼、視覺多模態和通用能力等方面到達或超越GPT-4o、Claude Sonnet 3.5等全球領先模型。

Kimi 1.5 short-CoT評測結果

Kimi思考模型k1.5是怎么練成的？細節曝光-AI.x社區

新模型發布的同時，kimi還首次對外公布了多模態模型技術訓練報告，k1.5的訓練包括這幾個階段：

預訓練 -> SFT -> Long-CoT SFT -> RL

其中，預訓練與SFT要點概況如下：

預訓練：k1.5 的預訓練涉及多模態數據（文本、視覺、OCR 等），并分為三個階段：視覺-語言預訓練、冷啟動階段和長文本激活階段。
監督微調：使用高質量的標注數據進行分階段學習率調整微調，涵蓋問答、寫作、數學、編程和視覺-文本數據。

25頁的技術報告重點聚焦在強化學習部分：

數據構建 -> 預熱 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么練成的？細節曝光-AI.x社區

1. RL數據構建

數據質量和多樣性對強化學習的效果至關重要。高質量的提示集可以引導模型進行穩健的推理，并減少 reward hacking 和 overfitting 的風險。

多樣化覆蓋：涵蓋廣泛的學科領域（如 STEM、編程和通用推理），以增強模型的適應性。
難度平衡：包含不同難度級別的問題，以支持模型的逐步學習。
可驗證性：答案和推理過程應能夠被準確驗證，避免模型通過錯誤的推理過程得出正確答案。

2、預熱-Long-CoT微調

通過構建小的高質量 Long-CoT 熱身數據集并進行微調，目的是讓模型內化人類推理的關鍵認知過程（如規劃、評估、反思和探索），從而提升其在復雜推理任務中的表現和邏輯連貫性。

3、強化學習

強化學習是 k1.5 的核心訓練階段，無需依賴蒙特卡洛樹搜索（MCTS）、價值函數或過程獎勵模型等復雜技術，通過長上下文擴展和策略優化實現高效學習。

Kimi思考模型k1.5是怎么練成的？細節曝光-AI.x社區

長上下文擴展是k1.5的核心創新之一。通過將上下文窗口擴展到128k，模型能夠處理更復雜的推理任務。背后的關鍵技術是 partial rollout ，它允許模型在訓練過程中復用之前生成的軌跡片段，避免從頭開始生成新軌跡，從而顯著提高訓練效率。
k1.5采用在線鏡像下降算法的變體進行策略優化，通過采樣策略、長度懲罰和數據配方優化，進一步提升模型性能。長度懲罰機制通過限制模型生成過長的推理過程，提高推理效率，同時避免“過度思考”問題。此外，模型還采用了curriculum sampling和 prioritized sampling 策略，優先訓練模型在困難問題上的表現。

4、Long2short

Long-CoT模型表現出色，但在測試時消耗的token數量比Short-CoT更多。有沒可能將Long-CoT推理模型的思維先驗轉移到Short-CoT推理模型中，從而即使在測試時的token預算有限的情況下，也能提升性能，答案是肯定，k1.5嘗試了以下方法：

模型融合（Model Merging）：通過平均權重合并Long-CoT 和Short-CoT 模型。?
最短拒絕采樣（Shortest Rejection Sampling）：從多次采樣中選擇最短的正確答案。?
直接偏好優化（DPO）：通過正負樣本對訓練Short-CoT 模型。?
Long2Short RL 訓練：通過 RL 進一步優化Short-CoT 模型的性能。

Kimi思考模型k1.5是怎么練成的？細節曝光-AI.x社區

本文轉載自?? PaperAgent??，作者： PaperAgent

標簽

已于2025-1-24 10:11:05修改

贊

收藏

回復

舉報

回復

相關推薦

直擊 Google Cloud Next 2024 大會更多細節，不只Gemini 1.5 Pro ！

51CTO技術棧 ? 4847瀏覽 ? 0回復
你知道神經網絡是怎么運作的嗎？神經網絡內部原理解析

AI探索時代 ? 2753瀏覽 ? 0回復
一句話意外挖出了 Kimi 的隱藏提示詞，原來 Kimi 的限制措施是這么實現的（附完整提示詞）！

wsp_ping ? 1.7w瀏覽 ? 0回復
Gamma創始人暢談現象級AI+PPT產品是怎么做出來的？

Syrupup ? 5627瀏覽 ? 0回復
AI新思考：“浴火重生”的草莓模型

魯班模錘1 ? 2342瀏覽 ? 0回復
ChatGPT 的“絕世神功”，是如何練成的？

sulu637 ? 2274瀏覽 ? 0回復
測測Kimi新開的k0-math，你是數學模型，但我就測文本

NLP工作站 ? 2306瀏覽 ? 0回復
Kimi，絕了

風云2002_1 ? 2511瀏覽 ? 0回復
什么是AI Agent，以及怎么實現AI Agent?

AI探索時代 ? 3141瀏覽 ? 0回復
Kimi發布k1視覺思考模型，實力顛覆K12教育賽道，涌現能力強得可怕，免費可用！網友：國產之光！

51CTO技術棧 ? 3637瀏覽 ? 0回復
神經網絡是怎么學習的？

AI探索時代 ? 2021瀏覽 ? 0回復
Kimi的長文本能力：為何優于其他大模型

風云2002_1 ? 2600瀏覽 ? 0回復
Kimi發布最新模型k1.5，技術報告也干貨滿滿

NLP工作站 ? 3624瀏覽 ? 0回復
用強化學習重塑多模態AI：解讀Kimi k1.5的突破與創新

Halo咯咯 ? 2818瀏覽 ? 0回復
Kimi開源Moonlight-16B-A3B的MoE模型！！

NLP工作站 ? 2485瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數學 ? 3529瀏覽 ? 0回復
【AI洞察】Kimi 1.5技術報告全解析：長鏈推理、短鏈優化與多模態融合的創新實踐

Halo咯咯 ? 3067瀏覽 ? 0回復
Seedream 3.0技術細節重磅發布！中文圖文生成再進化,2K高清+爆改文字渲染,遠超Canva！

angel ? 3302瀏覽 ? 0回復
大模型中的知識存儲，到底是怎么回事

芝士AI吃魚 ? 651瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

Doc2X：為知識庫RAG接上高精度文檔解析的“智能引擎” 2天前發布
RAG-Anything：全面的一體化多模態文檔處理 RAG 系統 2天前發布

熱門推薦

AI Agents開源工具棧全解析~ 1回復

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數也沒問題 0回復

Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復

本命周！MiniMax M1有多猛？網友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復

DeepSeek 新模型 R1-0528 悄悄開源，與o3 相當，實測來了 0回復

上一篇： AMD發布科研Agent，論文自動化評分趨近頂會NeurIPS水平！

下一篇： RAG圈的DeepSeek，中科院DeepRAG讓大模型帶著“思考”檢索，性能提升21.99%

社區精華內容

目錄

主站蜘蛛池模板：怡红院怡春院一级毛片 | 亚洲夜夜爽 | 久久久91精品国产一区二区三区 | japanhd美女动 | www.国产精 | 欧美二区在线 | 中文字幕高清 | 盗摄精品av一区二区三区 | 国产精品久久久久999 | 欧美性猛交一区二区三区精品 | 精品视频一区二区三区在线观看 | 日本亚洲一区 | 伊人焦久影院 | 欧美综合一区 | 欧美一级黄色片 | 久久av.com | 国产精品毛片一区二区三区 | www成年人视频 | 欧美福利精品 | 91网站视频在线观看 | 99精品99 | 天天射天天干 | 综合九九 | 久久69精品久久久久久久电影好 | 成人av一区二区亚洲精 | 成人三级影院 | 亚洲成在线观看 | 国产午夜视频 | 日本亚洲精品 | 国产一区二区精品 | 日韩第一页 | 国产亚洲一区二区三区在线观看 | 欧美一卡二卡在线 | 黄色一级电影免费观看 | 精品一区二区电影 | 成人免费视频网站在线观看 | 三级视频网站 | 91精品国产色综合久久 | 丁香久久 | 精品中文字幕视频 | 欧美日韩综合视频 |

<ruby id="wvozz"></ruby>

<form id="wvozz"><sub id="wvozz"></sub></form>

<kbd id="wvozz"><abbr id="wvozz"></abbr></kbd>