成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Kimi思考模型k1.5是怎么練成的?細節曝光

發布于 2025-1-22 11:58
瀏覽
0收藏

Kimi發布新一代多模態思考模型k1.5,在競賽數學、代碼能力及視覺思考等測試中,k1.5模型性能已達到全球領先模型OpenAI o1 正式版水平,月之暗面也成為OpenAI 之外,全球第二家到達該水平的人工智能企業。

    Kimi 1.5 long-CoT評測結果

Kimi思考模型k1.5是怎么練成的?細節曝光-AI.x社區

long to short,用長鏈式思考技術改進短鏈式思考模型,在短鏈式推理性能測試中,k1.5模型在數學、代碼、視覺多模態和通用能力等方面到達或超越GPT-4o、Claude Sonnet 3.5等全球領先模型。

    Kimi 1.5 short-CoT評測結果

Kimi思考模型k1.5是怎么練成的?細節曝光-AI.x社區

新模型發布的同時,kimi還首次對外公布了多模態模型技術訓練報告,k1.5的訓練包括這幾個階段:

預訓練 -> SFT -> Long-CoT SFT -> RL

其中,預訓練與SFT要點概況如下:

  • 預訓練:k1.5 的預訓練涉及多模態數據(文本、視覺、OCR 等),并分為三個階段:視覺-語言預訓練、冷啟動階段和長文本激活階段。
  • 監督微調:使用高質量的標注數據進行分階段學習率調整微調,涵蓋問答、寫作、數學、編程和視覺-文本數據。

25頁的技術報告重點聚焦在強化學習部分

數據構建 -> 預熱 Long-CoT SFT -> RL -> Long2Short

https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

Kimi思考模型k1.5是怎么練成的?細節曝光-AI.x社區

1. RL數據構建

數據質量和多樣性對強化學習的效果至關重要。高質量的提示集可以引導模型進行穩健的推理,并減少 reward hacking 和 overfitting 的風險。

  • 多樣化覆蓋:涵蓋廣泛的學科領域(如 STEM、編程和通用推理),以增強模型的適應性。
  • 難度平衡:包含不同難度級別的問題,以支持模型的逐步學習。
  • 可驗證性:答案和推理過程應能夠被準確驗證,避免模型通過錯誤的推理過程得出正確答案。

2、預熱-Long-CoT微調

通過構建小的高質量 Long-CoT 熱身數據集并進行微調,目的是讓模型內化人類推理的關鍵認知過程(如規劃、評估、反思和探索),從而提升其在復雜推理任務中的表現和邏輯連貫性。

3、強化學習

強化學習是 k1.5 的核心訓練階段,無需依賴蒙特卡洛樹搜索(MCTS)、價值函數或過程獎勵模型等復雜技術,通過長上下文擴展和策略優化實現高效學習。

Kimi思考模型k1.5是怎么練成的?細節曝光-AI.x社區

  • 長上下文擴展是k1.5的核心創新之一。通過將上下文窗口擴展到128k,模型能夠處理更復雜的推理任務。背后的關鍵技術是 partial rollout ,它允許模型在訓練過程中復用之前生成的軌跡片段,避免從頭開始生成新軌跡,從而顯著提高訓練效率。
  • k1.5采用在線鏡像下降算法的變體進行策略優化,通過采樣策略、長度懲罰和數據配方優化,進一步提升模型性能。長度懲罰機制通過限制模型生成過長的推理過程,提高推理效率,同時避免“過度思考”問題。此外,模型還采用了curriculum sampling和 prioritized sampling 策略,優先訓練模型在困難問題上的表現。

4、Long2short

Long-CoT模型表現出色,但在測試時消耗的token數量比Short-CoT更多。有沒可能將Long-CoT推理模型的思維先驗轉移到Short-CoT推理模型中,從而即使在測試時的token預算有限的情況下,也能提升性能,答案是肯定,k1.5嘗試了以下方法:

  • 模型融合(Model Merging):通過平均權重合并Long-CoT 和Short-CoT 模型。?
  • 最短拒絕采樣(Shortest Rejection Sampling):從多次采樣中選擇最短的正確答案。?
  • 直接偏好優化(DPO):通過正負樣本對訓練Short-CoT 模型。?
  • Long2Short RL 訓練:通過 RL 進一步優化Short-CoT 模型的性能。

Kimi思考模型k1.5是怎么練成的?細節曝光-AI.x社區

本文轉載自?? PaperAgent??,作者: PaperAgent


已于2025-1-24 10:11:05修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 怡红院怡春院一级毛片 | 亚洲夜夜爽 | 久久久91精品国产一区二区三区 | japanhd美女动 | www.国产精 | 欧美二区在线 | 中文字幕高清 | 盗摄精品av一区二区三区 | 国产精品久久久久999 | 欧美性猛交一区二区三区精品 | 精品视频一区二区三区在线观看 | 日本亚洲一区 | 伊人焦久影院 | 欧美综合一区 | 欧美一级黄色片 | 久久av.com | 国产精品毛片一区二区三区 | www成年人视频 | 欧美福利精品 | 91网站视频在线观看 | 99精品99 | 天天射天天干 | 综合九九 | 久久69精品久久久久久久电影好 | 成人av一区二区亚洲精 | 成人三级影院 | 亚洲成在线观看 | 国产午夜视频 | 日本亚洲精品 | 国产一区二区精品 | 日韩第一页 | 国产亚洲一区二区三区在线观看 | 欧美一卡二卡在线 | 黄色一级电影免费观看 | 精品一区二区电影 | 成人免费视频网站在线观看 | 三级视频网站 | 91精品国产色综合久久 | 丁香久久 | 精品中文字幕视频 | 欧美日韩综合视频 |