揭秘 DeepSeek-R1 的 “修煉之路”：從基礎模型到推理高手的四階段訓練法原創

發布于 2025-7-18 14:06

瀏覽

0收藏

在大模型競爭白熱化的今天，DeepSeek-R1 憑借在數學推理、代碼生成等復雜任務中的亮眼表現脫穎而出。它的成功并非一蹴而就，而是經過四階段精心訓練的結果。今天，我們就來拆解這一 “推理高手” 的成長軌跡，看看它是如何從基礎模型一步步進化為多面手的。

揭秘 DeepSeek-R1 的 “修煉之路”：從基礎模型到推理高手的四階段訓練法-AI.x社區

一階段：冷啟動監督微調（Cold Start SFT）—— 打好推理 “地基”

如果把 DeepSeek-R1 的訓練比作蓋房子，那么第一階段就是 “打地基”。這一階段的核心目標是讓模型掌握基本的推理邏輯和表達規范，為后續訓練鋪路。

具體來說，研究者們用數千條人工標注的高質量思維鏈（CoT）數據，對基礎模型（DeepSeek-V3-Base）進行輕量微調。這些數據每條都包含多語言對齊的規范格式，比如用??<reasoning>???和???</reasoning>???標簽包裹推理過程，就像給模型 “劃重點”，告訴它 “推理過程要這么寫”。

這一步的作用至關重要：一方面，它能激發模型輸出邏輯連貫的推理過程，讓模型學會 “按人類的方式思考”；另一方面，它為后續的強化學習提供了穩定起點，能顯著縮短訓練的收斂時間。就像教孩子做數學題時，先給幾道帶詳細步驟的例題，孩子才能更快上手。

二階段：面向推理的強化學習（Reasoning-Oriented RL）—— 專攻復雜任務

有了基礎的推理能力，接下來就要針對性提升模型在復雜任務中的表現了。第二階段就像 “專項訓練”，讓模型在數學、編程、科學等需要深度推理的任務中 “打怪升級”。

這一階段采用了GRPO 算法（一種高效的強化學習算法），并設計了 “混合獎勵函數” 來給模型的表現打分：

規則獎勵：比如數學題答案是否正確、代碼能否運行通過、輸出格式是否規范；
語言一致性獎勵：如果模型輸出中英文混雜，就會被 “扣分”，以此提升目標語言的占比。

經過這一階段的訓練，模型的推理能力突飛猛進。比如在 2024 年美國數學邀請賽（AIME）中，模型的準確率從 15.6% 飆升到 71.0%，相當于從 “勉強及格” 躍升到 “優秀水平”。

三階段：拒絕采樣與監督微調（Rejection Sampling & SFT）—— 平衡能力與泛化

專攻推理任務后，模型可能會 “偏科”—— 推理能力強了，但在寫作、問答等通用任務中表現一般。第三階段的目標就是 “全面發展”，讓模型既能解難題，又能聊日常。

研究者們用了兩個妙招：

拒絕采樣：讓經過第二階段訓練的模型生成大量回答，篩選出約 60 萬條高質量推理數據（比如邏輯嚴謹、表達清晰的內容）；
復用通用數據：加入 DeepSeek-V3 已有的 20 萬條通用任務數據（涵蓋寫作、角色扮演等）。

之后進行兩輪監督微調：先只用 60 萬條推理數據微調，再用全部 80 萬條數據（推理 + 通用）微調。這就像讓學霸既做奧數題，也練作文，最終實現 “推理能力不縮水，通用能力補短板”。

四階段：全場景強化學習（RL for All Scenarios）—— 對齊人類需求

經過前三階段，模型已經具備了強推理能力和通用性，但還需要 “懂人心”—— 符合人類偏好，兼顧安全性和開放域泛化能力。第四階段就是 “打磨細節”，讓模型成為真正能用的 “全場景助手”。

這一階段的關鍵是多樣化獎勵機制：

推理任務：繼續用規則獎勵（如數學答案驗證）；
通用任務（如對話、寫作）：用神經獎勵模型評估 “無害性” 和 “實用性”（比如回答是否友好、是否有幫助）。

同時，訓練數據涵蓋了用戶日常查詢、長文本理解等場景，確保模型在各種實際使用中都能 “不掉線”。最終，經過這一階段的模型，既能嚴謹推導數學公式，也能輕松聊家常，還能避免輸出有害內容。

為何這樣的四階段訓練能成功？

DeepSeek-R1 的四階段訓練，本質是 “循序漸進、交替優化” 的智慧：先用監督微調打基礎，再用強化學習攻難點，接著用混合數據補短板，最后用全場景訓練對齊人類需求。這種 “兩步走”（SFT 和 RL 交替）的方式，既保證了模型的推理深度，又兼顧了通用能力和安全性。

從結果來看，這種方法效果顯著：DeepSeek-R1 在 AIME、MATH-500 等推理 benchmark 上表現接近 OpenAI o1 系列，同時在寫作、對話等任務中也能保持良好表現。

寫在最后

DeepSeek-R1 的四階段訓練，為大模型推理能力的提升提供了一套可復用的 “方法論”—— 從基礎規范到專項突破，再到全面平衡，最后對齊需求。對于企業來說，這種 “循序漸進、靶向優化” 的思路，也能為自家模型的訓練和迭代提供參考。

如果說大模型是人工智能的 “引擎”，那么科學的訓練方法就是 “燃料”。DeepSeek-R1 的成長軌跡，或許正預示著未來大模型訓練的重要方向：更精細、更高效、更貼近人類真實需求。

參考文獻

南門子，《阿里淘天大模型終面：麻了，真的麻了！》，??https://mp.weixin.qq.com/s/x43pwfNw7doFB5pGMLpJfA??，2025-06-19，微信公眾號
《DeepSeek-R1 背后的思維鏈（CoT）技術》，??https://mp.weixin.qq.com/s/2BEETD2xukrLP6hP9uLxXA??，2025-02-15，微信公眾號
《一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法》，??https://mp.weixin.qq.com/s/rG9cRYqHIwTc7-bR2qCIEg??，2025-02-08，微信公眾號
《15 問深入理解 DeepSeek-R1》，??https://mp.weixin.qq.com/s/2hUYDmHimge_trFLGXlueA??，2025-02-01，微信公眾號
《DeepSeek-R1 萬字解讀》，??https://mp.weixin.qq.com/s/LszsOMVwL7Om7860HqgK_g??，2025-01-31，微信公眾號

本文轉載自???鴻煊的學習筆記???，作者：乘風破浪jxj

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

DeepSeek-R1

大模型

贊

回復