一文速通 DeepSeek 家族核心技術點：從 LLM 到 R1！

作者：小喵學AI 2025-02-11 15:56:18

本文筆者將總結梳理DeepSeek家族從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都包括哪些核心技術點，看看DeepSeek采用了哪些技術構建了最先進的大模型。

DeepSeek橫空出世并迅速走紅，引發了全球科技圈的強烈震動，NVIDIA股價暴跌18%，全球科技股市市值蒸發近1萬億美元。特朗普也居然公開稱贊DeepSeek的崛起具有“積極意義”，并表示這給美國敲響了“警鐘”。Anthropic一方面肯定了DeepSeek的成就，另一方面卻呼吁美國政府加強對華芯片管制。這也表明中國的AI實力已經不容小覷，正在改變全球AI的發展格局。

DeepSeek系列在技術創新的道路上不斷深耕，每一次新版本的發布，都是在原有基礎上的一次飛躍，不斷為行業注入新的活力。從最初的DeepSeek LLM到最新的DeepSeek R1，每一款模型都蘊含了獨特的創新點，在模型架構、訓練方法、數據集開發等多個維度上不斷突破。

本文筆者將總結梳理DeepSeek家族從最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath，再到DeepSeek V2、DeepSeek V3以及最新的DeepSeek R1，每一款模型都包括哪些核心技術點，看看DeepSeek采用了哪些技術構建了最先進的大模型。每一次的升級迭代都伴隨著哪些訓練數據的優化、模型結構的升級以及優化方式的更新，并與大家分享~

DeepSeek LLM

(1) 發布日期：2024年1月

(2) 數據&架構

2萬億個中英文詞元（2T Tokens）
調整了模型層數，DeepSeek 7B是30層，DeepSeek 67B是95層。
使用 GQA 優化推理成本。

(3) 訓練&Infra

使用多階段學習率調度器替代余弦學習率調度器，可以方便復用第一個訓練階段，在continual training時有獨特的優勢。
使用內部自研的輕量級高效訓練框架HAI-LLM來支持訓練和評估LLM。

(4) Scaling Laws

找到最優的模型/數據規模分配比例。

(5) 性能

67B模型性能超越LLaMA-2 70B。
Chat版本優于GPT-3.5。

DeepSeek MoE

(1) 發布日期: 2024年1月

(2) 數據&架構

采用了創新的 MoE 架構，涉及兩個主要策略：細粒度專家細分和共享專家隔離。
在2T英文和中文token上從頭開始訓練。

(3) 性能

DeepSeekMoE 16B的性能與DeekSeek 7B和LLaMA2 7B相當，計算量僅為40%左右。
16B版本可在單40GB內存GPU上部署，通過有監督微調構建了聊天模型，還采用專家級和設備級平衡損失緩解負載不均衡問題。

DeepSeek Math

(1) 發布日期：2024年2月

(2) 數據&架構

來自Common Crawl提取的120B高質量數學網頁數據，總數據量是開源數據集OpenWebMath的9倍。
引入了PPO變體的強化學習算法GRPO，丟棄了Critic Model，顯著減少了訓練顯存并提升了對齊效果。

(3) 預訓練

使用了代碼領域模型DeepSeek-Coder-v1.5初始化，可以獲得比從通用用模型初始化更好的數學能力。

(4) 性能

在中英數學基準榜單上超過Mistral 7B、Llemma-34B，逼近GPT-4能力，跟Minerva 540B效果相當。

DeepSeek V2

(1) 發布日期：2024年5月

(2) 數據&架構

改造注意力模塊，提出 MLA（Multi-Head Latent Attention）。
改進 MoE（Mixture-of-Experts）。
基于YaRN擴展長上下文。

(3) 訓練

設計三種輔助損失并引入Token-Dropping策略，通過多階段訓練流程提升性能。

DeepSeek V3

(1) 發布日期：2024年12月

(2) 數據&架構

采用無輔助損失的負載均衡策略。
多Token預測。
基于YaRN擴展長上下文。

(3) 訓練

使用 FP8 混合精度訓練框架。
使用高效通信框架。

(4) 優化

通過知識蒸餾提升推理性能。

(5) 性能

在低訓練成本下性能強大。
基礎模型超越其他開源模型。
聊天版本與領先閉源模型性能相當。

DeepSeek R1

(1) 發布日期：2025年1月

(2) 數據&架構

采用多階段訓練和冷啟動數據。

(3) 性能

DeepSeek-R1-Zero無需SFT就有卓越推理能力，與OpenAI-o1-0912在AIME上性能相當。
DeepSeek-R1推理性能與OpenAI-o1-1217相當。
提煉出六個蒸餾模型，顯著提升小模型推理能力。

責任編輯：趙寧寧來源：小喵學AI

DeepSeek AI 人工智能

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文速通 DeepSeek 家族核心技術點：從 LLM 到 R1！

DeepSeek LLM

DeepSeek MoE

DeepSeek Math

DeepSeek V2

DeepSeek V3

DeepSeek R1