DeepSeek 關鍵技術詳解

作者：騰訊技術工程 2025-02-17 09:00:00

展望未來，DeepSeek 有望在很大程度上促進大模型行業應用的發展，這些技術不僅可以提升當前大模型業務的效果與效率，還能提供新的解決方案思路。

作者：leaf

在今年的春節期間，DeepSeek火出了圈。憑借DeepSeek-V3與DeepSeek-R1的創新技術和卓越表現，DeepSeek迅速成為了行業內外的焦點。不管是技術專家還是普通用戶，都對DeepSeek贊不絕口。我們特別準備了這篇技術科普文章，期望無論你是不是技術同學，都能夠讀懂DeepSeek。

一、DeepSeek 系列模型的技術創新

表1. DeepSeek 關鍵技術一覽

1. DeepSeek MoE 架構

圖1. DeepSeek MoE 框架示意圖

圖1選自DeepSeek-Moe報告[1]，展示了 DeepSeek 從傳統 MoE 模型架構（a）的基礎上，做的兩部分改進（b）與（c）：

（a）傳統 MoE 模塊：MoE 模塊包含個前饋神經網絡（Feed-Forward Network, FFN）專家，每個專家在處理特定類型的數據上具有獨特的優勢。MoE 模塊通過路由機制，根據輸入數據的特征動態選擇最合適的個專家進行處理，而不是激活所有專家。所有專家的參數總和構成了整個 MoE 模塊的參數量，在前向計算過程中，由于只激活了部分專家，實際參與計算的參數量被稱為激活參數量。例如，Mixtral 8*7B 模型包含8個專家，每次選擇其中的2個專家進行計算，模型的總參數量為46.7B，而激活參數量為12.9B。
（b）細粒度專家劃分：不同于傳統 MoE ，DeepSeek 把個專家做更細粒度的劃分，降低每一個專家的參數量，增大專家數量。如圖(b)，將個專家拆分為個，每一個專家的隱層維度變為原來的，相應地激活個專家。如此 MoE 模塊的參數量以及激活參數量均保持不變，同時還可以更加靈活地組合多個專家。
（c）共享專家分離：把激活專家區分為共享專家（Shared Experts）和路由專家（Routed Experts）時，如圖(c)所示，共享專家和路由專家在數據處理流程上有顯著的區別。對于共享專家，輸入數據無需經過路由模塊的計算，所有數據都會直接通過共享專家進行處理。相反，對于路由專家，輸入數據會先經過路由模塊，該模塊根據輸入數據的特征選擇最合適的專家進行計算。在這種架構中，路由模塊通過計算輸入數據與各個專家的匹配概率，選擇概率最高的專家進行處理。最終，將路由專家和共享專家的計算結果相加，形成 MoE 模塊的最終輸出。通過這種方式，模型能夠在處理不同輸入數據時，既能捕捉到輸入數據的共性，也能關注到輸入數據的差異性。這種設計能夠提高模型的泛化能力和適應性。

更進一步地，DeepSeek-V3 針對MoE 中常見的負載不均衡問題，提出了一種新的負載均衡策略。在用于選擇專家的 Gate 模塊中引入了一個可學習的偏置項。在計算路由得分時，這個偏置項會被動態地加到每個路由專家的得分上。該方式的主要特點在于:

動態調整路由傾向：通過學習偏置項，模型可以動態地調整對不同路由專家的偏好。如果某個專家的負載過重，其對應的偏置項可能會被學習為負值，從而降低其被選擇的概率。反之，對于負載較輕的專家，其偏置項可能會被學習為正值，提高其被選擇的概率。
無額外損耗：該偏置項是直接通過模型的訓練目標進行優化的，而不是通過一個獨立的負載均衡損失函數。這意味著，模型在努力提高主要任務性能的同時，也會自然而然地學習到一種更均衡的路由策略，而不會因為額外的負載均衡損失而影響性能。

DeepSeek 通過這些 Moe 架構上的創新，直接促進了 V3 模型的整體效果提升。

下表是部分開源 MoE 模型的對比情況：

表2. 部分開源模型 MoE 模塊配置對比

表3. DeepSeek V3 架構核心參數

2. 群體相對策略優化（Group Relative Policy Optimization，GRPO）

大模型訓練大體可以分為3種模式，預訓練（Pretraining），有監督精調（Supervised Fine-Tuning, SFT），基于人類反饋的強化學習（Reinforcement Learning from Human Feedback, RLHF）。其中，SFT讓模型通過學習訓練數據數據分布的方式來提高模型在特定任務或指令上的表現，與其不同的是，RLHF使用人類反饋來定義獎勵函數，然后通過強化學習算法優化模型。讓模型能生成符合人類喜好的回復。

主流的RLHF算法有PPO（Proximal Policy Optimization）、DPO（Direct Preference Optimization）以及本節介紹的GRPO等。強化學習的基礎理論具有較高的綜合性以及深度，想要深入閱讀的同學可以參考相關資料。

在介紹GRPO之前，需要先了解PPO算法，因為GRPO可以算作是PPO的計算效率優化版本，在保持效果的同時，降低計算資源消耗。在強化學習領域，PPO 算法被廣泛認為是強化學習中的基準算法之一。PPO 采用了 Actor-Critic 架構，這一架構可以形象地理解為：有一個演員（actor）在舞臺上表演，而一個評論家（critic）在臺下觀看。演員的目標是通過不斷調整自己的表演行為來獲得觀眾的認可，并從觀眾那里獲得及時反饋。而評論家的任務則是評估演員的表演，并提供全面的建議。

在自然語言處理（NLP）生成模型的場景中，被訓練的模型相當于演員，其表演即為生成的回復。相應地，會有評論家和觀眾模型來評價回復的質量。具體來說，PPO使用了四個模型：

Policy 模型（又稱 Actor）：輸入一段上文，輸出下一個token的概率分布。該模型需要訓練，是我們最終得到的模型。輸出下一個token即為Policy模型的“行為”。
Value 模型（又稱 Critic）：用于預估當前模型回復的總收益。該總收益不僅局限于當前token的質量，還需要衡量當前token對后續文本生成的影響。該模型需要訓練。
Reward 模型：事先用偏好數據進行訓練，用于對Policy模型的預測進行打分，評估模型對于當前輸出的即時收益。
Reference 模型：與 Policy 模型相同，但在訓練過程中不進行優化更新，用于維持模型在訓練中的表現，防止在更新過程中出現過大偏差。

為了更直觀地理解 Value 模型的總收益和 Reward 模型的即時收益，可以用“磨刀不誤砍柴工”來舉例說明。假設現在有一把鈍刀，一分鐘可以劈一根柴火；如果把刀磨鋒利了，一分鐘就可以劈兩根柴火。現在你可以選擇直接用鈍刀劈柴，或者先把刀磨鋒利。前者的當前收益比后者高，但未來的收益會低。也就是說，Value 模型會對后者“磨刀”這一行為更為推崇，而 Reward 模型會給前者“直接砍柴”一個更高的分數。

PPO 在大模型的 RLHF 階段被成功應用，不斷提升模型回復表現的上限。然而，PPO 在計算成本和訓練穩定性方面仍然存在一定的挑戰。GRPO 算法對此進行了優化，其核心目標是去除 Value 模型，以此來減少訓練的計算資源。

圖2. PPO vs. GRPO

圖2選自 DeepSeekMath 報告，展示了 GRPO 相對于 PPO 的改進。傳統的 PPO 使用 Value 模型來估計模型回復的總收益，這實際上是對未來模型回復各種可能性的一個平均分值估計。而 GRPO 的方法是通過，大模型根據當前的上文輸入進行多次采樣，生成多個預測結果，并分別使用 Reward 模型對這些預測結果進行評分得到，最后取這些評分的平均值來替代 Value 模型的預期總收益估計。通過這種方式，GRPO 在訓練過程中可以減少一個模型的前向和反向傳播計算，從而降低計算資源的消耗。

下表針對 SFT 以及主流的一些強化學習方法做了對比和總結:

表4. SFT 與 RLHF 算法特點

3. 多頭隱式注意力（Multi-Head Latent Attention，MLA）

在標準的 Transformer 模型中，多頭注意力（Multi-Head Attention, MHA）機制通過并行計算多個注意力頭來捕捉輸入序列中的不同特征。每個注意力頭都有自己的查詢（Query, Q）、鍵（Key, K）和值（Value, V）矩陣。對于序列中的每一個 token，都需要計算各自的 QKV，進而計算注意力。在推理過程中，當前大模型所采用的 token by token 遞歸生成方式，上文 token 的 KV 計算不會受到后續生成 token 的影響，因此可以緩存下來，避免重復計算，提高推理效率，這就是 KV cache 的由來。也就是說，當生成第個 token 時，可以利用之前事先算好的上文個 token 的 KV 值。同樣地，位置 token 的 KV 值計算出來后也將保存在 KV cache 中。

目前大模型對于注意力機制做的一些改進，包括MQA （Multi-Query Attention）、GQA （Group Query Attention）都是為了想方設法減少 KV Cache。DeepSeek 提出的 MLA 的出發點也是如此。減少KV Cache就可以實現在更少的設備上推理更長的Context，或者在相同的Context長度下讓推理的batch size更大，從而實現更快的推理速度或者更大的吞吐總量。最終目的都是為了實現更低的推理成本。

圖3. MHA, MQA, GQA 與 MLA

如圖3所示，MQA 與 GQA 的辦法是通過共享 K，V 的注意力頭，降低 KV Cache的數據維度。MLA 的辦法本質上是對原本 MHA 的 KV Cache 作低秩分解，得到一個低維的隱向量（Latent Vector）。在推理階段，MLA 只需要緩存該隱向量，由此大大降低需要緩存的數據量。

具體地，對于某一層某一個 token 的表征, MLA 通過降維映射矩陣（down-projection matrix）得到對、壓縮后的隱向量:

在前向過程中，需要對此隱向量進行升維還原，即:

其中，與為對應的升維映射矩陣（up-projection matrix）,可得到對應的、向量、。可以這么理解，MLA利用低秩分解的辦法，通過增加少量的模型參數變量（降維映射矩陣與升維映射矩陣），引入低維隱向量作為 KV Cache，降低 KV Cache 所帶來的顯存壓力，以此降低推理成本。

此外，DeepSeek 還將 Query 也進行了低秩分解，能夠在訓練過程中降低顯存占用，以此提高訓練資源利用率。

上述方案還需要針對位置編碼RoPE（Rotary Position Embedding）進行處理。因為如果在隱向量中包含RoPE，經過升降維操作后，會對位置信息造成破壞。為了解決這個問題，MLA（Multi-Head Linear Attention）提出了“解耦RoPE”的方法。具體來說，對于隱向量，不將位置編碼包含在其中，而是專門為注意力頭的 Query 和 Key 新增向量維度，以添加 RoPE 的位置信息。

使用了 MLA 的 DeepSeek V2 （總參數量236B，激活參數量21B），和 DeepSeek 67B 相比，模型效果上顯著提升，同時節省了42.5%的訓練成本，減少了93.3%的 KV Cache，并將最大生成吞吐量提高了5.76倍。

4. 多令牌預測（Multi-Token Prediction，MTP）

當前主流的采用自回歸的大模型都是單 token 預測。即根據當前上文預測下一個最可能的 token。而 MTP 的核心思想是讓模型一次性預測多個 token，以提升了模型的訓練效率、生成質量和推理速度。

比如現在上文是“今年春節的天氣”，傳統的單 token 預測模式會逐 token 預測“真的”、“好”、“冷”、“。”；而 MTP 會并行地預測這幾個 token 。因此，模型不僅要學習預測下一個 token 的能力，還需要同時具備預測下個token的能力。

這種方式在推理角度的好處顯而易見，一次性生成多個 tokens，減少自回歸生成的步數，達到推理加速效果。而在訓練過程中，MTP 的訓練目標函數同時考慮了多個 token 的估計準確性，因此被認為可以捕捉 token 間的依賴關系，從而提升模型效果。

這里將簡單介紹 DeepSeek V3 的 MTP 模塊，與 Meta 的 MTP 模塊[6]相比，DeepSeek 采用了級聯式的結構，使用k個串行模塊來預測k個token，保留因果語言模型（Causal Language Model）的連接關系，有利于效果的提升，如圖4所示:

圖4. DeepSeek V3 MTP 模塊結構示意圖

圖中展示了模型用個順序的模塊，預測個 tokens。定義預測深度為的含義為，預測后續第個 token。

首先，在每一個預測深度模塊中，都共享了一個嵌入層（embedding layer），即模型除了最后負責最后預測部分的層之外，其他的所有層，用于得到 token 的 embedding。對于輸入的第個token，在第個預測深度處，模型將前一個深度的表示與第的 embedding 拼接，作為新的輸入表示。

然后通過一個預測深度專用的 Transformer 模塊，生成當前預測深度的輸出表示，將用于下一個深度的表示計算，同時用共享的輸出層獲得 token 預測, 與訓練樣本中計算損失。

DeepSeek V3 論文中報告了使用 MTP 模塊的效果。他們在推理過程中，不使用 MTP 模塊，只在訓練過程中利用該模塊約束模型的優化。實驗結果表明，使用 MTP 模塊訓練，能夠提升模型的回復質量，在 MMLU, GSM8K 等公開基準測試指標均有提升。

5. 混合精度框架

DeepSeek-V3 模型使用了 FP8 訓練，為了增強訓練穩定性以及維持訓練效果不至于下降太多，作者提出了一種精細的量化策略，另外為了進一步減少MoE訓練中的內存和通信開銷，作者在FP8中緩存和分發激活值，同時以BF16格式存儲低精度優化器狀態。在實驗中，FP8訓練模型與BF16基線相比，相對損失誤差始終低于0.25%，在訓練隨機性范圍內是可以接受的。

基于此，DeepSeek-V3 文中提出了一種 FP8 訓練的混合精度框架。在這個框架中，大多數計算密集型操作在 FP8 中進行，而一些關鍵操作則保持其原始數據格式，以平衡訓練效率和數值穩定性。為了加速模型訓練，主要的核心計算內核（如General Matrix Multiplication，GEMM操作）在 FP8 精度下實現，這些操作接受 FP8 張量作為輸入，并生成 BF16 或 FP32 格式的輸出。所有與線性操作相關的三個 GEMM（前向傳播、激活反向傳播和權重反向傳播）都在 FP8 中執行，這種設計理論上將計算速度提高了一倍。此外，FP8 權重反向傳播 GEMM 允許激活值以 FP8 格式存儲，以便在反向傳播中使用，從而顯著減少了內存消耗。

訓練框架在以下組件中保持了原始精度（如BF16或FP32）：Embedding 模塊、輸出頭、MoE門控模塊、歸一化算子和注意力算子等。這些高精度的保留確保了DeepSeek-V3的穩定訓練動態。為了進一步保證數值穩定性，作者將模型的主權重、權重梯度和優化器狀態均存儲在更高的精度中。該混合精度框架示意圖可見圖5。

圖5. DeepSeek V3 混合精度框架（FP8訓練）示意圖

除了混合精度框架之外，DeepSeek 在 AI Infra 方面做了許多工作，例如還提出了 DualPipe 算法等，提升了模型訓練效率。這方面的工作也期待 Infra 團隊有更細致的分享。

6. Deepseek V3 總結

DeepSeek-V3 是一個在2048 個 NVIDIA H800 GPU 的集群上進行訓練得到的超大型MoE架構的大語言模型。它延續了Deepseek MoE、Deepseek V2等模型的一系列創新，進一步提出了MTP，并優化了訓練的效率，取得比較好效果的同時，提高了訓練的效率，節約了成本。

表5、表6展示了 DeepSeek V3 為人矚目的訓練成本以及開源基準評測效果。

表5. DeepSeek V3 訓練成本

表6. DeepSeek V3 與其他 Chat 模型開源基準評測效果

二、DeepSeek R1-Zero 和 R1

1. GPT-4、GPT-4o、o1、R1等概述

GPT-4是ChatGPT-3.5的迭代升級，在效果和性能上有了顯著提升；GPT-4o增加了多模態功能；o1專注于深度推理能力。R1跟o1類似，也是專注于深度推理能力的模型。下表是不同模型的簡單對比。

表7. DeepSeek 與 OpenAI 模型對比

(1) CoT與Long CoT

CoT指的是一種推理過程，其中模型在生成最終答案之前，先逐步推導出一系列的中間步驟或子目標。這些中間步驟構成了一個“思維鏈”，最終引導模型得到正確的結果。它模仿人類的推理過程，即人們往往在解決問題時不是直接得出答案，而是通過一系列的思考、分析和推理步驟。

Long-CoT（長思考/慢思考）是CoT的一種擴展形式。傳統的CoT方法通過將復雜問題分解為一系列中間推理步驟來引導模型進行逐步推理。而Long-CoT則進一步擴展了這種思路，使得思考過程和輸出的答案解耦，可以通過更長的上下文和更復雜的推理路徑（在思考過程中通過加入問題復述、思考回顧、反思、知識回憶、公式化等思考節點）來增強模型的推理能力。

DeepSeek 公開了他們 R1 的技術細節[5]，比如所采用的對話模版，如圖6所示。DeepSeek 對社區的貢獻還在于，他們提供的 API 展示了模型的思考過程，讓從業人員以及使用者能夠全方位地了解到 Long-CoT 的特點與作用。圖7展示了我使用 DeepSeek 的深度思考以及聯網搜索的一個示例，實實在在地感受到了模型的強大。

圖6. DeepSeek-R1-Zero 對話模版

圖7. DeepSeek 使用示例，開啟了深度思考與聯網搜索

(2) R1與o1、o3在效果、速度、價格方面的比較

R1與o1、o3的區別除了訓練方法，還體現在效果、速度、價格幾個方面。在Artificial Analysis給出了具體的評測結果。

在整體的評分上來看，o3-mini 和 DeepSeek R1評分一樣，不相上下。

圖8. 主流模型Artificial Analysis評測效果-模型回復質量評分

o3-mini模型應該更小，主打低延遲，在輸出token推理速度上比DeepSeek R1快10倍，比o1快7倍。

圖9. 主流模型Artificial Analysis評測效果-推理速度

從整體價格上，o3-mini的價格已經比DeepSeek-R1價格更低，比o1模型的價格便宜了13倍以上，優化了許多。

圖10. 主流模型Artificial Analysis評測效果-價格

2. DeepSeek R1 和 R1 Zero 模型的突破

DeepSeek R1和R1 Zero模型的突破主要體現在以下幾個方面。

(1) 強大的推理能力

DeepSeek R1 和 R1 Zero模型在多個推理基準測試中表現出色。值得注意的是，DeepSeek-R1-Zero 是第一個公開的研究，驗證了 LLM 的推理能力可以完全通過強化學習（Reinforcement Learning，RL）來激勵，而不需要 SFT。也表明了強化學習可以促進模型自我進化。這一里程碑式的成就，不僅突顯了該模型的創新基礎，也為以 RL 為中心的推理 AI 進一步鋪平了道路。

表8. DeepSeek-R1-Zero 與 OpenAI o1 模型在推理類開源基準測試中的效果對比

表8截取自 DeepSeek R1 報告，展示了DeepSeek-R1-Zero 與 OpenAI o1 相媲美的效果。

(2) 可解釋性

DeepSeek R1 和 R1 Zero 模型采用 Long CoT 方法，能夠清晰地展示其推理過程（o1只能展示部分），提高了模型的可解釋性。其中給出的思考過程也是一個非常有研究價值的內容，有助于大模型領域的發展。

(3) 開源和低成本

DeepSeek R1 和 R1 Zero 模型是開源的，開發者和研究人員可以自由地探索、修改和部署它們。此外，DeepSeek R1 的 API 定價也比 OpenAI o1模型更低，約為其1/10。

3. DeepSeek R1和R1 Zero模型技術介紹

DeepSeek R1 和 R1 Zero 模型的主要差異在于訓練方法。DeepSeek R1 Zero 僅用強化學習就訓練出了一個效果接近OpenAI-o1-0912的推理模型。發現了通過設定基于規則的 Reward 模型（要求保證答案和格式的準確性），能夠在強化學習的訓練過程中不斷進化，出現了“aha moment”頓悟時刻以及最終取得了出色的模型效果。

DeepSeek R1 Zero 的表現令人驚嘆，我們也相信這套方案還有潛力可以挖掘。不過現階段，R1 Zero的回復會出現可讀性差或語言混雜的情況。因此，DeepSeek 基于R1 Zero的成果，設計了一個多階段的訓練策略并且添加了許多高質量 SFT 數據。在這樣的“人工干預”下，訓練出了一個效果更優的模型 DeepSeek R1。

R1系列模型的訓練流程如圖11所示:

圖11. DeepSeek-R1-Zero，DeepSeek-R1 與 DeepSeek-R1-Distill 模型訓練流程框圖

(1) DeepSeek R1 Zero

R1-Zero 的特別之處在于，它無需經過 SFT 訓練集進行訓練就能夠在推理任務中表現出色。它的訓練過程直接從一個預訓練的基礎模型（DeepSeek V3 Base）開始，通過強化學習訓練完成。具體地：

采用群體相對策略優化（GRPO），節省RL的訓練成本。
在RL訓練過程中，采用Rule-based獎勵，主要由兩種獎勵構成：a) Accuracy rewards：評估模型的輸出是否正確；b) Format rewards：強制模型將其思考過程置于指定的和之間。
設計訓練模版，指導基模型在訓練過程中遵守設定的指令，即圖7。

DeepSeek-R1-Zero 展示出了自我進化能力，隨著強化學習訓練進程的深入，模型的思考時間在增加，并自發出現了諸如反思，模型重新審視和重新評估其先前步驟以及探索解決問題的替代方法等更加復雜的行為。

圖12. DeepSeek-R1-Zero平均回復長度隨訓練迭代步數的關系曲線

圖12展示了 DeepSeek-R1-Zero 在訓練過程中的平均回復長度，說明了隨著訓練進行，模型在解答推理類問題時，花了更多的時間去思考，以提高回答準確率。

在DeepSeek-R1-Zero的訓練過程中出現了Aha Moment（頓悟時刻），代表RL有可能在人工系統中解鎖新的智能水平，為未來更加自主和自適應的模型鋪平道路。

圖13. DeepSeek-R1-Zero “Aha Moment”示例

(2) DeepSeek R1

盡管 DeepSeek-R1-Zero 展示了強大的推理能力，并能夠自主發展出意想不到且強大的推理行為，但它也面臨一些問題。例如，DeepSeek-R1-Zero 存在可讀性差和語言混雜等問題。R1 旨在成為一個更易用的模型。因此，R1 并不像 R1-Zero 那樣完全依賴于強化學習過程。訓練過程分成四個階段：

圖14. DeepSeek-R1 訓練流程

① 冷啟動：為了避免RL訓練從基礎模型開始的早期不穩定冷啟動階段，構建并收集少量長的 CoT 數據來微調 DeepSeek-V3-Base 作為 RL 的起點。

② 推理導向的強化學習：在冷啟動數據上微調 DeepSeek-V3-Base 后，應用與 DeepSeek-R1-Zero 中相同的 RL 方法訓練。本階段側重于增強模型的推理能力，尤其是在編碼、數學、科學和邏輯推理等推理密集型任務中，這些任務涉及具有明確解決方案的明確定義的問題。當 RL 提示涉及多種語言時，CoT 經常表現出語言混合現象。為了減輕語言混合問題，在 RL 訓練過程中引入了一種語言一致性獎勵。

③ 拒絕抽樣和監督微調：當2中的RL過程趨于收斂時，利用訓練出的臨時模型生產用于下一輪訓練的SFT數據（600K推理數據）。與1中的冷啟動數據區別在于，此階段既包含用于推理能力提升的600k數據，也包含200k推理無關的數據。使用這800k樣本的精選數據集對DeepSeek-V3-Base進行了兩個epoch的微調。

④ 適用于全場景的強化學習：在3中微調模型的基礎上，使用全場景的強化學習數據提升模型回復的有用性和無害性。對于推理數據，遵循 DeepSeek-R1-Zero 的方法，利用基于規則的獎勵來指導數學、代碼和邏輯推理領域的學習過程。對于一般數據，采用基于模型的獎勵來捕捉復雜和細微場景中的人類偏好。

通過上述精細的多階段訓練，DeepSeek R1 最終得以呈現，達到了 OpenAI-o1-1217的水平。

表9. DeepSeek-R1在開源基準測試中的效果

(3) 將R1推理能力蒸餾到小的稠密模型中

圖15. 將R1推理能力蒸餾到其他模型

為了使參數規模較小的模型也能具備像 DeepSeek-R1 這樣的推理能力，首先通過 DeepSeek-R1推理得到的800k個樣本。然后對 6 個不同參數量的開源模型進行了直接有監督微調。這種方式也就是直接的數據蒸餾。R1論文中表明了，通過這種方法就能夠顯著增強小參數規模模型的推理能力。同時也反映了 R1 模型的價值，它能夠用于激發絕大多數模型的推理能力。

表10. DeepSeek-R1-Distill 模型在推理類開源基準測試中的效果

表10展示了基于1.5B-70B規模的開源模型，使用DeepSeek-R1 數據蒸餾后的推理能力評測，指標都具有較強的競爭力。這實在是一件很夸張的事，這相當于告訴了我們一個簡單直接的模型效果優化手段，就是從 R1 模型構造數據，然后SFT！

(4) Deepseek R1的意義

DeepSeek-R1 在全球范圍內引發巨大轟動，不僅源于其技術突破，更在于其與 OpenAI 的對比。盡管 OpenAI 在發布 o1 模型后展現了強大實力，但由于以下三點原因，行業內外用戶難以大規模采用：首先，拒絕開源；其次，隱藏了模型的深度思考過程，使其成為一個“黑箱”；最后，定價高昂，將大多數用戶拒之門外。相較之下，DeepSeek-R1 揭開了 o1 的神秘面紗，開源了這類強推理模型背后的關鍵技術，既促進了行業的快速發展，也對 OpenAI 的閉源策略形成了有力沖擊。

DeepSeek-R1 的成功，本質上是對 OpenAI 發展路徑的一次顛覆性突破。它重現了2023年初 ChatGPT 帶給世界的震撼，但更重要的是，它證明了在有限算力條件下，通過算法創新同樣能夠實現技術突破。這種突破具有雙重意義：一方面，它打破了“算力至上”的神話，為AI發展開辟了新路徑；另一方面，它為中國AI產業提供了寶貴的經驗——在算力受限的情況下，通過技術創新依然可以實現彎道超車。

從技術演進的角度來看，DeepSeek V3 和 R1 的成功為AI發展的新方向指明了道路。在追求模型性能的同時，效率優化將成為未來競爭的關鍵。這一點在本文介紹的V3一系列技術中得到了清晰體現。

展望未來，DeepSeek 有望在很大程度上促進大模型行業應用的發展，這些技術不僅可以提升當前大模型業務的效果與效率，還能提供新的解決方案思路。此外，DeepSeek 也為大模型廠商樹立了榜樣，其在2024年的一系列卓越工作展示了如何打造有價值的大模型。

責任編輯：趙寧寧來源：騰訊技術工程

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看