DeepSeek-R1全面超越OpenAI o1：開源大模型訓(xùn)練范式革新

作者：dev 2025-02-03 14:17:27

DeepSeek-R1 采用 6710 億參數(shù)的專家混合架構(gòu)（MoE），但訓(xùn)練成本遠(yuǎn)低于 OpenAI 和 Meta 的同類模型。

人工智能在過去十年中的發(fā)展令人驚嘆。其中，2017 年 Google 發(fā)布的“Attention Is All You Need”論文奠定了神經(jīng)網(wǎng)絡(luò)架構(gòu)的重要基礎(chǔ)，推動(dòng)了大規(guī)模語言模型（LLM）的突破。

OpenAI 早期專注于強(qiáng)化學(xué)習(xí)（RL），但在 Transformer 結(jié)構(gòu)問世后，迅速調(diào)整方向，借助 Google 的開源研究開發(fā)出強(qiáng)大的 LLM。然而，盡管 OpenAI 最初以“開放”為宗旨，近年來卻逐漸轉(zhuǎn)向封閉模式，自 GPT-2 以來，其所有模型進(jìn)展均未再公開。

最近，OpenAI 發(fā)布了名為 “o1” 的新模型，專注于增強(qiáng)長鏈?zhǔn)剿季S（Chain-of-Thought）和強(qiáng)化學(xué)習(xí)，以提升解決復(fù)雜問題的能力。然而，該模型的具體訓(xùn)練細(xì)節(jié)仍未公開。

但這一切正在改變。

中國 AI 公司 DeepSeek 近期發(fā)布了新一代模型 DeepSeek-R1，在復(fù)雜領(lǐng)域的推理能力上媲美 OpenAI 的 o1，甚至在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測(cè)試上超越了它。

圖片

LLM 的標(biāo)準(zhǔn)訓(xùn)練流程

訓(xùn)練大規(guī)模語言模型通常從大規(guī)模文本數(shù)據(jù)的收集開始。這些數(shù)據(jù)可能來自公開網(wǎng)絡(luò)資源或?qū)Ｓ袛?shù)據(jù)集。

圖片

隨后，這些數(shù)據(jù)經(jīng)過清理、格式化、分詞，并轉(zhuǎn)換為文本嵌入，供模型進(jìn)行自監(jiān)督學(xué)習(xí)。這一階段稱為預(yù)訓(xùn)練，幫助模型掌握語法、語義和上下文關(guān)系。

在此基礎(chǔ)上，模型會(huì)經(jīng)過監(jiān)督微調(diào)（SFT），用于提升特定任務(wù)（如數(shù)學(xué)推理、編程、翻譯等）的能力。

為了確保模型生成的內(nèi)容符合人類偏好，通常會(huì)通過基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）進(jìn)行優(yōu)化，例如使用 PPO（近端策略優(yōu)化）或 DPO（直接偏好優(yōu)化）。

強(qiáng)化學(xué)習(xí)在長鏈?zhǔn)剿季S的優(yōu)化上發(fā)揮著關(guān)鍵作用，這也是 DeepSeek-R1 能夠展現(xiàn)強(qiáng)大推理能力的核心原因。

突破 SFT 訓(xùn)練方式，直接使用強(qiáng)化學(xué)習(xí)

DeepSeek 團(tuán)隊(duì)以 DeepSeek-V3-Base 作為預(yù)訓(xùn)練基礎(chǔ)模型，并跳過了傳統(tǒng)的 SFT 過程，直接使用強(qiáng)化學(xué)習(xí)（RL）來提升推理能力。這使得模型能夠在沒有監(jiān)督數(shù)據(jù)的情況下，自我進(jìn)化并提升推理能力。

在強(qiáng)化學(xué)習(xí)中，DeepSeek 團(tuán)隊(duì)并未采用 OpenAI 開發(fā)的 PPO，而是提出了一種自研算法 GRPO（組相對(duì)策略優(yōu)化）。

PPO vs. GRPO

PPO 依賴“策略模型”和“價(jià)值模型”計(jì)算優(yōu)勢(shì)估計(jì)（Advantage Estimation），計(jì)算成本較高。
GRPO 直接根據(jù)一組樣本的相對(duì)獎(jiǎng)勵(lì)計(jì)算優(yōu)勢(shì)估計(jì)，避免了價(jià)值模型的計(jì)算，提高訓(xùn)練效率并降低成本。

強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制

DeepSeek-R1 采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng)，而非神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)模型，以減少計(jì)算開銷并避免“獎(jiǎng)勵(lì)作弊”現(xiàn)象。

準(zhǔn)確性獎(jiǎng)勵(lì)：依據(jù)答案的正確性給予分?jǐn)?shù)。
格式獎(jiǎng)勵(lì)：若模型在回答中遵循特定格式，則額外加分。例如，推理過程包裹在 <think></think> 標(biāo)簽中，最終答案位于 <answer></answer> 標(biāo)簽內(nèi)。

經(jīng)過這一訓(xùn)練階段，模型進(jìn)化為 DeepSeek-R1-Zero，并展現(xiàn)出驚人的推理能力。

圖片

DeepSeek-R1-Zero 訓(xùn)練效果

隨著強(qiáng)化學(xué)習(xí)的持續(xù)進(jìn)行，**DeepSeek-R1-Zero 在 AIME（2024）數(shù)學(xué)競(jìng)賽上的首答正確率（pass@1）從 15.6% 提升至 71%**，幾乎與 OpenAI o1 持平。

圖片

進(jìn)一步測(cè)試表明，在 cons@64 指標(biāo)上，DeepSeek-R1-Zero 甚至超越了 OpenAI o1（83.3% vs 86.7%）！

強(qiáng)化學(xué)習(xí)訓(xùn)練中的關(guān)鍵現(xiàn)象

模型逐漸增加計(jì)算時(shí)間，并生成更多推理步驟，以深入思考復(fù)雜問題。
自我反思、自我糾正等能力自然出現(xiàn)，使其能夠回顧并調(diào)整推理過程。
在訓(xùn)練過程中，研究人員觀察到模型在推理某個(gè)復(fù)雜數(shù)學(xué)問題時(shí)，突然意識(shí)到自己可以更深入思考，并主動(dòng)重新評(píng)估之前的推理步驟——這種現(xiàn)象被稱為“頓悟時(shí)刻（Aha Moment）”。

圖片

補(bǔ)充 SFT 以優(yōu)化模型表達(dá)能力

盡管純強(qiáng)化學(xué)習(xí)訓(xùn)練提升了推理能力，但 DeepSeek-R1-Zero 仍然存在一些問題，例如：

輸出格式混亂，影響可讀性。
回答可能混雜多種語言。

為此，研究人員引入了一小部分長鏈?zhǔn)剿季S（CoT）數(shù)據(jù) 進(jìn)行 SFT，確保模型能夠清晰表達(dá)推理過程。隨后，再次使用強(qiáng)化學(xué)習(xí)優(yōu)化推理能力，同時(shí)引入語言一致性獎(jiǎng)勵(lì)，確保生成的內(nèi)容保持單一語言表達(dá)。

最終，模型演化為 DeepSeek-R1。