成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek-R1全面超越OpenAI o1:開源大模型訓(xùn)練范式革新

人工智能
DeepSeek-R1 采用 6710 億參數(shù)的 專家混合架構(gòu)(MoE),但訓(xùn)練成本遠(yuǎn)低于 OpenAI 和 Meta 的同類模型。

人工智能在過去十年中的發(fā)展令人驚嘆。其中,2017 年 Google 發(fā)布的“Attention Is All You Need”論文奠定了神經(jīng)網(wǎng)絡(luò)架構(gòu)的重要基礎(chǔ),推動(dòng)了大規(guī)模語言模型(LLM)的突破。

OpenAI 早期專注于強(qiáng)化學(xué)習(xí)(RL),但在 Transformer 結(jié)構(gòu)問世后,迅速調(diào)整方向,借助 Google 的開源研究開發(fā)出強(qiáng)大的 LLM。然而,盡管 OpenAI 最初以“開放”為宗旨,近年來卻逐漸轉(zhuǎn)向封閉模式,自 GPT-2 以來,其所有模型進(jìn)展均未再公開。

最近,OpenAI 發(fā)布了名為 “o1” 的新模型,專注于增強(qiáng)長鏈?zhǔn)剿季S(Chain-of-Thought)和強(qiáng)化學(xué)習(xí),以提升解決復(fù)雜問題的能力。然而,該模型的具體訓(xùn)練細(xì)節(jié)仍未公開。

但這一切正在改變。

中國 AI 公司 DeepSeek 近期發(fā)布了新一代模型 DeepSeek-R1,在復(fù)雜領(lǐng)域的推理能力上媲美 OpenAI 的 o1,甚至在多個(gè)數(shù)學(xué)和編程基準(zhǔn)測(cè)試上超越了它。


圖片圖片

LLM 的標(biāo)準(zhǔn)訓(xùn)練流程

訓(xùn)練大規(guī)模語言模型通常從大規(guī)模文本數(shù)據(jù)的收集開始。這些數(shù)據(jù)可能來自公開網(wǎng)絡(luò)資源或?qū)S袛?shù)據(jù)集。

圖片圖片

隨后,這些數(shù)據(jù)經(jīng)過清理、格式化、分詞,并轉(zhuǎn)換為文本嵌入,供模型進(jìn)行自監(jiān)督學(xué)習(xí)。這一階段稱為預(yù)訓(xùn)練,幫助模型掌握語法、語義和上下文關(guān)系。

在此基礎(chǔ)上,模型會(huì)經(jīng)過 監(jiān)督微調(diào)(SFT),用于提升特定任務(wù)(如數(shù)學(xué)推理、編程、翻譯等)的能力。

為了確保模型生成的內(nèi)容符合人類偏好,通常會(huì)通過基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行優(yōu)化,例如使用 PPO(近端策略優(yōu)化) 或 DPO(直接偏好優(yōu)化)。

強(qiáng)化學(xué)習(xí)在長鏈?zhǔn)剿季S的優(yōu)化上發(fā)揮著關(guān)鍵作用,這也是 DeepSeek-R1 能夠展現(xiàn)強(qiáng)大推理能力的核心原因。

突破 SFT 訓(xùn)練方式,直接使用強(qiáng)化學(xué)習(xí)

DeepSeek 團(tuán)隊(duì)以 DeepSeek-V3-Base 作為預(yù)訓(xùn)練基礎(chǔ)模型,并跳過了傳統(tǒng)的 SFT 過程,直接使用強(qiáng)化學(xué)習(xí)(RL)來提升推理能力。這使得模型能夠在沒有監(jiān)督數(shù)據(jù)的情況下,自我進(jìn)化并提升推理能力。

在強(qiáng)化學(xué)習(xí)中,DeepSeek 團(tuán)隊(duì)并未采用 OpenAI 開發(fā)的 PPO,而是提出了一種自研算法 GRPO(組相對(duì)策略優(yōu)化)。

PPO vs. GRPO

  • PPO 依賴“策略模型”和“價(jià)值模型”計(jì)算優(yōu)勢(shì)估計(jì)(Advantage Estimation),計(jì)算成本較高。
  • GRPO 直接根據(jù)一組樣本的相對(duì)獎(jiǎng)勵(lì)計(jì)算優(yōu)勢(shì)估計(jì),避免了價(jià)值模型的計(jì)算,提高訓(xùn)練效率并降低成本。

強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制

DeepSeek-R1 采用基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),而非神經(jīng)網(wǎng)絡(luò)獎(jiǎng)勵(lì)模型,以減少計(jì)算開銷并避免“獎(jiǎng)勵(lì)作弊”現(xiàn)象。

  • 準(zhǔn)確性獎(jiǎng)勵(lì):依據(jù)答案的正確性給予分?jǐn)?shù)。
  • 格式獎(jiǎng)勵(lì):若模型在回答中遵循特定格式,則額外加分。例如,推理過程包裹在 <think></think> 標(biāo)簽中,最終答案位于 <answer></answer> 標(biāo)簽內(nèi)。

經(jīng)過這一訓(xùn)練階段,模型進(jìn)化為 DeepSeek-R1-Zero,并展現(xiàn)出驚人的推理能力。

圖片圖片

DeepSeek-R1-Zero 訓(xùn)練效果

隨著強(qiáng)化學(xué)習(xí)的持續(xù)進(jìn)行,**DeepSeek-R1-Zero 在 AIME(2024)數(shù)學(xué)競(jìng)賽上的首答正確率(pass@1)從 15.6% 提升至 71%**,幾乎與 OpenAI o1 持平。

圖片圖片

進(jìn)一步測(cè)試表明,在 cons@64 指標(biāo)上,DeepSeek-R1-Zero 甚至超越了 OpenAI o1(83.3% vs 86.7%)!

強(qiáng)化學(xué)習(xí)訓(xùn)練中的關(guān)鍵現(xiàn)象

  • 模型逐漸增加計(jì)算時(shí)間,并生成更多推理步驟,以深入思考復(fù)雜問題。
  • 自我反思、自我糾正 等能力自然出現(xiàn),使其能夠回顧并調(diào)整推理過程。
  • 在訓(xùn)練過程中,研究人員觀察到模型在推理某個(gè)復(fù)雜數(shù)學(xué)問題時(shí),突然意識(shí)到自己可以更深入思考,并主動(dòng)重新評(píng)估之前的推理步驟——這種現(xiàn)象被稱為“頓悟時(shí)刻(Aha Moment)”。

圖片圖片

補(bǔ)充 SFT 以優(yōu)化模型表達(dá)能力

盡管純強(qiáng)化學(xué)習(xí)訓(xùn)練提升了推理能力,但 DeepSeek-R1-Zero 仍然存在一些問題,例如:

  • 輸出格式混亂,影響可讀性。
  • 回答可能混雜多種語言。

為此,研究人員引入了一小部分 長鏈?zhǔn)剿季S(CoT)數(shù)據(jù) 進(jìn)行 SFT,確保模型能夠清晰表達(dá)推理過程。隨后,再次使用強(qiáng)化學(xué)習(xí)優(yōu)化推理能力,同時(shí)引入語言一致性獎(jiǎng)勵(lì),確保生成的內(nèi)容保持單一語言表達(dá)。

最終,模型演化為 DeepSeek-R1。

DeepSeek-R1 超越 OpenAI o1 的測(cè)試表現(xiàn)

DeepSeek-R1 在多個(gè)基準(zhǔn)測(cè)試上展現(xiàn)出卓越表現(xiàn),尤其是在:

  • 數(shù)學(xué)推理(AIME、MATH-500)
  • 編程能力(LiveCodeBench、SWE Verified、Codeforces)

此外,DeepSeek-R1 還在長上下文理解、事實(shí)性問答、寫作任務(wù)等領(lǐng)域超過了自家的 DeepSeek-V3,并在格式化指令跟隨能力上表現(xiàn)優(yōu)異。

圖片圖片

小型模型的蒸餾研究團(tuán)隊(duì)使用 知識(shí)蒸餾 方法,將 DeepSeek-R1 的知識(shí)遷移至更小的 Qwen 和 Llama 模型,如:

  • DeepSeek-R1-Distill-Qwen-32B 超越 OpenAI o1-mini。
  • DeepSeek-R1-Distill-Llama-70B 在多數(shù)測(cè)試中遠(yuǎn)勝對(duì)手。

為了進(jìn)一步優(yōu)化,研究人員還嘗試對(duì) Qwen-32B 進(jìn)行 RL 訓(xùn)練,最終得到 DeepSeek-R1-Zero-Qwen-32B,其推理能力達(dá)到 Qwen 旗下最強(qiáng)模型 QwQ-32B-Preview 的水平。

圖片圖片

訓(xùn)練成本與推理費(fèi)用

DeepSeek-R1 采用 6710 億參數(shù)的 專家混合架構(gòu)(MoE),但訓(xùn)練成本遠(yuǎn)低于 OpenAI 和 Meta 的同類模型。

  • DeepSeek-R1 訓(xùn)練成本約為 10M(相比之下,GPT-4 訓(xùn)練成本約 $100M,o1 可能更高)。
  • 推理費(fèi)用僅 60 / 100 萬 tokens,后者比 DeepSeek-R1 貴 27 倍。

DeepSeek-R1 未來展望

盡管 DeepSeek-R1 在某些任務(wù)上仍遜于 DeepSeek-V3(如函數(shù)調(diào)用、多輪對(duì)話、JSON 生成等),但其開源研究已經(jīng)對(duì) AI 領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

Hugging Face 目前已發(fā)布開源復(fù)現(xiàn)版 Open-R1,預(yù)計(jì)未來將有更多基于 DeepSeek-R1 的項(xiàng)目涌現(xiàn)。

這一突破不僅提升了開源 LLM 的競(jìng)爭力,更加速了 AI 技術(shù)的民主化進(jìn)程!

責(zé)任編輯:武曉燕 來源: 大遷世界
相關(guān)推薦

2025-03-05 10:21:04

DeepSeekLVLM

2025-04-29 09:06:00

2025-02-08 14:03:25

2025-01-24 15:03:27

2024-09-24 11:01:03

2025-02-19 08:00:00

2025-03-10 08:10:00

AI研究安全

2025-03-13 11:07:30

2024-09-13 10:06:21

2025-03-20 10:20:16

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2025-03-05 03:00:00

DeepSeek大模型調(diào)優(yōu)

2025-05-19 08:41:00

AI模型開發(fā)者

2025-02-19 13:50:00

明星編程軟件

2025-04-29 07:47:27

2024-09-18 09:17:00

OpenAI模型開源

2025-02-13 08:51:23

DeepSeek大模型

2025-03-05 08:40:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 91av视频在线免费观看 | 欧美激情久久久 | 欧美jizzhd精品欧美巨大免费 | 国产精品一区视频 | 日日想夜夜操 | 亚洲一区视频在线 | 亚洲va中文字幕 | 激情一区| 黑人一级黄色大片 | 亚洲欧美日韩成人在线 | 欧美一级免费黄色片 | 嫩草影院黄 | 97精品国产97久久久久久免费 | 一区二区日韩精品 | 国产高清精品一区二区三区 | 特级做a爱片免费69 精品国产鲁一鲁一区二区张丽 | 国产福利小视频 | 亚洲一区中文字幕在线观看 | 人人干人人干人人 | 超碰免费在线 | 日本精a在线观看 | av一区二区三区四区 | 久久久999精品 | 亚洲成人在线免费 | 99欧美精品 | 亚洲图片一区二区三区 | 日本不卡一区二区三区 | 超碰在线亚洲 | 99色在线视频 | 免费在线观看成人av | 国产一区二区三区在线免费观看 | 成人做爰69片免费观看 | 青久草视频| 欧美国产一区二区 | 在线播放一区二区三区 | 日韩在线一区二区三区 | 欧美久久精品 | 亚洲黄色av | 国产成人精品综合 | 日韩精品一区二区三区中文在线 | 羞羞视频免费观 |