Deepseek-R1，論文番外篇!

NLP前沿1

發布于 2025-3-28 00:47

瀏覽

0收藏

一篇對deepseek r1 論文補漏的文章，做了很多額外的實驗，內容很到位，標題：Understanding R1-Zero-Like Training: A Critical Perspective。

論文地址：https://github.com/sail-sg/understand-r1-zero/blob/main/understand-r1-zero.pdf

基礎模型分析

驗證模板對幾種基礎模型的影響

Deepseek-R1，論文番外篇!-AI.x社區

觀察結果如下：

Deepseek-R1，論文番外篇!-AI.x社區

模板對模型是回答question，還是補全question很重要
測試的幾個基礎模型在RL之前已經具備數學解題能力
Llama和DeepSeek模型使用R1模板時回答能力顯著提升
DeepSeek-V3-Base在無模板條件下回答率最低，說明它是相對純粹的基礎模型

特殊的Qwen模型

上面的實驗發現，Qwen在不使用模板可以回答很多問題了。

所以進行了一下具體評測

Deepseek-R1，論文番外篇!-AI.x社區

Qwen2.5-Math不使用任何模板比few-shot的效果更好。

這可能是，這個模型在預訓練階段使用了問題-答案的連接文本訓練

這也意味著，使用Qwen 2.5復現R1-Zero可能比較特別，因為基礎模型不需要模板已經跟SFT模型類似了。

aha moment分析

Deepseek-R1，論文番外篇!-AI.x社區

觀察發現， R1-Zero訓練的基礎的v3模型，已經可以生成一些 aha moment的結果了。

并且，有這種自我反思的結果跟準確率之間沒有明顯相關性。

甚至，沒有反思的結果比有反思的準確率更高。

自反思行為與模型準確率之間沒有明顯相關性實際上，沒有自反思的響應通常比有自反思的響應準確率更高

RL分析

GRPO 偏差分析

R1-zero論文中，提到，響應長度隨著訓練會出現增長的趨勢。

Deepseek-R1，論文番外篇!-AI.x社區

分析目標函數，存在2種偏差

響應級別長度偏差：對于錯誤答案會偏好更長的響應
問題級別難度偏差：由標準差歸一化引起

并且許多開源PPO實現中也存在類似的長度偏差

Deepseek-R1，論文番外篇!-AI.x社區

Dr. GRPO

移除GRPO中的長度歸一化和標準差歸一化項，實驗比較原始GRPO和改進的Dr. GRPO

Deepseek-R1，論文番外篇!-AI.x社區

Dr. GRPO能有效緩解優化偏差，可以防止響應長度無限增長，并且可以顯著減少錯誤響應的長度，緩解過度思考問題。效果沒啥太大差別。

模板與問題集覆蓋范圍的交互影響

研究了不同模板和問題集覆蓋范圍如何影響RL訓練

Deepseek-R1，論文番外篇!-AI.x社區

不同的模板，只決定了初始的分值，RL到底，結果基本相當。

模型與模板不匹配時，數據的全面很重要。

模型與模板匹配時，即使數據量少，域外數據也可以誘導出推理能力。

領域特定預訓練

測試了R1-Zero類訓練在數學推理能力原本較弱的基礎模型上的效果，使用Llama-3.2-3B及其數學預訓練變體

Deepseek-R1，論文番外篇!-AI.x社區

數學領域的預訓練可以顯著提高RL的上限
連續預訓練后的Llama模型在RL后表現大幅提升
Dr. GRPO能有效緩解GRPO導致的響應長度和回報同時增長現象。

本文轉載自??NLP前沿??，作者：NLP前沿

標簽

Deepseek-R1

GRPO

模型

贊

回復

舉報

回復

相關推薦

DeepSeek-AI 發布 DeepSeek-R1-Zero 和 DeepSeek-R1

Halo咯咯 ? 4148瀏覽 ? 0回復
圖文詳解：帶你讀懂 DeepSeek-R1 的核心原理

Baihai_IDP ? 5661瀏覽 ? 0回復
帶你一文讀懂爆火的 DeepSeek-R1 新模型技術，為何震動了全球 AI 圈

玄姐聊AGI ? 7869瀏覽 ? 1回復
Unsloth：僅需7GB顯存就能訓練自己的DeepSeek-R1！

PyTorch研習社 ? 3881瀏覽 ? 0回復
7G顯存，訓練自己的 DeepSeek-R1：GRPO 資源下降80%

鴻煊的學習筆記 ? 3225瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

lintoms ? 3039瀏覽 ? 0回復
DeepSeek-R1技術大揭秘：論文核心原理拆解與模型性能突破關鍵

arnoldzhw ? 3640瀏覽 ? 0回復
滿血DeepSeek-R1免費用！附帶數據蒸餾的一些想法！

NLP工作站 ? 3030瀏覽 ? 0回復
Deepseek AI模型本地部署步驟簡記：ollama + deepseek-r1 + 本地AI模型的Web UI

parson2000 ? 2200瀏覽 ? 0回復
DeepSeek-R1 用來優化GPU 內核？代碼自動生成還比人寫得好！

Syrupup ? 2281瀏覽 ? 0回復
Grok 3 與 DeepSeek-R1 是怎么學會思考的？

機器學習與數學 ? 3527瀏覽 ? 0回復
沖，DeepSeek-R1/V3推理系統架構設計被開源了！

PaperAgent ? 2298瀏覽 ? 0回復
在消費級硬件上微調 DeepSeek-R1

AIGC前沿技術追蹤 ? 2267瀏覽 ? 0回復
QwQ-32B 大戰 DeepSeek-R1：小參數量模型能否逆襲？

Halo咯咯 ? 3312瀏覽 ? 0回復
DeepSeek-R1的方法遷移到多模態大模型-開源Vision-R1實現方法思路

大模型自然語言處理 ? 2421瀏覽 ? 0回復
DeepSeek-R1關鍵創新技術再總結

大模型自然語言處理 ? 2803瀏覽 ? 0回復
一文讀懂 DeepSeek-R1 的 “最強外掛” GRPO 算法

鴻煊的學習筆記 ? 2856瀏覽 ? 0回復
微軟開源DeepSeek-R1魔改版：響應99%敏感提示，風險降50%

Aceryt ? 3134瀏覽 ? 0回復
DianJin-R1：金融領域推理增強大模型，全面超越DeepSeek-R1

靈度智能 ? 1211瀏覽 ? 0回復

NLP前沿1

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Deepseek-R1，論文番外篇!

基礎模型分析

驗證模板對幾種基礎模型的影響

特殊的Qwen模型

aha moment分析

RL分析

GRPO 偏差分析

Dr. GRPO

模板與問題集覆蓋范圍的交互影響

領域特定預訓練

目錄