「推理革命」爆發(fā)100天：DeepSeek-R1復(fù)現(xiàn)研究全揭秘！

2025-05-06 09:09:37

本文深入梳理了圍繞DeepSeek-R1展開的多項復(fù)現(xiàn)研究，系統(tǒng)解析了監(jiān)督微調(diào)（SFT）、強化學(xué)習(xí)（RL）以及獎勵機制、數(shù)據(jù)構(gòu)建等關(guān)鍵技術(shù)細節(jié)。

最近，推理語言模型（RLMs）已經(jīng)成為主流。

最新發(fā)布的、性能最強的LLM大都是推理模型。

尤其是DeepSeek-R1的發(fā)布，更是引發(fā)了廣泛的社會影響，同時也點燃了研究社區(qū)對推理的熱情。

但是，DeepSeek-R1的一些實現(xiàn)細節(jié)還沒有完全開源，比如DeepSeek-R1-Zero以及蒸餾的小模型等。

因此，許多復(fù)制DeepSeek-R1的研究應(yīng)運而生（圖1），試圖通過相似的訓(xùn)練流程和完全開源的訓(xùn)練數(shù)據(jù)來重現(xiàn)DeepSeek-R1的優(yōu)異性能。

這些研究探索了監(jiān)督微調(diào)（SFT）和基于可驗證獎勵的強化學(xué)習(xí)（RLVR）的可行策略，重點關(guān)注數(shù)據(jù)準備和方法設(shè)計，產(chǎn)出了不少寶貴經(jīng)驗。

為此，本文總結(jié)了近期的這些復(fù)現(xiàn)研究，以啟發(fā)未來的探索。

論文地址：https://arxiv.org/abs/2505.00551

本文的結(jié)構(gòu)大致對應(yīng)DeepSeek-R1的訓(xùn)練流程，介紹當前在SFT、RLVR以及其他增強推理能力技術(shù)方面的復(fù)制工作：

監(jiān)督微調(diào)提升語言模型推理能力：研究團隊全面梳理了通過監(jiān)督微調(diào)（Supervised Fine-tuning, SFT）增強語言模型推理能力的相關(guān)研究。
用可驗證獎勵強化學(xué)習(xí)訓(xùn)練推理語言模型：研究團隊介紹了近期通過可驗證獎勵強化學(xué)習(xí)（Reinforcement Learning from Verifiable Rewards, RLVR）訓(xùn)練RLMs的研究，詳細闡述了訓(xùn)練數(shù)據(jù)、學(xué)習(xí)算法和獎勵系統(tǒng)設(shè)計。
推理語言模型的更多發(fā)展方向：研究團隊注意到，盡管DeepSeek-R1推動了RLMs的訓(xùn)練，但仍有許多監(jiān)督策略尚未探索。他們提出了RLMs的更多發(fā)展方向，包括獎勵建模和偏好優(yōu)化，并分析了當前RLMs的優(yōu)缺點，例如強大的分布外泛化能力和偶爾的過度思考。

通過監(jiān)督微調(diào)提升RLMs

推理數(shù)據(jù)集大多數(shù)從收集多樣化領(lǐng)域的問題開始，例如數(shù)學(xué)、科學(xué)、編程和謎題，數(shù)據(jù)來源包括現(xiàn)有的基準測試或網(wǎng)絡(luò)爬取。

在收集原始數(shù)據(jù)后，通常會進行多輪過濾以提升數(shù)據(jù)質(zhì)量，包括：

去重：通過嵌入相似性或n-gram方法去除重復(fù)數(shù)據(jù)；
拒絕采樣：剔除低質(zhì)量數(shù)據(jù)；
真值驗證：確保數(shù)據(jù)準確性。

為了保證數(shù)據(jù)的覆蓋面和豐富性，許多數(shù)據(jù)集在選擇過程中明確強調(diào)難度和多樣性，通常使用啟發(fā)式方法或模型通過率來優(yōu)先選擇較難的問題。

此外，大多數(shù)數(shù)據(jù)集依賴經(jīng)過驗證的思維鏈（COTs）或解決方案來確保正確性和質(zhì)量。

驗證方法因領(lǐng)域而異，例如：

數(shù)學(xué)問題通常通過Math Verify驗證；
編程問題通過代碼執(zhí)行或單元測試驗證；
通用任務(wù)則由大語言模型（LLM）作為評判者進行驗證。

這種結(jié)合領(lǐng)域驗證和選擇性保留的方法，使數(shù)據(jù)管理人員能夠提煉出高質(zhì)量的推理軌跡，從而更好地支持監(jiān)督微調(diào)。

雖然這些數(shù)據(jù)集覆蓋多個領(lǐng)域，但如表1所示，大多數(shù)數(shù)據(jù)集主要集中在數(shù)學(xué)和編程任務(wù)上。涉及更廣泛推理任務(wù)（如科學(xué)、邏輯謎題和開放性問題）的覆蓋率仍然相對有限。

值得注意的例外包括DeepSeek-R1和AM，它們在數(shù)據(jù)收集和蒸餾過程中納入了更廣泛的領(lǐng)域，旨在培養(yǎng)更通用的推理能力。

長度分布

圖2展示了數(shù)據(jù)集的token長度分布情況。

盡管這些數(shù)據(jù)集的長思維鏈（CoTs）都來源于同一個教師模型——DeepSeek-R1，但它們的分布卻存在明顯差異。

例如，AM和Synthetic-1的數(shù)據(jù)集傾向于較短的序列，而Light-R1和Open-R1的分布范圍更廣，尾部更長，這表明它們包含更多復(fù)雜問題，這些問題通常會引發(fā)更長的思維鏈。

圖3中展示了常用數(shù)學(xué)推理數(shù)據(jù)集之間的交叉引用結(jié)構(gòu)。該圖清晰地呈現(xiàn)了數(shù)據(jù)集之間的依賴網(wǎng)絡(luò)和共享數(shù)據(jù)，幫助研究人員更好地解讀結(jié)果，避免重復(fù)的訓(xùn)練或評估設(shè)置。

圖中箭頭從源數(shù)據(jù)集指向包含其部分數(shù)據(jù)的目標數(shù)據(jù)集。以淡紫色高亮顯示的數(shù)據(jù)集包含從DeepSeek-R1提取的思維鏈（Chain-of-Thought）軌跡

性能比較

在實踐中，SFT階段對于讓基礎(chǔ)模型從更強的模型中學(xué)習(xí)高質(zhì)量推理軌跡至關(guān)重要。

表2展示了在常見數(shù)學(xué)推理基準（如AIME24/25和MATH500）上的SFT結(jié)果比較，突出不同數(shù)據(jù)集選擇和初始模型檢查點的影響。

雖然許多方法強調(diào)通過增加訓(xùn)練樣本數(shù)量來提升性能，但LIMO和S1k-1.1表明，通過精心挑選的小規(guī)模數(shù)據(jù)集也能取得優(yōu)異成果。

訓(xùn)練細節(jié)

對于復(fù)雜推理等長上下文任務(wù)，通常會調(diào)整模型配置中的RoPE縮放因子（θ）和最大上下文長度，以支持擴展的上下文能力。

例如，Open-R1將θ設(shè)為300,000，上下文長度設(shè)為32,768個token。常用的學(xué)習(xí)率包括1.0 × 10??和5.0 × 10??，批大小通常為96或128。

此外，通常采用打包（packing）技術(shù)來提高訓(xùn)練效率。

RLVR在推理語言模型中的應(yīng)用

RL數(shù)據(jù)集

DeepSeek-R1-Zero通過獨立的RLVR流程在推理和知識任務(wù)中取得了優(yōu)異表現(xiàn)。其RLVR過程中使用的高質(zhì)量精選數(shù)據(jù)集是成功的關(guān)鍵。

因此，多項復(fù)制研究探索了如何利用開源數(shù)據(jù)和強大模型高效創(chuàng)建訓(xùn)練數(shù)據(jù)集的策略。

這些數(shù)據(jù)集涵蓋R訓(xùn)練中可驗證的多種任務(wù)，主要聚焦于數(shù)學(xué)和編程問題解決的數(shù)據(jù)集。表3提供了這些數(shù)據(jù)集的統(tǒng)計概覽。

RL組件

隨著DeepSeek-R1-Zero和DeepSeek-R1的發(fā)布，DeepSeek展示了通過強化學(xué)習(xí)（RL）微調(diào)LLM以應(yīng)對復(fù)雜推理任務(wù)的成功經(jīng)驗。

基于精心挑選的訓(xùn)練數(shù)據(jù)，相關(guān)研究主要集中在配置RL框架的關(guān)鍵部分，以實現(xiàn)卓越性能：采用高效的RL算法（如GRPO）以及設(shè)計獎勵機制。

表4提供了這些研究方法的比較。

表4總結(jié)了多個競爭性開源 DeepSeek-R1 復(fù)制研究在強化學(xué)習(xí)驗證任務(wù)（RLVR）中使用的算法和獎勵設(shè)計方案。為了便于比較，DeepSeek-R1 系列模型的相關(guān)信息被單獨列出

在基于結(jié)果-獎勵的RL方法中，PPO和GRPO是最常用的微調(diào)大語言模型的算法。

有趣的是，近期的一些復(fù)制研究對這些方法進行了各種改進，針對特定目標優(yōu)化了訓(xùn)練效果。

研究團隊回顧了幾種代表性的基于RL的大語言模型微調(diào)算法，包括 REINFORCE、PPO、GRPO及其變體。此外，他們還梳理了這些方法的改進及其背后的動機，旨在清晰概述基于結(jié)果-獎勵的RL訓(xùn)練方法的技術(shù)進步。

獎勵機制

獎勵是RL訓(xùn)練的核心，因為它定義了優(yōu)化的目標，引導(dǎo)模型的行為。

一個設(shè)計良好的獎勵機制能提供清晰、一致的信號，幫助模型學(xué)習(xí)到有效的策略。

然而，獎勵模型常常容易被「獎勵欺騙」（reward hacking，指模型通過鉆空子獲得高分而非真正解決問題），因此近期研究更傾向于使用基于規(guī)則的結(jié)果獎勵系統(tǒng)。

這些系統(tǒng)通常分為三類：

準確性獎勵：準確性獎勵評估回答是否正確，通常給正確回答打 1 分，錯誤回答打 0 分或 -1 分。
格式獎勵：格式獎勵鼓勵回答遵循預(yù)定義的結(jié)構(gòu)或推理格式，通常給正確格式打 1 分，偏離格式則打 0 分或 -1 分。
長度獎勵：長度獎勵影響模型回答的詳盡程度。一些方法獎勵生成特定長度的回答，而另一些方法則鼓勵在保證準確性的前提下盡量簡潔。

采樣策略

直觀來說，在訓(xùn)練過程中合理選擇樣本對RL的有效性至關(guān)重要。

一方面，課程學(xué)習(xí)方法通過逐步增加任務(wù)難度，提高了復(fù)雜樣本的利用率。另一方面，合理使用拒絕采樣技術(shù)可以提升樣本效率并穩(wěn)定訓(xùn)練。

RLVR在其他任務(wù)上的應(yīng)用

通過RLVR，DeepSeek-R1的復(fù)雜推理能力顯著增強，在復(fù)雜語境理解和問題解決等推理密集型任務(wù)中取得成功。

RLVR使大模型能夠在無需人工指導(dǎo)的情況下，通過可驗證的答案學(xué)習(xí)和執(zhí)行任務(wù)，激發(fā)其復(fù)雜推理能力。

受此啟發(fā)，多項研究探索了RLVR在不同任務(wù)中的復(fù)雜推理范式。

邏輯推理：TinyZero和Mini-R1嘗試在倒計時游戲中重現(xiàn)DeepSeek R1的「靈光一現(xiàn)」時刻，使用簡單的基于規(guī)則的獎勵系統(tǒng)。
面向應(yīng)用的實際任務(wù)：推理語言模型需要通過思考、規(guī)劃和反思來學(xué)習(xí)處理現(xiàn)實世界的應(yīng)用型任務(wù)。
超越監(jiān)督的探索：通過強化學(xué)習(xí)過程，研究發(fā)現(xiàn)大模型展現(xiàn)出了令人驚喜且意想不到的能力。

這些結(jié)果凸顯了復(fù)雜推理語言模型通過RL訓(xùn)練策略，超越監(jiān)督數(shù)據(jù)資源甚至人類能力的潛力。

結(jié)論

在本文中，研究團隊全面概述了受DeepSeek-R1啟發(fā)而進行的復(fù)現(xiàn)工作，特別重點關(guān)注了其背后的監(jiān)督微調(diào)和強化學(xué)習(xí)方法。

他們探討了開源項目如何整理指令微調(diào)數(shù)據(jù)集，如何實現(xiàn)基于結(jié)果獎勵的強化學(xué)習(xí)策略，以及如何設(shè)計旨在增強模型推理能力的獎勵系統(tǒng)。

除了總結(jié)當前各項工作的趨勢之外，還對該領(lǐng)域未來充滿希望的方向提出了自己的看法。這些方向包括將推理技能擴展到數(shù)學(xué)和編程任務(wù)之外，提升模型的安全性和可解釋性，以及改進獎勵機制以促進更復(fù)雜的推理行為。

團隊希望本次綜述不僅能捕捉到近期進展，還能為正在進行的研究提供堅實的基礎(chǔ)，并標志著向?qū)崿F(xiàn)通用人工智能邁出了更進一步。

責任編輯：張燕妮來源：新智元

DeepSeek 模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「推理革命」爆發(fā)100天：DeepSeek-R1復(fù)現(xiàn)研究全揭秘！

通過監(jiān)督微調(diào)提升RLMs

RLVR在推理語言模型中的應(yīng)用

更多發(fā)展方向

結(jié)論