一文搞懂 DeepSeek - 強(qiáng)化學(xué)習(xí)和蒸餾 原創(chuàng)
這個(gè)春節(jié),DeepSeek 實(shí)在太火爆了。
DeepSeek-R1 在其論文(??https://arxiv.org/abs/2501.12948??)引言部分指出,R1 模型通過(guò)融合冷啟動(dòng)數(shù)據(jù)、多階段訓(xùn)練流程以及純粹的強(qiáng)化學(xué)習(xí)策略,顯著增強(qiáng)了大型語(yǔ)言模型的推理能力。這使得 R1 模型在性能上與 OpenAI 的 o1 系列模型持平,并且通過(guò)蒸餾技術(shù),成功地將這種推理能力傳遞給了更小型化的模型。
在 DeepSeek-R1 的“貢獻(xiàn)”章節(jié)中,著重強(qiáng)調(diào)了以下兩點(diǎn)創(chuàng)新:
1.模型訓(xùn)練完成后:對(duì)基礎(chǔ)模型實(shí)施了大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。通過(guò)這種方式,DeepSeek-R1 在基礎(chǔ)模型的基礎(chǔ)上,成功培育出了自我驗(yàn)證和長(zhǎng)思維鏈等高級(jí)推理能力。
2.蒸餾技術(shù):小型模型也能具備強(qiáng)大能力。本研究還證明了,大型模型的推理模式可以有效地通過(guò)蒸餾技術(shù)轉(zhuǎn)移到小型模型中,從而顯著提高小型模型的性能。
1、Post-Training:大規(guī)模強(qiáng)化學(xué)習(xí)
DeepSeek-R1-Zero 揭示了,大語(yǔ)言模型(LLMs)的推理能力能夠僅依靠強(qiáng)化學(xué)習(xí)得到提升,無(wú)需進(jìn)行監(jiān)督微調(diào)。DeepSeek 采取的策略是在基礎(chǔ)模型上直接實(shí)施強(qiáng)化學(xué)習(xí),跳過(guò)了監(jiān)督微調(diào)這一預(yù)備步驟。這種做法使得模型能夠深入探索解決復(fù)雜問(wèn)題的思維鏈,進(jìn)而孕育出具備自我驗(yàn)證、反思以及長(zhǎng)思維鏈生成能力的 DeepSeek-R1-Zero,為學(xué)術(shù)研究樹(shù)立了一個(gè)重要的里程碑。通過(guò)純粹的強(qiáng)化學(xué)習(xí)手段,而非監(jiān)督微調(diào),DeepSeek 成功激發(fā)了 LLMs 的推理潛能,這一技術(shù)革新為領(lǐng)域的發(fā)展開(kāi)辟了新路徑。中國(guó)的這一 0-1技術(shù)創(chuàng)新令硅谷震動(dòng),甚至導(dǎo)致英偉達(dá)市值大幅波動(dòng)。
DeepSeek-R1 的開(kāi)發(fā)流程是怎樣的?R1 的開(kāi)發(fā)流程涉及兩個(gè)強(qiáng)化學(xué)習(xí)階段,目的是發(fā)掘更優(yōu)的推理模式,并與人類(lèi)偏好相契合。此外,流程中還包含兩個(gè)監(jiān)督微調(diào)階段,這些階段構(gòu)成了模型推理和非推理能力的基礎(chǔ)。DeepSeek 堅(jiān)信,這一流程將有助于構(gòu)建更出色的模型,從而為整個(gè)行業(yè)帶來(lái)益處。
2、蒸餾:小模型同樣強(qiáng)大
蒸餾技術(shù)是否真的能讓小型模型同樣強(qiáng)大?事實(shí)證明,大型模型的推理模式可以通過(guò)蒸餾技術(shù)轉(zhuǎn)移到小型模型中,這種方法相較于僅在小型模型上應(yīng)用強(qiáng)化學(xué)習(xí)發(fā)現(xiàn)的推理模式,能夠?qū)崿F(xiàn)更卓越的性能表現(xiàn)。
開(kāi)源的 DeepSeek-R1 及其 API 將助力研究界在未來(lái)提煉出更優(yōu)秀的小型模型。DeepSeek-R1 系列通過(guò)蒸餾得到的小型模型在多項(xiàng)基準(zhǔn)測(cè)試中展現(xiàn)出顯著優(yōu)勢(shì),超越了先前開(kāi)源的模型。特別是 DeepSeek-R1-Distill-Qwen-32B,其性能足以與 o1-mini 匹敵,而 DeepSeek 已向?qū)W術(shù)界開(kāi)源了基于 Qwen2.5 和 Llama3 系列的不同參數(shù)規(guī)模的模型,包括 150億、70億、80億、140億、320億 和 700億參數(shù)的檢查點(diǎn)。這一顛覆性的0-1技術(shù)創(chuàng)新,讓硅谷的技術(shù)巨頭們感到不安,因?yàn)檫@一創(chuàng)新已在全球技術(shù)人員的驗(yàn)證下,證實(shí)了基于 R1 論文方法可以成功蒸餾出與 o1-mini 性能相當(dāng)?shù)男⌒湍P?。再次向梁文峰大神致敬?/p>
那么,如何蒸餾出 DeepSeek-R1-Distill-Qwen-32B 呢?以下是詳細(xì)的蒸餾步驟:
第一步、確定模型角色
1、教師模型:選取表現(xiàn)卓越、知識(shí)淵博的DeepSeek-R1作為指導(dǎo)。
2、學(xué)生模型:選擇參數(shù)適中、適合蒸餾的Qwen-32B作為學(xué)習(xí)對(duì)象。
第二步、準(zhǔn)備數(shù)據(jù)集
1、數(shù)據(jù)收集:整合跨領(lǐng)域的高質(zhì)量文本數(shù)據(jù),為蒸餾打下基礎(chǔ)。
2、數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)集進(jìn)行嚴(yán)格篩選和處理,確保蒸餾效果不受數(shù)據(jù)質(zhì)量影響。
第三步、模型訓(xùn)練與蒸餾
1、教師模型推理:DeepSeek-R1提供軟標(biāo)簽和中間層特征,作為Qwen-32B的學(xué)習(xí)標(biāo)準(zhǔn)。
2、學(xué)生模型訓(xùn)練:Qwen-32B模仿DeepSeek-R1的行為,吸收其知識(shí)和經(jīng)驗(yàn)。
3、損失函數(shù)設(shè)計(jì):使用KL散度或交叉熵等,衡量學(xué)生模型與教師模型之間的差異。
4、優(yōu)化算法選擇:采用SGD或Adam等算法,優(yōu)化學(xué)生模型參數(shù),降低損失函數(shù)值。
第四步、模型評(píng)估與調(diào)優(yōu)
1、模型評(píng)估:使用獨(dú)立的測(cè)試數(shù)據(jù)集,比較學(xué)生模型與教師模型的表現(xiàn),以評(píng)估蒸餾效果。
2、模型調(diào)優(yōu):根據(jù)評(píng)估結(jié)果,調(diào)整超參數(shù)、優(yōu)化損失函數(shù)等,以提高蒸餾效果。
本文轉(zhuǎn)載自公眾號(hào)玄姐聊AGI 作者:玄姐
