微軟副總裁X上「開(kāi)課」,連更關(guān)于RL的一切,LLM從業(yè)者必讀
別人都在用 X 發(fā)帖子,分享新鮮事物,微軟副總裁 Nando de Freitas 卻有自己的想法:他要在 X 上「開(kāi)課」,發(fā)布一些關(guān)于人工智能教育的帖子。該系列會(huì)從 LLM 的強(qiáng)化學(xué)習(xí)開(kāi)始,然后逐步講解擴(kuò)散、流匹配,以及看看這些技術(shù)接下來(lái)會(huì)如何發(fā)展。
話說(shuō)回來(lái),F(xiàn)reitas 有這個(gè)想法時(shí)還是 4 月 24 日,到今天為止,他已經(jīng)更新了多篇帖子,每篇都干貨滿滿。
由于涉及的內(nèi)容需要費(fèi)點(diǎn)腦細(xì)胞來(lái)思考,在更新了幾篇后,F(xiàn)reitas 抱怨道:「隨著數(shù)學(xué)知識(shí)的增多,自己 X 上的讀者人數(shù)正在下降。」
或許,太硬核的東西,瀏覽量確實(shí)不會(huì)太高。
不過(guò),遺憾歸遺憾,這些帖子對(duì)于那些想學(xué)習(xí) RL、從事大模型的人非常有幫助。
Freitas 也表示,他會(huì)不斷更新內(nèi)容,感興趣的讀者可以隨時(shí)關(guān)注。
接下來(lái),我們看看最近幾篇帖子內(nèi)容。
無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)終極定論尚未形成
監(jiān)督學(xué)習(xí)對(duì)應(yīng)于最基礎(chǔ)的模仿形式:簡(jiǎn)單的行為復(fù)制。它通過(guò)最大似然估計(jì),將世界狀態(tài)(如文本問(wèn)題)映射到行動(dòng)(如文本答案)。我們將這種映射關(guān)系稱為策略。監(jiān)督學(xué)習(xí)需要高質(zhì)量的專家數(shù)據(jù),學(xué)生只是機(jī)械地模仿教師行為,因此需要教師本身必須足夠優(yōu)秀。教師僅示范操作方式,并不進(jìn)行評(píng)分反饋。
另外,目前存在一些非常強(qiáng)大的監(jiān)督學(xué)習(xí)方法,它們?cè)谕ㄓ眯詷O強(qiáng)的專家指導(dǎo)下進(jìn)行下一步預(yù)測(cè)(關(guān)聯(lián)學(xué)習(xí))和重構(gòu)學(xué)習(xí)。這正是大語(yǔ)言模型預(yù)訓(xùn)練的核心原理,也是擴(kuò)散模型、流匹配和自編碼器在多模態(tài)感知與生成中運(yùn)作的基礎(chǔ)。從本質(zhì)上看,預(yù)測(cè)下一個(gè) bit 的過(guò)程實(shí)則是一種自由能(熵)最小化的過(guò)程,簡(jiǎn)而言之:在趨于無(wú)序的世界中創(chuàng)造有序。這正是細(xì)胞和生命運(yùn)作的基本原理 —— 埃爾溫?薛定諤和保羅?納斯各自撰寫(xiě)的同名著作《生命是什么》對(duì)此有深入闡述。既然生命遵循這樣的規(guī)律,那么智能系統(tǒng)采用類似機(jī)制運(yùn)作也就不足為奇了。
另一方面,強(qiáng)化學(xué)習(xí) (RL) 則側(cè)重于選擇性模仿(selective imitation),這對(duì)于優(yōu)化特定任務(wù)的性能非常有效。RL 可以從智能體或其他智能體先前生成的大量次優(yōu)經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行訓(xùn)練。RL 可以利用價(jià)值函數(shù)或其他工具(通過(guò)獎(jiǎng)勵(lì)學(xué)習(xí))來(lái)識(shí)別和選擇有用的信號(hào)。這種選擇過(guò)程使模型能夠利用大量廉價(jià)的次優(yōu)數(shù)據(jù)進(jìn)行學(xué)習(xí),并最終超越最優(yōu)秀的老師。
也就是說(shuō),在 RL 中,智能體可以識(shí)別哪些數(shù)據(jù)對(duì)學(xué)習(xí)有用,哪些數(shù)據(jù)應(yīng)該忽略。
就像我們不會(huì)模仿父母的每一個(gè)行為,而是選擇模仿部分,以及哪些部分應(yīng)該忽略。
RL 的核心在于自我提高。智能體會(huì)生成數(shù)據(jù),因此,他們可以從自身數(shù)據(jù)(成功和錯(cuò)誤)以及來(lái)自其他智能體的混合數(shù)據(jù)中學(xué)習(xí)。
當(dāng)我們使用獎(jiǎng)勵(lì)信號(hào)構(gòu)建選擇機(jī)制(例如,對(duì)數(shù)據(jù)進(jìn)行排序并只挑選最佳的那一半)時(shí),智能體就可以開(kāi)始從自身數(shù)據(jù)中學(xué)習(xí)并自我提升,這種方式非常強(qiáng)大。
此外,智能體會(huì)利用其獲得的知識(shí)來(lái)決定在環(huán)境中采取哪些行動(dòng),從而獲得介入性因果知識(shí)。
在《An Invitation to Imitation 》一書(shū)中,CMU 教授 Drew Bagnell 探討了一種名為 Dagger 的強(qiáng)化學(xué)習(xí)替代方案,其中智能體采取行動(dòng),老師來(lái)糾正學(xué)生。
對(duì)于智能體來(lái)說(shuō),從自身行動(dòng)和自身經(jīng)驗(yàn)中學(xué)習(xí)至關(guān)重要,這樣它才能學(xué)會(huì)保持魯棒性。
例如,如果智能體使用專業(yè)駕駛員提供的數(shù)據(jù)學(xué)習(xí)駕駛,有一天發(fā)現(xiàn)自己偏離了道路(這種情況即使是完美的老師也從未發(fā)生過(guò)),那么學(xué)生將不知所措。為了讓學(xué)生學(xué)會(huì)回到道路上,它需要老師在那時(shí)提供建議。
一項(xiàng)重要的研究啟示在于:生成模型對(duì)強(qiáng)化學(xué)習(xí)的作用與任何強(qiáng)化學(xué)習(xí)算法創(chuàng)新一樣重要。這或許存在爭(zhēng)議,但我認(rèn)為過(guò)去十年間強(qiáng)化學(xué)習(xí)的進(jìn)步,本質(zhì)上是生成模型發(fā)展的結(jié)果。從算法演進(jìn)來(lái)看(下文將詳細(xì)展開(kāi)),當(dāng)前 AI 界普遍采用的基礎(chǔ)算法思想 —— 如期望最大化算法(EM 算法)和策略梯度 —— 實(shí)際上已存在超過(guò) 50 年。真正的變革力量來(lái)自強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的規(guī)模擴(kuò)張。
希望讀者能通過(guò)本文認(rèn)識(shí)到:關(guān)于無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的終極定論尚未形成。雖然我質(zhì)疑這種分類法的有效性,但在未來(lái)的教學(xué)實(shí)踐中仍將沿用該框架以輔助知識(shí)傳遞。
分布式強(qiáng)化學(xué)習(xí)系統(tǒng)
智能體是一種能夠感知環(huán)境、自主采取行動(dòng)從而實(shí)現(xiàn)目標(biāo),并可能通過(guò)強(qiáng)化學(xué)習(xí)或教學(xué)來(lái)提升自身性能的實(shí)體。
智能體可以是一個(gè)多模態(tài)神經(jīng)網(wǎng)絡(luò),它通過(guò)與環(huán)境的交互,為用戶提供個(gè)性化目標(biāo)。智能體觀測(cè)得越多,就越容易為用戶定制個(gè)性化的學(xué)習(xí)方案。
基于工業(yè)級(jí)大語(yǔ)言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL),可能涉及數(shù)百萬(wàn)次并行交互,使用數(shù)十億參數(shù)的模型,甚至需要調(diào)動(dòng)整個(gè)數(shù)據(jù)中心 —— 成本極其高昂!
如何構(gòu)建能在如此龐大尺度下高效運(yùn)行的強(qiáng)化學(xué)習(xí)系統(tǒng),絕非易事。
根據(jù)文章《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》、《acme: A library of reinforcement learning》,現(xiàn)代分布式強(qiáng)化學(xué)習(xí)系統(tǒng)可以分為兩個(gè)部分:Actors 和 Learners。
每個(gè) actor 通過(guò)使用稱為策略的網(wǎng)絡(luò)生成動(dòng)作來(lái)與環(huán)境交互。actor 還從環(huán)境中收集獎(jiǎng)勵(lì)和觀測(cè)結(jié)果。收集到的數(shù)據(jù)被添加到一個(gè)公共記憶中。
Learner 從記憶中采樣數(shù)據(jù)并使用它來(lái)更新策略網(wǎng)絡(luò)。更新網(wǎng)絡(luò)后,需要將權(quán)重檢查點(diǎn)發(fā)送給每個(gè) actor。在設(shè)計(jì)此類系統(tǒng)時(shí),測(cè)量每個(gè)操作的持續(xù)時(shí)間、每個(gè)通信鏈路的帶寬等非常重要。這需要精確的工程設(shè)計(jì)以及全面的測(cè)量和消融。
在語(yǔ)言中,actors 是聊天機(jī)器人,環(huán)境是人。每次聊天的數(shù)據(jù)隨后被發(fā)送到重放內(nèi)存進(jìn)行學(xué)習(xí)。通常,learner 可能比 actors 需要更多的存儲(chǔ)空間和計(jì)算資源,因?yàn)?learner 需要跟蹤梯度和大規(guī)模統(tǒng)計(jì)數(shù)據(jù)。
此外,了解 actors 的推理成本、通信成本和學(xué)習(xí)成本也至關(guān)重要。
另一方面,若數(shù)據(jù)采集速度不足,learner 可能需要重復(fù)利用歷史經(jīng)驗(yàn)來(lái)更新策略 —— 這正是 off-policy 場(chǎng)景的核心特征。此時(shí)必須解決一個(gè)關(guān)鍵問(wèn)題:陳舊數(shù)據(jù)導(dǎo)致的偏差修正。在前面推文中的駕駛示例表明,過(guò)度依賴 off-policy 數(shù)據(jù)可能引發(fā)嚴(yán)重后果!
值得慶幸的是,研究者已提出多種解決方案:
- 重要性加權(quán)(Importance Weights):對(duì)歷史數(shù)據(jù)賦予不同權(quán)重以修正分布偏差;
- 近端策略優(yōu)化(PPO):通過(guò)剪裁機(jī)制控制策略更新幅度;
- DeepSeek-R1 論文提出的加權(quán)方案:動(dòng)態(tài)調(diào)整新舊數(shù)據(jù)貢獻(xiàn)度。
當(dāng)系統(tǒng)僅依賴大型歷史經(jīng)驗(yàn)庫(kù)進(jìn)行策略學(xué)習(xí)時(shí),便進(jìn)入離線強(qiáng)化學(xué)習(xí)(Off-line RL)或批量強(qiáng)化學(xué)習(xí)(Batch RL)范式。相較于監(jiān)督學(xué)習(xí),其優(yōu)勢(shì)在于繼承了前文討論的生成 - 選擇機(jī)制;但相比在線強(qiáng)化學(xué)習(xí),又因缺失環(huán)境實(shí)時(shí)交互而存在局限。
不過(guò),離線強(qiáng)化學(xué)習(xí)在以下關(guān)鍵場(chǎng)景中具有不可替代價(jià)值:
- 高成本交互(如機(jī)器人物理訓(xùn)練);
- 高風(fēng)險(xiǎn)環(huán)境(如自動(dòng)駕駛事故數(shù)據(jù)學(xué)習(xí))。
用于后訓(xùn)練 LLM 的 RL
目前看來(lái),RL 有多種形式。
其中一種是單步(one-step )RL 問(wèn)題(上圖左上角)。在這里,給定一個(gè)提示,模型會(huì)生成一個(gè)動(dòng)作并得到一個(gè)評(píng)估。
這個(gè)動(dòng)作可以是文本答案、CoT 推理序列、語(yǔ)音或任何其他行為信號(hào),即任何 Token 序列。
評(píng)估通常是一個(gè)單一的結(jié)果獎(jiǎng)勵(lì),例如答案是否正確。
與單步對(duì)應(yīng)的是多步(multi-step)RL 問(wèn)題,這種情況大多存在于與聊天機(jī)器人對(duì)話中,用戶是環(huán)境,聊天機(jī)器人是智能體。
在用戶不提供任何輸入的情況下,智能體會(huì)思考下一步做什么,這是一個(gè)單步強(qiáng)化學(xué)習(xí)問(wèn)題。這在我們的圖中(左上角)清晰可見(jiàn),因?yàn)檫@三個(gè)動(dòng)作可以輕松地合并為一個(gè)動(dòng)作,而不會(huì)破壞決策圖的結(jié)構(gòu)。
然而,規(guī)劃整個(gè)對(duì)話以最終實(shí)現(xiàn)目標(biāo),在此期間用戶和聊天智能體都會(huì)變化,這是一個(gè)多步強(qiáng)化學(xué)習(xí)問(wèn)題(我們的圖中,左下角)。
在這種設(shè)置下,智能體可以使用工具(例如 Web 瀏覽器、編譯器等)來(lái)建模聊天機(jī)器人,從而收集信息。
當(dāng)強(qiáng)化學(xué)習(xí)涉及多步時(shí),可能每一步都會(huì)對(duì)結(jié)果有影響。就像當(dāng)一個(gè)人獲得獎(jiǎng)勵(lì)時(shí),他并不知道是眾多決策中的哪一個(gè)導(dǎo)致了獎(jiǎng)勵(lì)。這種現(xiàn)象人們稱之為信用分配問(wèn)題。
由于多步問(wèn)題,強(qiáng)化學(xué)習(xí)通常是組合型的,而且維度非常高。在這些情況下,我們必須解決跨維度推理問(wèn)題。
簡(jiǎn)而言之,強(qiáng)化學(xué)習(xí)真的很難,解的方差可能非常大。雖然研究人員發(fā)明了一系列概念來(lái)控制方差,但代價(jià)是引入了偏差,其中包括價(jià)值函數(shù)。這些概念在多步?jīng)Q策問(wèn)題中很有用,但對(duì)于單步強(qiáng)化學(xué)習(xí)來(lái)說(shuō)并非總是必需的。雖然其中一些想法在電腦游戲中很有效,但在 LLM 中卻行不通。
在控制領(lǐng)域,普遍存在這些問(wèn)題,如 T 步?jīng)Q策、二次獎(jiǎng)勵(lì)函數(shù)。這些被稱為線性二次高斯控制器或調(diào)節(jié)器,構(gòu)成了最普遍的控制類型之一 —— 模型預(yù)測(cè)控制 (MPC) 的基礎(chǔ)。
然而,盲目地將為電腦游戲或控制開(kāi)發(fā)的強(qiáng)化學(xué)習(xí)方法的理論和軟件引入語(yǔ)言模型領(lǐng)域是危險(xiǎn)的。
為了實(shí)現(xiàn)工具使用和多步輔助,我們需要為 LLM 提供多步強(qiáng)化學(xué)習(xí)。然而,要實(shí)現(xiàn)像 DeepSeek-R1 或測(cè)試時(shí)強(qiáng)化學(xué)習(xí) TTRL 這樣的方法,需要先解決單步強(qiáng)化學(xué)習(xí)問(wèn)題,因?yàn)檫@個(gè)問(wèn)題稍微簡(jiǎn)單一些。
所有 RL 智能體都能夠自我學(xué)習(xí)和自我改進(jìn)。如果設(shè)計(jì)得當(dāng),它們可以構(gòu)建質(zhì)量不斷提升的數(shù)據(jù)集,從而生成更好的策略。RL 智能體的這一特性對(duì)于性能和安全性都至關(guān)重要。
可能存在一些更難的強(qiáng)化學(xué)習(xí)案例。比如有時(shí)決策范圍是未知的或無(wú)限的,時(shí)間步長(zhǎng)可能是連續(xù)的,也可能是中斷驅(qū)動(dòng)的,動(dòng)作和觀測(cè)可以是離散的、也可以是連續(xù)的,這些都增加了推理的復(fù)雜性。
出于教學(xué)原因,明天我們將首先介紹最簡(jiǎn)單的案例:?jiǎn)尾綇?qiáng)化學(xué)習(xí)。
單步強(qiáng)化學(xué)習(xí)與策略梯度
包括 DeepSeek-R1 在內(nèi)的許多團(tuán)隊(duì),當(dāng)他們聲稱在進(jìn)行 RL 時(shí),會(huì)最大化單步目標(biāo)函數(shù),如下所示:
這些數(shù)學(xué)符號(hào)代表了以下概念:
也就是說(shuō),我們正在針對(duì)所有的數(shù)據(jù)字符串 (a,o) 對(duì) LLM 進(jìn)行微調(diào)。在處理文本時(shí),通常使用積分符號(hào)來(lái)表示非常龐大的離散求和。
因此,如果我們有一個(gè)包含 N 對(duì)觀測(cè)值和動(dòng)作 (o, a) 的數(shù)據(jù)集,那么在實(shí)際操作中,我們會(huì)按如下方式評(píng)估目標(biāo)函數(shù):
環(huán)境(用戶)也會(huì)為我們提供觀測(cè)值(提示或指令 o)。所以不需要知道分布 P (o)。由于不知道最優(yōu)動(dòng)作(大語(yǔ)言模型生成的內(nèi)容,也就是動(dòng)作 a),將對(duì)這些動(dòng)作進(jìn)行積分。這是在概率中處理未知量的標(biāo)準(zhǔn)方法。我們對(duì)所有可能的值按照出現(xiàn)的概率進(jìn)行加權(quán)求和。在這種情況下,動(dòng)作的概率就是大語(yǔ)言模型所生成的結(jié)果。大語(yǔ)言模型是一個(gè)概率模型。
這種在對(duì)大語(yǔ)言模型的權(quán)重進(jìn)行最大化的同時(shí)對(duì)其輸出進(jìn)行求和的方法,被稱為最大期望效用,這也是博弈論中理性主體所采取的做法。通過(guò)最大化期望效用(獎(jiǎng)勵(lì)的另一種說(shuō)法),人們可以收斂到納什均衡。在統(tǒng)計(jì)學(xué)中,人們把這個(gè)過(guò)程稱為邊緣化,而當(dāng)它還涉及到對(duì)某個(gè)量進(jìn)行最大化時(shí),它就被稱為實(shí)驗(yàn)設(shè)計(jì)。
總之,在單步強(qiáng)化學(xué)習(xí)中,我們通過(guò)調(diào)整大語(yǔ)言模型的策略來(lái)最大化期望回報(bào) R,也就是說(shuō),對(duì)于目前大多數(shù)的大語(yǔ)言模型而言(見(jiàn)上一篇文章),在單次結(jié)果中進(jìn)行獎(jiǎng)勵(lì) R=r (a,o)。
策略梯度:就是人們所說(shuō)的 on policy RL 或 Reinforce 算法。這種方法被稱為 on-policy,是因?yàn)樯蓸颖荆▌?dòng)作)的策略(大語(yǔ)言模型)與正在被學(xué)習(xí)的策略是同一個(gè)。
當(dāng)生成樣本的成本低于學(xué)習(xí)成本時(shí),這種方法是有意義的。也就是說(shuō),當(dāng) learner 可以按需輕松獲取新樣本時(shí)適用。
但對(duì)于成本高昂的游戲模擬引擎而言并非如此,在這類場(chǎng)景中,必須引入緩沖區(qū)和回放記憶來(lái)緩存數(shù)據(jù)。隨著數(shù)據(jù)變得陳舊,就需要使用 off-policy 方法。
那如何計(jì)算單步損失的梯度,答案是只需沿著梯度方向更新參數(shù)即可。
從理論上講,策略梯度可以使用微積分按如下方式得到它:
策略梯度常用技巧
前文重點(diǎn)介紹了策略梯度算法,不過(guò)大家還會(huì)使用一些技巧來(lái)提高性能。
現(xiàn)在,我們從一個(gè)常用的技巧開(kāi)始,即從獎(jiǎng)勵(lì)中減去獎(jiǎng)勵(lì)的均值。得到的表達(dá)式被稱為優(yōu)勢(shì)(advantage)。這項(xiàng)技術(shù)本身被稱為基線減法(baseline subtraction)。
在策略梯度中,如果我們從獎(jiǎng)勵(lì) r 中減去其均值,然后用下面的獎(jiǎng)勵(lì)來(lái)替代原來(lái)的獎(jiǎng)勵(lì):
這樣做并沒(méi)有改變最大值的位置,但降低了方差。
此外,當(dāng)獎(jiǎng)勵(lì)是二元的,而我們又需要一個(gè)更連續(xù)、漸進(jìn)的反饋信號(hào)時(shí),這種方法格外有用。
下面是證明過(guò)程:
KL 散度
KL 散度是一種用于衡量?jī)蓚€(gè)分布之間「距離」的方法,從數(shù)學(xué)角度來(lái)說(shuō),KL 散度定義如下:
如果在強(qiáng)化學(xué)習(xí)的損失函數(shù)中加入 KL 散度項(xiàng),本質(zhì)上是在鼓勵(lì)后訓(xùn)練(post-training)過(guò)程中學(xué)習(xí)到的 LLM 策略保持接近監(jiān)督微調(diào)(SFT)階段的策略。
如果我們根據(jù)最新的策略 p(a|o) 采樣 N 個(gè)動(dòng)作,我們可以再次使用蒙特卡羅方法來(lái)近似計(jì)算 KL 散度:
此外,John Schulman 有一篇很棒的關(guān)于如何高效近似 KL 散度的博客。他提出了以下替代方法:
采樣、PPO 以及 GRPO 的重要性
在強(qiáng)化學(xué)習(xí)系統(tǒng)中,有時(shí)會(huì)有多個(gè) actors 來(lái)收集數(shù)據(jù)并將數(shù)據(jù)添加到記憶系統(tǒng)中。然后,learner 從這個(gè)記憶中提取樣本進(jìn)行學(xué)習(xí)。
在這種異步設(shè)置中,有些樣本會(huì)變得過(guò)時(shí)。生成樣本的機(jī)制(actors)與更新參數(shù)的機(jī)制(learner)不同,因此這種方法被稱為 off-policy。
重要性采樣(Importance Sampling, IS)提供了一種校正 off-policy 樣本偏差的解決方案,其核心操作如下:
我們通過(guò)在單步目標(biāo)函數(shù)的被積項(xiàng)中乘以并除以舊策略 π_old (a|o) 實(shí)現(xiàn)修正。系統(tǒng)將基于該舊策略采取動(dòng)作,但實(shí)際學(xué)習(xí)的卻是新策略 —— 這正是 off-policy 學(xué)習(xí)的本質(zhì)特征。數(shù)學(xué)表達(dá)上,通過(guò)引入行為策略進(jìn)行乘除變換后,單步強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)轉(zhuǎn)化為:
如果我們觀察到一個(gè)提示 o^i ,并從行為策略中采樣出一個(gè)動(dòng)作 a^i,可以再次用以下蒙特卡羅近似來(lái)替代積分,這種近似被稱為 IS 估計(jì):
分布的比率被稱為重要性權(quán)重:
這個(gè)權(quán)重可能會(huì)增大并導(dǎo)致不穩(wěn)定性,尤其是因?yàn)槲覀冇?jì)算這個(gè)比率所涉及的所有字符串的空間是非常高維的。
PPO:為了防范高方差和不穩(wěn)定性,我們必須巧妙地截?cái)啵ú眉簦┲匾詸?quán)重。讓我們?cè)俅蝸?lái)考慮一下我們的 off-policy 目標(biāo):
近端策略優(yōu)化(PPO)修改了這個(gè)目標(biāo)函數(shù),對(duì)那些使 w (theta) 偏離 1 的策略變化進(jìn)行懲罰,具體如下:
PPO 的內(nèi)容遠(yuǎn)不止這些,所以我鼓勵(lì)大家都去讀一讀這篇有影響力的論文《Proximal Policy Optimization Algorithms》。
DeepSeek-R1 將裁剪后的重要性采樣、基線減法以及與參考策略的 KL(相對(duì)熵)接近度相結(jié)合,以此來(lái)訓(xùn)練其推理模型。(PPO 也做了所有這些事情,但方式略有不同。)
現(xiàn)在我們已經(jīng)介紹了 DeepSeek 強(qiáng)化學(xué)習(xí)算法(GRPO)的所有要素,所以接下來(lái)就只是把它們整合起來(lái)的問(wèn)題了。
當(dāng)然,真正的挑戰(zhàn)在于解決實(shí)現(xiàn)過(guò)程中基礎(chǔ)設(shè)施和數(shù)據(jù)方面的問(wèn)題。
為了得到第一個(gè)蒙特卡羅估計(jì)值,我們使用來(lái)自行為策略 pi_old 的樣本 a^i ,但是如果我們想要保持估計(jì)的無(wú)偏性,對(duì)于第二項(xiàng)(即 KL 散度項(xiàng))的蒙特卡羅估計(jì)應(yīng)該使用來(lái)自 pi_theta 的樣本 a^i ,而不是來(lái)自 pi_old 的樣本。
正如在之前的文章中所提到的,我們已經(jīng)從獎(jiǎng)勵(lì)中減去了平均基線值:
但與 DeepSeek-R1 不同的是,我們沒(méi)有除以標(biāo)準(zhǔn)差。這一點(diǎn)值得通過(guò)實(shí)證來(lái)檢驗(yàn)。
注意:在這個(gè)版本中,我們針對(duì)每個(gè)觀測(cè)值采樣一個(gè)動(dòng)作。也可以針對(duì)每個(gè)觀測(cè)值采樣多個(gè)動(dòng)作來(lái)減少方差。DeepSeek-R1 基本上就是這么做的,其梯度更新包含了針對(duì)單個(gè)問(wèn)題的多個(gè)動(dòng)作樣本。這種技術(shù)在隨機(jī)近似中被稱為公共隨機(jī)數(shù)。
如果你對(duì) PPO 和 GRPO 的這些公式感到熟悉了,那么你現(xiàn)在幾乎已經(jīng)了解了如今所有公司在 LLM 中使用的強(qiáng)化學(xué)習(xí)(RL)所需的全部理論知識(shí)。
接下來(lái),F(xiàn)reitas 想從單步強(qiáng)化學(xué)習(xí)拓展到多步強(qiáng)化學(xué)習(xí),從而進(jìn)行更深入的研究。感興趣的小伙伴,可以隨時(shí)關(guān)注 Freitas 動(dòng)態(tài)。