成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

微軟副總裁X上「開(kāi)課」,連更關(guān)于RL的一切,LLM從業(yè)者必讀

人工智能 新聞
Freitas 有這個(gè)想法時(shí)還是 4 月 24 日,到今天為止,他已經(jīng)更新了多篇帖子,每篇都干貨滿滿。

別人都在用 X 發(fā)帖子,分享新鮮事物,微軟副總裁 Nando de Freitas 卻有自己的想法:他要在 X 上「開(kāi)課」,發(fā)布一些關(guān)于人工智能教育的帖子。該系列會(huì)從 LLM 的強(qiáng)化學(xué)習(xí)開(kāi)始,然后逐步講解擴(kuò)散、流匹配,以及看看這些技術(shù)接下來(lái)會(huì)如何發(fā)展。

圖片

話說(shuō)回來(lái),F(xiàn)reitas 有這個(gè)想法時(shí)還是 4 月 24 日,到今天為止,他已經(jīng)更新了多篇帖子,每篇都干貨滿滿。

由于涉及的內(nèi)容需要費(fèi)點(diǎn)腦細(xì)胞來(lái)思考,在更新了幾篇后,F(xiàn)reitas 抱怨道:「隨著數(shù)學(xué)知識(shí)的增多,自己 X 上的讀者人數(shù)正在下降。」

圖片

或許,太硬核的東西,瀏覽量確實(shí)不會(huì)太高。

不過(guò),遺憾歸遺憾,這些帖子對(duì)于那些想學(xué)習(xí) RL、從事大模型的人非常有幫助。

Freitas 也表示,他會(huì)不斷更新內(nèi)容,感興趣的讀者可以隨時(shí)關(guān)注。

接下來(lái),我們看看最近幾篇帖子內(nèi)容。

無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)終極定論尚未形成

監(jiān)督學(xué)習(xí)對(duì)應(yīng)于最基礎(chǔ)的模仿形式:簡(jiǎn)單的行為復(fù)制。它通過(guò)最大似然估計(jì),將世界狀態(tài)(如文本問(wèn)題)映射到行動(dòng)(如文本答案)。我們將這種映射關(guān)系稱為策略。監(jiān)督學(xué)習(xí)需要高質(zhì)量的專家數(shù)據(jù),學(xué)生只是機(jī)械地模仿教師行為,因此需要教師本身必須足夠優(yōu)秀。教師僅示范操作方式,并不進(jìn)行評(píng)分反饋。

另外,目前存在一些非常強(qiáng)大的監(jiān)督學(xué)習(xí)方法,它們?cè)谕ㄓ眯詷O強(qiáng)的專家指導(dǎo)下進(jìn)行下一步預(yù)測(cè)(關(guān)聯(lián)學(xué)習(xí))和重構(gòu)學(xué)習(xí)。這正是大語(yǔ)言模型預(yù)訓(xùn)練的核心原理,也是擴(kuò)散模型、流匹配和自編碼器在多模態(tài)感知與生成中運(yùn)作的基礎(chǔ)。從本質(zhì)上看,預(yù)測(cè)下一個(gè) bit 的過(guò)程實(shí)則是一種自由能(熵)最小化的過(guò)程,簡(jiǎn)而言之:在趨于無(wú)序的世界中創(chuàng)造有序。這正是細(xì)胞和生命運(yùn)作的基本原理 —— 埃爾溫?薛定諤和保羅?納斯各自撰寫(xiě)的同名著作《生命是什么》對(duì)此有深入闡述。既然生命遵循這樣的規(guī)律,那么智能系統(tǒng)采用類似機(jī)制運(yùn)作也就不足為奇了。

另一方面,強(qiáng)化學(xué)習(xí) (RL) 則側(cè)重于選擇性模仿(selective imitation),這對(duì)于優(yōu)化特定任務(wù)的性能非常有效。RL 可以從智能體或其他智能體先前生成的大量次優(yōu)經(jīng)驗(yàn)數(shù)據(jù)中進(jìn)行訓(xùn)練。RL 可以利用價(jià)值函數(shù)或其他工具(通過(guò)獎(jiǎng)勵(lì)學(xué)習(xí))來(lái)識(shí)別和選擇有用的信號(hào)。這種選擇過(guò)程使模型能夠利用大量廉價(jià)的次優(yōu)數(shù)據(jù)進(jìn)行學(xué)習(xí),并最終超越最優(yōu)秀的老師。

也就是說(shuō),在 RL 中,智能體可以識(shí)別哪些數(shù)據(jù)對(duì)學(xué)習(xí)有用,哪些數(shù)據(jù)應(yīng)該忽略。

就像我們不會(huì)模仿父母的每一個(gè)行為,而是選擇模仿部分,以及哪些部分應(yīng)該忽略。

RL 的核心在于自我提高。智能體會(huì)生成數(shù)據(jù),因此,他們可以從自身數(shù)據(jù)(成功和錯(cuò)誤)以及來(lái)自其他智能體的混合數(shù)據(jù)中學(xué)習(xí)。

當(dāng)我們使用獎(jiǎng)勵(lì)信號(hào)構(gòu)建選擇機(jī)制(例如,對(duì)數(shù)據(jù)進(jìn)行排序并只挑選最佳的那一半)時(shí),智能體就可以開(kāi)始從自身數(shù)據(jù)中學(xué)習(xí)并自我提升,這種方式非常強(qiáng)大。

此外,智能體會(huì)利用其獲得的知識(shí)來(lái)決定在環(huán)境中采取哪些行動(dòng),從而獲得介入性因果知識(shí)。

在《An Invitation to Imitation 》一書(shū)中,CMU 教授 Drew Bagnell 探討了一種名為 Dagger 的強(qiáng)化學(xué)習(xí)替代方案,其中智能體采取行動(dòng),老師來(lái)糾正學(xué)生。

對(duì)于智能體來(lái)說(shuō),從自身行動(dòng)和自身經(jīng)驗(yàn)中學(xué)習(xí)至關(guān)重要,這樣它才能學(xué)會(huì)保持魯棒性。

例如,如果智能體使用專業(yè)駕駛員提供的數(shù)據(jù)學(xué)習(xí)駕駛,有一天發(fā)現(xiàn)自己偏離了道路(這種情況即使是完美的老師也從未發(fā)生過(guò)),那么學(xué)生將不知所措。為了讓學(xué)生學(xué)會(huì)回到道路上,它需要老師在那時(shí)提供建議。

一項(xiàng)重要的研究啟示在于:生成模型對(duì)強(qiáng)化學(xué)習(xí)的作用與任何強(qiáng)化學(xué)習(xí)算法創(chuàng)新一樣重要。這或許存在爭(zhēng)議,但我認(rèn)為過(guò)去十年間強(qiáng)化學(xué)習(xí)的進(jìn)步,本質(zhì)上是生成模型發(fā)展的結(jié)果。從算法演進(jìn)來(lái)看(下文將詳細(xì)展開(kāi)),當(dāng)前 AI 界普遍采用的基礎(chǔ)算法思想 —— 如期望最大化算法(EM 算法)和策略梯度 —— 實(shí)際上已存在超過(guò) 50 年。真正的變革力量來(lái)自強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施的規(guī)模擴(kuò)張。

希望讀者能通過(guò)本文認(rèn)識(shí)到:關(guān)于無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的終極定論尚未形成。雖然我質(zhì)疑這種分類法的有效性,但在未來(lái)的教學(xué)實(shí)踐中仍將沿用該框架以輔助知識(shí)傳遞。

分布式強(qiáng)化學(xué)習(xí)系統(tǒng)

智能體是一種能夠感知環(huán)境、自主采取行動(dòng)從而實(shí)現(xiàn)目標(biāo),并可能通過(guò)強(qiáng)化學(xué)習(xí)或教學(xué)來(lái)提升自身性能的實(shí)體。

圖片

智能體可以是一個(gè)多模態(tài)神經(jīng)網(wǎng)絡(luò),它通過(guò)與環(huán)境的交互,為用戶提供個(gè)性化目標(biāo)。智能體觀測(cè)得越多,就越容易為用戶定制個(gè)性化的學(xué)習(xí)方案。

基于工業(yè)級(jí)大語(yǔ)言模型(LLM)的強(qiáng)化學(xué)習(xí)(RL),可能涉及數(shù)百萬(wàn)次并行交互,使用數(shù)十億參數(shù)的模型,甚至需要調(diào)動(dòng)整個(gè)數(shù)據(jù)中心 —— 成本極其高昂!

如何構(gòu)建能在如此龐大尺度下高效運(yùn)行的強(qiáng)化學(xué)習(xí)系統(tǒng),絕非易事。

根據(jù)文章《IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner Architectures》、《acme: A library of reinforcement learning》,現(xiàn)代分布式強(qiáng)化學(xué)習(xí)系統(tǒng)可以分為兩個(gè)部分:Actors 和 Learners。

每個(gè) actor 通過(guò)使用稱為策略的網(wǎng)絡(luò)生成動(dòng)作來(lái)與環(huán)境交互。actor 還從環(huán)境中收集獎(jiǎng)勵(lì)和觀測(cè)結(jié)果。收集到的數(shù)據(jù)被添加到一個(gè)公共記憶中。

Learner 從記憶中采樣數(shù)據(jù)并使用它來(lái)更新策略網(wǎng)絡(luò)。更新網(wǎng)絡(luò)后,需要將權(quán)重檢查點(diǎn)發(fā)送給每個(gè) actor。在設(shè)計(jì)此類系統(tǒng)時(shí),測(cè)量每個(gè)操作的持續(xù)時(shí)間、每個(gè)通信鏈路的帶寬等非常重要。這需要精確的工程設(shè)計(jì)以及全面的測(cè)量和消融。

圖片

在語(yǔ)言中,actors 是聊天機(jī)器人,環(huán)境是人。每次聊天的數(shù)據(jù)隨后被發(fā)送到重放內(nèi)存進(jìn)行學(xué)習(xí)。通常,learner 可能比 actors 需要更多的存儲(chǔ)空間和計(jì)算資源,因?yàn)?learner 需要跟蹤梯度和大規(guī)模統(tǒng)計(jì)數(shù)據(jù)。

此外,了解 actors 的推理成本、通信成本和學(xué)習(xí)成本也至關(guān)重要。

另一方面,若數(shù)據(jù)采集速度不足,learner 可能需要重復(fù)利用歷史經(jīng)驗(yàn)來(lái)更新策略 —— 這正是 off-policy 場(chǎng)景的核心特征。此時(shí)必須解決一個(gè)關(guān)鍵問(wèn)題:陳舊數(shù)據(jù)導(dǎo)致的偏差修正。在前面推文中的駕駛示例表明,過(guò)度依賴 off-policy 數(shù)據(jù)可能引發(fā)嚴(yán)重后果!

值得慶幸的是,研究者已提出多種解決方案:

  • 重要性加權(quán)(Importance Weights):對(duì)歷史數(shù)據(jù)賦予不同權(quán)重以修正分布偏差;
  • 近端策略優(yōu)化(PPO):通過(guò)剪裁機(jī)制控制策略更新幅度;
  • DeepSeek-R1 論文提出的加權(quán)方案:動(dòng)態(tài)調(diào)整新舊數(shù)據(jù)貢獻(xiàn)度。

當(dāng)系統(tǒng)僅依賴大型歷史經(jīng)驗(yàn)庫(kù)進(jìn)行策略學(xué)習(xí)時(shí),便進(jìn)入離線強(qiáng)化學(xué)習(xí)(Off-line RL)或批量強(qiáng)化學(xué)習(xí)(Batch RL)范式。相較于監(jiān)督學(xué)習(xí),其優(yōu)勢(shì)在于繼承了前文討論的生成 - 選擇機(jī)制;但相比在線強(qiáng)化學(xué)習(xí),又因缺失環(huán)境實(shí)時(shí)交互而存在局限。

不過(guò),離線強(qiáng)化學(xué)習(xí)在以下關(guān)鍵場(chǎng)景中具有不可替代價(jià)值:

  • 高成本交互(如機(jī)器人物理訓(xùn)練);
  • 高風(fēng)險(xiǎn)環(huán)境(如自動(dòng)駕駛事故數(shù)據(jù)學(xué)習(xí))。

用于后訓(xùn)練 LLM 的 RL

目前看來(lái),RL 有多種形式。

圖片


圖片

其中一種是單步(one-step )RL 問(wèn)題(上圖左上角)。在這里,給定一個(gè)提示,模型會(huì)生成一個(gè)動(dòng)作并得到一個(gè)評(píng)估。

這個(gè)動(dòng)作可以是文本答案、CoT 推理序列、語(yǔ)音或任何其他行為信號(hào),即任何 Token 序列。

評(píng)估通常是一個(gè)單一的結(jié)果獎(jiǎng)勵(lì),例如答案是否正確。

與單步對(duì)應(yīng)的是多步(multi-step)RL 問(wèn)題,這種情況大多存在于與聊天機(jī)器人對(duì)話中,用戶是環(huán)境,聊天機(jī)器人是智能體。

在用戶不提供任何輸入的情況下,智能體會(huì)思考下一步做什么,這是一個(gè)單步強(qiáng)化學(xué)習(xí)問(wèn)題。這在我們的圖中(左上角)清晰可見(jiàn),因?yàn)檫@三個(gè)動(dòng)作可以輕松地合并為一個(gè)動(dòng)作,而不會(huì)破壞決策圖的結(jié)構(gòu)。

然而,規(guī)劃整個(gè)對(duì)話以最終實(shí)現(xiàn)目標(biāo),在此期間用戶和聊天智能體都會(huì)變化,這是一個(gè)多步強(qiáng)化學(xué)習(xí)問(wèn)題(我們的圖中,左下角)。

在這種設(shè)置下,智能體可以使用工具(例如 Web 瀏覽器、編譯器等)來(lái)建模聊天機(jī)器人,從而收集信息。

當(dāng)強(qiáng)化學(xué)習(xí)涉及多步時(shí),可能每一步都會(huì)對(duì)結(jié)果有影響。就像當(dāng)一個(gè)人獲得獎(jiǎng)勵(lì)時(shí),他并不知道是眾多決策中的哪一個(gè)導(dǎo)致了獎(jiǎng)勵(lì)。這種現(xiàn)象人們稱之為信用分配問(wèn)題。

由于多步問(wèn)題,強(qiáng)化學(xué)習(xí)通常是組合型的,而且維度非常高。在這些情況下,我們必須解決跨維度推理問(wèn)題。

簡(jiǎn)而言之,強(qiáng)化學(xué)習(xí)真的很難,解的方差可能非常大。雖然研究人員發(fā)明了一系列概念來(lái)控制方差,但代價(jià)是引入了偏差,其中包括價(jià)值函數(shù)。這些概念在多步?jīng)Q策問(wèn)題中很有用,但對(duì)于單步強(qiáng)化學(xué)習(xí)來(lái)說(shuō)并非總是必需的。雖然其中一些想法在電腦游戲中很有效,但在 LLM 中卻行不通。

在控制領(lǐng)域,普遍存在這些問(wèn)題,如 T 步?jīng)Q策、二次獎(jiǎng)勵(lì)函數(shù)。這些被稱為線性二次高斯控制器或調(diào)節(jié)器,構(gòu)成了最普遍的控制類型之一 —— 模型預(yù)測(cè)控制 (MPC) 的基礎(chǔ)。

然而,盲目地將為電腦游戲或控制開(kāi)發(fā)的強(qiáng)化學(xué)習(xí)方法的理論和軟件引入語(yǔ)言模型領(lǐng)域是危險(xiǎn)的。

為了實(shí)現(xiàn)工具使用和多步輔助,我們需要為 LLM 提供多步強(qiáng)化學(xué)習(xí)。然而,要實(shí)現(xiàn)像 DeepSeek-R1 或測(cè)試時(shí)強(qiáng)化學(xué)習(xí) TTRL 這樣的方法,需要先解決單步強(qiáng)化學(xué)習(xí)問(wèn)題,因?yàn)檫@個(gè)問(wèn)題稍微簡(jiǎn)單一些。

所有 RL 智能體都能夠自我學(xué)習(xí)和自我改進(jìn)。如果設(shè)計(jì)得當(dāng),它們可以構(gòu)建質(zhì)量不斷提升的數(shù)據(jù)集,從而生成更好的策略。RL 智能體的這一特性對(duì)于性能和安全性都至關(guān)重要。

可能存在一些更難的強(qiáng)化學(xué)習(xí)案例。比如有時(shí)決策范圍是未知的或無(wú)限的,時(shí)間步長(zhǎng)可能是連續(xù)的,也可能是中斷驅(qū)動(dòng)的,動(dòng)作和觀測(cè)可以是離散的、也可以是連續(xù)的,這些都增加了推理的復(fù)雜性。

出于教學(xué)原因,明天我們將首先介紹最簡(jiǎn)單的案例:?jiǎn)尾綇?qiáng)化學(xué)習(xí)。

單步強(qiáng)化學(xué)習(xí)與策略梯度

包括 DeepSeek-R1 在內(nèi)的許多團(tuán)隊(duì),當(dāng)他們聲稱在進(jìn)行 RL 時(shí),會(huì)最大化單步目標(biāo)函數(shù),如下所示: 

圖片

這些數(shù)學(xué)符號(hào)代表了以下概念:

圖片

也就是說(shuō),我們正在針對(duì)所有的數(shù)據(jù)字符串  (a,o) 對(duì) LLM 進(jìn)行微調(diào)。在處理文本時(shí),通常使用積分符號(hào)來(lái)表示非常龐大的離散求和。

因此,如果我們有一個(gè)包含 N 對(duì)觀測(cè)值和動(dòng)作 (o, a) 的數(shù)據(jù)集,那么在實(shí)際操作中,我們會(huì)按如下方式評(píng)估目標(biāo)函數(shù):

圖片

環(huán)境(用戶)也會(huì)為我們提供觀測(cè)值(提示或指令 o)。所以不需要知道分布 P (o)。由于不知道最優(yōu)動(dòng)作(大語(yǔ)言模型生成的內(nèi)容,也就是動(dòng)作 a),將對(duì)這些動(dòng)作進(jìn)行積分。這是在概率中處理未知量的標(biāo)準(zhǔn)方法。我們對(duì)所有可能的值按照出現(xiàn)的概率進(jìn)行加權(quán)求和。在這種情況下,動(dòng)作的概率就是大語(yǔ)言模型所生成的結(jié)果。大語(yǔ)言模型是一個(gè)概率模型。

這種在對(duì)大語(yǔ)言模型的權(quán)重進(jìn)行最大化的同時(shí)對(duì)其輸出進(jìn)行求和的方法,被稱為最大期望效用,這也是博弈論中理性主體所采取的做法。通過(guò)最大化期望效用(獎(jiǎng)勵(lì)的另一種說(shuō)法),人們可以收斂到納什均衡。在統(tǒng)計(jì)學(xué)中,人們把這個(gè)過(guò)程稱為邊緣化,而當(dāng)它還涉及到對(duì)某個(gè)量進(jìn)行最大化時(shí),它就被稱為實(shí)驗(yàn)設(shè)計(jì)。 

總之,在單步強(qiáng)化學(xué)習(xí)中,我們通過(guò)調(diào)整大語(yǔ)言模型的策略來(lái)最大化期望回報(bào) R,也就是說(shuō),對(duì)于目前大多數(shù)的大語(yǔ)言模型而言(見(jiàn)上一篇文章),在單次結(jié)果中進(jìn)行獎(jiǎng)勵(lì) R=r (a,o)。 

策略梯度:就是人們所說(shuō)的 on policy RL 或 Reinforce 算法。這種方法被稱為 on-policy,是因?yàn)樯蓸颖荆▌?dòng)作)的策略(大語(yǔ)言模型)與正在被學(xué)習(xí)的策略是同一個(gè)。

當(dāng)生成樣本的成本低于學(xué)習(xí)成本時(shí),這種方法是有意義的。也就是說(shuō),當(dāng) learner 可以按需輕松獲取新樣本時(shí)適用。

但對(duì)于成本高昂的游戲模擬引擎而言并非如此,在這類場(chǎng)景中,必須引入緩沖區(qū)和回放記憶來(lái)緩存數(shù)據(jù)。隨著數(shù)據(jù)變得陳舊,就需要使用 off-policy 方法。

那如何計(jì)算單步損失的梯度,答案是只需沿著梯度方向更新參數(shù)即可。

從理論上講,策略梯度可以使用微積分按如下方式得到它:

圖片

策略梯度常用技巧

前文重點(diǎn)介紹了策略梯度算法,不過(guò)大家還會(huì)使用一些技巧來(lái)提高性能。

現(xiàn)在,我們從一個(gè)常用的技巧開(kāi)始,即從獎(jiǎng)勵(lì)中減去獎(jiǎng)勵(lì)的均值。得到的表達(dá)式被稱為優(yōu)勢(shì)(advantage)。這項(xiàng)技術(shù)本身被稱為基線減法(baseline subtraction)。 

在策略梯度中,如果我們從獎(jiǎng)勵(lì) r 中減去其均值,然后用下面的獎(jiǎng)勵(lì)來(lái)替代原來(lái)的獎(jiǎng)勵(lì): 

圖片

這樣做并沒(méi)有改變最大值的位置,但降低了方差。

此外,當(dāng)獎(jiǎng)勵(lì)是二元的,而我們又需要一個(gè)更連續(xù)、漸進(jìn)的反饋信號(hào)時(shí),這種方法格外有用。

 下面是證明過(guò)程:

圖片

KL 散度

KL 散度是一種用于衡量?jī)蓚€(gè)分布之間「距離」的方法,從數(shù)學(xué)角度來(lái)說(shuō),KL 散度定義如下: 

圖片

如果在強(qiáng)化學(xué)習(xí)的損失函數(shù)中加入 KL 散度項(xiàng),本質(zhì)上是在鼓勵(lì)后訓(xùn)練(post-training)過(guò)程中學(xué)習(xí)到的 LLM 策略保持接近監(jiān)督微調(diào)(SFT)階段的策略。

如果我們根據(jù)最新的策略 p(a|o) 采樣 N 個(gè)動(dòng)作,我們可以再次使用蒙特卡羅方法來(lái)近似計(jì)算 KL 散度: 

圖片

此外,John Schulman 有一篇很棒的關(guān)于如何高效近似 KL 散度的博客。他提出了以下替代方法: 

圖片

采樣、PPO 以及 GRPO 的重要性

在強(qiáng)化學(xué)習(xí)系統(tǒng)中,有時(shí)會(huì)有多個(gè) actors 來(lái)收集數(shù)據(jù)并將數(shù)據(jù)添加到記憶系統(tǒng)中。然后,learner 從這個(gè)記憶中提取樣本進(jìn)行學(xué)習(xí)。

在這種異步設(shè)置中,有些樣本會(huì)變得過(guò)時(shí)。生成樣本的機(jī)制(actors)與更新參數(shù)的機(jī)制(learner)不同,因此這種方法被稱為 off-policy。

重要性采樣(Importance Sampling, IS)提供了一種校正 off-policy 樣本偏差的解決方案,其核心操作如下:

我們通過(guò)在單步目標(biāo)函數(shù)的被積項(xiàng)中乘以并除以舊策略 π_old (a|o) 實(shí)現(xiàn)修正。系統(tǒng)將基于該舊策略采取動(dòng)作,但實(shí)際學(xué)習(xí)的卻是新策略 —— 這正是 off-policy 學(xué)習(xí)的本質(zhì)特征。數(shù)學(xué)表達(dá)上,通過(guò)引入行為策略進(jìn)行乘除變換后,單步強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)轉(zhuǎn)化為:

圖片

如果我們觀察到一個(gè)提示 o^i ,并從行為策略中采樣出一個(gè)動(dòng)作 a^i,可以再次用以下蒙特卡羅近似來(lái)替代積分,這種近似被稱為 IS 估計(jì):

圖片

分布的比率被稱為重要性權(quán)重:

圖片

這個(gè)權(quán)重可能會(huì)增大并導(dǎo)致不穩(wěn)定性,尤其是因?yàn)槲覀冇?jì)算這個(gè)比率所涉及的所有字符串的空間是非常高維的。 

PPO:為了防范高方差和不穩(wěn)定性,我們必須巧妙地截?cái)啵ú眉簦┲匾詸?quán)重。讓我們?cè)俅蝸?lái)考慮一下我們的 off-policy 目標(biāo): 

圖片

近端策略優(yōu)化(PPO)修改了這個(gè)目標(biāo)函數(shù),對(duì)那些使  w (theta) 偏離 1 的策略變化進(jìn)行懲罰,具體如下: 

圖片

PPO 的內(nèi)容遠(yuǎn)不止這些,所以我鼓勵(lì)大家都去讀一讀這篇有影響力的論文《Proximal Policy Optimization Algorithms》。

DeepSeek-R1 將裁剪后的重要性采樣、基線減法以及與參考策略的 KL(相對(duì)熵)接近度相結(jié)合,以此來(lái)訓(xùn)練其推理模型。(PPO 也做了所有這些事情,但方式略有不同。)

現(xiàn)在我們已經(jīng)介紹了 DeepSeek 強(qiáng)化學(xué)習(xí)算法(GRPO)的所有要素,所以接下來(lái)就只是把它們整合起來(lái)的問(wèn)題了。

當(dāng)然,真正的挑戰(zhàn)在于解決實(shí)現(xiàn)過(guò)程中基礎(chǔ)設(shè)施和數(shù)據(jù)方面的問(wèn)題。 

圖片

為了得到第一個(gè)蒙特卡羅估計(jì)值,我們使用來(lái)自行為策略 pi_old 的樣本 a^i ,但是如果我們想要保持估計(jì)的無(wú)偏性,對(duì)于第二項(xiàng)(即 KL 散度項(xiàng))的蒙特卡羅估計(jì)應(yīng)該使用來(lái)自 pi_theta 的樣本  a^i ,而不是來(lái)自 pi_old 的樣本。 

正如在之前的文章中所提到的,我們已經(jīng)從獎(jiǎng)勵(lì)中減去了平均基線值: 

圖片

但與 DeepSeek-R1 不同的是,我們沒(méi)有除以標(biāo)準(zhǔn)差。這一點(diǎn)值得通過(guò)實(shí)證來(lái)檢驗(yàn)。

注意:在這個(gè)版本中,我們針對(duì)每個(gè)觀測(cè)值采樣一個(gè)動(dòng)作。也可以針對(duì)每個(gè)觀測(cè)值采樣多個(gè)動(dòng)作來(lái)減少方差。DeepSeek-R1 基本上就是這么做的,其梯度更新包含了針對(duì)單個(gè)問(wèn)題的多個(gè)動(dòng)作樣本。這種技術(shù)在隨機(jī)近似中被稱為公共隨機(jī)數(shù)。 

如果你對(duì) PPO 和 GRPO 的這些公式感到熟悉了,那么你現(xiàn)在幾乎已經(jīng)了解了如今所有公司在 LLM 中使用的強(qiáng)化學(xué)習(xí)(RL)所需的全部理論知識(shí)。 

接下來(lái),F(xiàn)reitas 想從單步強(qiáng)化學(xué)習(xí)拓展到多步強(qiáng)化學(xué)習(xí),從而進(jìn)行更深入的研究。感興趣的小伙伴,可以隨時(shí)關(guān)注 Freitas 動(dòng)態(tài)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2011-06-08 09:39:21

微軟平板電腦Skype

2015-06-24 14:29:07

PaaSPaaS困境

2010-12-01 11:44:56

IT從業(yè)者

2009-09-16 09:28:58

2009-05-11 08:54:23

微軟Windows 7操作系統(tǒng)

2011-05-25 10:40:12

Windows PhoMango微軟

2025-04-22 09:30:00

2009-07-12 08:47:30

微軟通訊部

2013-08-28 10:31:22

微軟Bing

2012-03-19 20:34:50

Lumia

2012-03-20 21:44:02

Windows Pho

2020-09-11 10:55:10

useState組件前端

2009-03-14 18:52:11

IE8微軟企業(yè)優(yōu)勢(shì)

2011-06-09 09:32:59

微軟Windows PhoSkype

2017-02-23 08:34:11

軟件移動(dòng)應(yīng)用KPI

2014-09-08 13:27:53

張亞勤百度

2012-04-13 16:10:02

微軟

2009-08-11 09:15:40

雅虎王永東

2009-06-15 08:16:33

2011-06-13 20:44:06

SEO
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲天堂精品一区 | 国产精品v | 久久久久久91香蕉国产 | 高清国产午夜精品久久久久久 | 日韩美女一区二区三区在线观看 | 在线亚洲一区二区 | 91精品国产综合久久香蕉922 | 精品不卡 | 国产激情偷乱视频一区二区三区 | 999久久久 | 超碰97在线免费 | 三级免费 | 久久久久www | 国产成人av在线播放 | 夜夜爆操 | 亚洲激情在线观看 | 日韩欧美大片 | 国产精品美女久久久久aⅴ国产馆 | 91成人在线 | 国产日韩一区二区三区 | 国产精品完整版 | jlzzjlzz国产精品久久 | 国产精品99久久久久久www | 99精品视频一区二区三区 | 麻豆精品国产91久久久久久 | 亚洲伊人久久综合 | 午夜精品久久久 | 成人av一区二区在线观看 | 日韩最新网址 | www.日本国产 | 午夜理伦三级理论三级在线观看 | 国产在线精品免费 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 亚洲欧美日韩激情 | 国产精品久久久久久 | 欧美aaa | 精品三级在线观看 | 亚州精品天堂中文字幕 | 99免费视频| 亚洲网站在线观看 | 日本不卡免费新一二三区 |