成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepSeek采用的GRPO算法數(shù)學(xué)原理及算法過程淺析

人工智能
PPO:通過獎(jiǎng)勵(lì)和一個(gè)“評(píng)判者”模型(critic 模型)評(píng)估每個(gè)行為的“好壞”(價(jià)值),然后小步調(diào)整策略,確保改進(jìn)穩(wěn)定。GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對(duì)質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評(píng)判者”模型(critic 模型),直接用組內(nèi)比較來改進(jìn)。

先來簡單看下PPO和GRPO的區(qū)別:

source@xsource@x

  • PPO:通過獎(jiǎng)勵(lì)和一個(gè)“評(píng)判者”模型(critic 模型)評(píng)估每個(gè)行為的“好壞”(價(jià)值),然后小步調(diào)整策略,確保改進(jìn)穩(wěn)定。
  • GRPO:通過讓模型自己生成一組結(jié)果(比如回答或行為),比較它們的相對(duì)質(zhì)量(優(yōu)勢),然后優(yōu)化策略。它的特點(diǎn)是不需要額外的“評(píng)判者”模型(critic 模型),直接用組內(nèi)比較來改進(jìn)。

個(gè)人理解記錄,供參考。

1. GRPO目標(biāo)函數(shù)的數(shù)學(xué)原理

GRPO的目標(biāo)函數(shù)如下:

圖片

這個(gè)函數(shù)看起來復(fù)雜,但我們可以將其拆解為幾個(gè)關(guān)鍵部分,逐一分析其作用和意義。GRPO的目標(biāo)函數(shù)由兩大部分組成:策略梯度更新項(xiàng)和KL散度正則化項(xiàng)。我們分別分析它們的作用。

1.1 策略梯度更新項(xiàng)

策略梯度部分是目標(biāo)函數(shù)的主要成分,形式為:

圖片

1.2 KL散度正則化項(xiàng)

2. GRPO算法的整體工作流程

source@Xsource@X

GRPO是一種基于組獎(jiǎng)勵(lì)的策略優(yōu)化算法,其工作流程可以分為以下幾個(gè)步驟:

整個(gè)流程通過迭代優(yōu)化實(shí)現(xiàn):從輸入問題到生成響應(yīng),再到獎(jiǎng)勵(lì)分配和優(yōu)勢計(jì)算,最后更新策略,形成一個(gè)閉環(huán)。

3. 為什么GRPO算法有效?

  • GRPO通過消除傳統(tǒng)強(qiáng)化學(xué)習(xí)算法(如PPO)中需要的一個(gè)單獨(dú)價(jià)值函數(shù)模型,顯著提高了效率。這個(gè)模型通常需要額外的內(nèi)存和計(jì)算資源,而GRPO的做法降低了這些需求,使其更適合處理大型語言模型。 穩(wěn)健的優(yōu)勢估計(jì)
  • GRPO采用基于群體的優(yōu)勢估計(jì)方法。它為每個(gè)提示生成多個(gè)響應(yīng),并使用群體的平均獎(jiǎng)勵(lì)作為基準(zhǔn)。這種方法無需依賴另一個(gè)模型的預(yù)測,提供了一種更穩(wěn)健的政策評(píng)估方式,有助于減少方差并確保學(xué)習(xí)穩(wěn)定性。
  • GRPO直接將Kullback-Leibler(KL)散度納入損失函數(shù)中。這有助于控制策略更新,防止策略與參考策略偏離過多,從而保持訓(xùn)練的穩(wěn)定性。

4. 幾個(gè)GRPO復(fù)現(xiàn)deepseek-R1-zero的流程代碼repo

責(zé)任編輯:武曉燕 來源: 大模型自然語言處理
相關(guān)推薦

2025-03-19 09:15:00

AI算法模型

2025-01-03 11:46:31

2025-03-11 01:00:00

GRPO算法模型

2025-03-03 09:32:00

2023-03-03 08:06:37

2010-06-11 08:52:17

并行計(jì)算

2022-04-22 12:36:11

RNN神經(jīng)網(wǎng)絡(luò))機(jī)器學(xué)習(xí)

2022-08-28 20:50:29

算法模型機(jī)器學(xué)習(xí)

2019-04-10 09:23:10

梯度下降機(jī)器學(xué)習(xí)算法

2017-03-02 10:49:37

推薦算法原理實(shí)現(xiàn)

2009-07-06 09:23:51

Servlet定義

2025-03-13 11:07:30

2009-08-11 13:54:54

約瑟夫環(huán)算法C#算法

2017-05-11 11:59:12

MySQL數(shù)據(jù)結(jié)構(gòu)算法原理

2024-06-07 09:26:30

模型數(shù)學(xué)

2025-01-16 07:10:00

2018-07-27 08:39:44

負(fù)載均衡算法實(shí)現(xiàn)

2018-02-09 11:08:49

區(qū)塊鏈算法主流

2020-12-16 05:46:58

算法加密算法MD5

2023-08-08 14:56:27

ParcelRustDemo
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 免费黄色特级片 | 日韩精品在线观看一区二区 | 一二区成人影院电影网 | 综合色导航 | 久久久国产一区二区三区 | 狠狠做六月爱婷婷综合aⅴ 国产精品视频网 | 浴室洗澡偷拍一区二区 | 成人不卡视频 | 91福利在线导航 | 狠狠爱免费视频 | 国产一区二区免费电影 | 成人精品视频在线观看 | 国产午夜精品一区二区三区嫩草 | 亚洲欧美一区二区三区1000 | 日本天堂视频 | 91色视频在线观看 | 欧美精品第一区 | 欧美一区二区三区大片 | 中文字幕精品视频 | 精品91久久| 午夜视频在线 | 久久久www成人免费精品 | 精品一区二区久久久久久久网站 | 性做久久久久久免费观看欧美 | 97人人干 | 国产激情91久久精品导航 | 在线观看黄色大片 | 免费一二区 | 精品一区在线看 | 免费在线精品视频 | 欧美久久精品 | 日韩欧美福利视频 | 国内av在线| 欧美国产日韩在线 | 久久精品视频在线播放 | 亚洲欧美另类在线观看 | 毛片在线免费 | 一级大片免费 | www.av7788.com| 久久99精品国产自在现线小黄鸭 | 三级在线观看 |