成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

白話DeepSeek R1的GRPO強化學習算法:原理、圖解、視頻

發布于 2025-2-28 12:15
瀏覽
0收藏

GRPO (Group Relative Policy Optimization) 算法核心思想:

想象一下,老師在教一個學生寫作文。傳統的強化學習方法(比如PPO)會給學生的每一句話打分,告訴他這句好,那句不好。但 GRPO 不這么做,它更像是一位“佛系”老師:

  1. 不看過程,看結果:GRPO 不會逐句指導學生,而是讓學生一口氣寫完幾篇不同的作文(一組作文)。
  2. 幾篇作文一起比較:然后,老師把這幾篇作文放在一起比較,根據一個預先定好的規則(基于規則的獎勵模型),評判哪篇作文整體上更好。
  3. 規則說話:這個規則可能很簡單,比如看作文是否通順、有沒有錯別字(對于數學題,就是看答案對不對;對于編程題,就是看代碼能不能跑通)。
  4. 鼓勵“好作文”, 抑制“差作文”:老師會告訴學生,你這次寫的這幾篇里,哪幾篇相對好一些,以后多照著這個路子寫。哪幾篇差一些,以后別這么寫了。至于具體怎么寫出來的,老師不太關心。
  5. “穩定” 提升:每次提升都比較穩妥,不會讓學生的寫作水平突然變得很奇怪。盡量保持原有的答題能力,上一篇文章說的KL散度能幫忙“穩定”。?


關鍵點:

  • 基于規則的獎勵模型:GRPO 的“打分”標準是事先定好的規則,而不是像 PPO 那樣,需要訓練一個專門的“打分模型”。
  • 獎勵結果,不獎勵過程:GRPO 看最終答案的好壞,不關心答案是怎么一步步推導出來的。這個可以避免Reward Hacking (感興趣的可以去看看 前OpenAI算法科學家寫的博客 https://lilianweng.github.io/posts/2024-11-28-reward-hacking/ )。
  • 組內相對優勢:GRPO 關注的是一組答案之間的相對好壞,而不是每個答案的絕對分數。
  • 效率高,節省資源:  不用像PPO一樣訓練價值模型。

總的來說,GRPO 就像一個“結果導向”的老師,它用一套簡單的規則來評價一組不同的結果,然后鼓勵學生朝著相對好的方向去努力。


下面這張小抄圖以非常容易理解的方式展示了GRPO算法。它是兩個作者圖的拼接,上半部分我找到了作者(credit to hesam@x),下半部來自這兒 https://huggingface.co/docs/trl/main/en/grpo_trainer , 沒寫作者, Anyway, credit to huggingface.)

白話DeepSeek R1的GRPO強化學習算法:原理、圖解、視頻-AI.x社區

本文轉載自??后向傳播??,作者: 張發恩 

已于2025-3-4 11:21:50修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 美女天天干天天操 | 国产成人高清 | 欧美理论片在线 | 综合在线视频 | 99久久婷婷国产综合精品首页 | www.99热.com | 狠狠爱网址 | 国产精品久久精品 | 91在线最新 | 国产美女精品视频免费观看 | 欧美在线高清 | www.久久久.com | 成人精品国产一区二区4080 | 亚洲精品一二三区 | 中文字幕成人av | 日韩欧美一区二区三区免费观看 | 免费看国产一级特黄aaaa大片 | 国产在线观看福利 | a a毛片 | 精品一二三区 | 日韩中文一区二区 | 日韩av在线播| 亚洲精品视频在线播放 | 欧美日韩在线播放 | 国产女人叫床高潮大片免费 | 99成人免费视频 | 日韩欧美一区二区三区免费观看 | 欧美一区免费 | 午夜精品久久久久久久久久久久久 | eeuss国产一区二区三区四区 | 久久69精品久久久久久国产越南 | 日韩一区二区在线播放 | 国产福利资源 | 国产精品一区二区在线播放 | 日本a∨视频 | 国产精品揄拍一区二区久久国内亚洲精 | 欧美1页 | 久草在线在线精品观看 | 97精品视频在线观看 | 国产精品美女久久久久久免费 | 国产成人一区二区三区 |