成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

人工智能 機(jī)器學(xué)習(xí) 算法
本文將介紹強(qiáng)化學(xué)習(xí)算法的分類法,從多種不同角度學(xué)習(xí)幾種分類法。話不多說,大家深呼吸,一起來學(xué)習(xí)RL算法的分類吧!

本文轉(zhuǎn)載自公眾號“讀芯術(shù)”(ID:AI_Discovery)。

本文將介紹強(qiáng)化學(xué)習(xí)算法的分類法,從多種不同角度學(xué)習(xí)幾種分類法。話不多說,大家深呼吸,一起來學(xué)習(xí)RL算法的分類吧!

[[355287]]

無模型(Model-Free)VS基于模型(Model-Based)

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

無模型VS模型分類法 [圖源:作者,OpenAISpinning Up再創(chuàng)作]

RL算法的一種分類方法是詢問代理是否能訪問環(huán)境模型。換言之,詢問環(huán)境會(huì)否響應(yīng)代理的行為。基于這個(gè)觀點(diǎn)有兩個(gè)RL算法的分支:無模型和基于模型。

  • 模型RL算法根據(jù)環(huán)境的學(xué)習(xí)模型來選擇最佳策略。
  • 無模型RL算法通過代理反復(fù)測試選擇最佳策略。

兩種算法都各有優(yōu)缺點(diǎn),如下表所示:

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

基于價(jià)值VS 基于政策

RL算法的另一種分類方法是考慮算法優(yōu)化了價(jià)值函數(shù)還是策略。在深入了解之前,我們先了解策略和價(jià)值功能。

(1) 策略

策略π是從狀態(tài)s到動(dòng)作a的映射,其中π(a | s)是在狀態(tài)s時(shí)采取動(dòng)作a的概率。策略可以是確定的,也可以是隨機(jī)的。

假設(shè)我們在玩剪刀石頭布這個(gè)非常簡單的游戲,兩個(gè)人通過同時(shí)執(zhí)行三個(gè)動(dòng)作(石頭/剪刀/布)中的一個(gè)來比輸贏。規(guī)則很簡單:

  • 剪刀克布
  • 石頭克剪刀
  • 布克石頭

把策略看作是迭代的剪刀石頭布

  • 確定性策略容易被利用-如果我意識到你出“石頭”較多,那么我可以利用這一點(diǎn),獲得更大贏面。
  • 統(tǒng)一的隨機(jī)策略(uniform random policy)最佳—如果你的選擇完全隨機(jī),那我就不知道該采取什么行動(dòng)才能取勝。

(2) 價(jià)值函數(shù)

價(jià)值函數(shù)是根據(jù)對未來回報(bào)(返回值)的預(yù)測來衡量狀態(tài)良好程度的函數(shù)。返回值(Gt)基本等于“折扣”回報(bào)的總和(自t時(shí)起)。

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

γ ∈ [0,1]是折扣因數(shù)。折扣因數(shù)旨在抵扣未來的回報(bào),有以下幾個(gè)原因:

  • 方便數(shù)學(xué)計(jì)算
  • 打破狀態(tài)變化圖中的無限循環(huán)
  • 未來回報(bào)的高度不確定性(比如股價(jià)變化)
  • 未來回報(bào)不能立時(shí)受益(比如人們更愿意當(dāng)下享樂而非十年后)

了解了返回值的概念后,接下來定義價(jià)值函數(shù)的數(shù)學(xué)形式吧!

價(jià)值函數(shù)的數(shù)學(xué)形式有二:

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

狀態(tài)-動(dòng)作價(jià)值函數(shù)(Q值)是t時(shí)狀態(tài)動(dòng)作組合下的期望返回值:

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

Q值和價(jià)值函數(shù)之間的區(qū)別是動(dòng)作優(yōu)勢函數(shù)(通常稱為A值):

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

現(xiàn)在知道了什么是價(jià)值函數(shù)和動(dòng)作-狀態(tài)價(jià)值函數(shù)。接下來學(xué)習(xí)有關(guān)RL算法另一個(gè)分支的更多信息,該分支主要關(guān)注算法優(yōu)化的組件。

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

價(jià)值算法與策略算法[圖源:作者,David Silver RL課程再創(chuàng)作]

  • 價(jià)值RL旨在學(xué)習(xí)價(jià)值/行動(dòng)-價(jià)值函數(shù),以生成最佳策略(即,隱式生成最佳策略);
  • 策略RL旨在使用參數(shù)化函數(shù)直接學(xué)習(xí)策略。
  • Actor-Critic RL旨在學(xué)習(xí)價(jià)值函數(shù)和策略。

下表列出了價(jià)值和策略算法的優(yōu)缺點(diǎn)。

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類
  • 價(jià)值算法必須選擇使動(dòng)作-狀態(tài)價(jià)值函數(shù)最大的動(dòng)作,如果動(dòng)作空間非常高維或連續(xù),成本就會(huì)很高,而策略算法是通過直接調(diào)整策略的參數(shù)來運(yùn)行的,不需要進(jìn)行最大化計(jì)算。
  • 如果操作不當(dāng) (收斂性質(zhì)差/不穩(wěn)定),價(jià)值算法會(huì)出現(xiàn)一系列問題,而策略算法更穩(wěn)定,收斂性質(zhì)更好,因?yàn)樗鼈冎粚Σ呗蕴荻冗M(jìn)行很少的增量更改。
  • 策略算法既可以學(xué)習(xí)確定性策略,也可以學(xué)習(xí)隨機(jī)策略,而價(jià)值算法只能學(xué)習(xí)確定性策略。
  • 與價(jià)值算法相比,原本的策略算法速度更慢,方差更大。價(jià)值算法試圖選擇使動(dòng)作-狀態(tài)價(jià)值函數(shù)最大化的動(dòng)作,這將優(yōu)化策略 (運(yùn)算更快、方差更小),策略算法只需幾步,并且更新順暢、穩(wěn)定,但同時(shí)效率較低,有時(shí)會(huì)導(dǎo)致方差變大。
  • 策略算法通常收斂于局部最優(yōu)而不是全局最優(yōu)。

策略和非策略算法

還有一種RL算法分類方法是基于策略來源分類。

帶你從不同角度了解強(qiáng)化學(xué)習(xí)算法的分類

可以說策略算法是“邊做邊學(xué)”。也就是說該算法試著從π采樣的經(jīng)驗(yàn)中了解策略π。而非策略算法是通過“監(jiān)視”的方式來工作。換句話說,該算法試圖從μ采樣的經(jīng)驗(yàn)中了解策略π。例如,機(jī)器人通過觀察人類的行為來學(xué)習(xí)如何操作。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2021-10-26 00:27:28

Python以太坊智能

2021-07-27 05:21:34

邊緣計(jì)算數(shù)據(jù)網(wǎng)絡(luò)

2017-07-25 16:04:31

概念應(yīng)用強(qiáng)化學(xué)習(xí)

2025-05-08 09:16:00

模型強(qiáng)化學(xué)習(xí)訓(xùn)練

2020-08-14 11:00:44

機(jī)器學(xué)習(xí)人工智能機(jī)器人

2019-02-01 14:45:41

前端

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2018-04-20 08:37:23

災(zāi)難恢復(fù)數(shù)據(jù)備份

2023-06-25 11:30:47

可視化

2017-02-20 16:35:10

人工智能算法強(qiáng)化學(xué)習(xí)

2025-05-28 02:25:00

2024-10-12 17:14:12

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2017-02-20 09:02:31

Impala架構(gòu)設(shè)計(jì)

2025-03-11 01:00:00

GRPO算法模型

2021-09-17 15:54:41

深度學(xué)習(xí)機(jī)器學(xué)習(xí)人工智能

2020-11-12 19:31:41

強(qiáng)化學(xué)習(xí)人工智能機(jī)器學(xué)習(xí)

2023-12-25 14:34:27

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日韩精品区 | 欧美黄色精品 | 亚洲精品在线免费 | 黄色一级片在线播放 | 一级黄a | av在线免费网 | 亚洲精品视频在线播放 | 亚洲精品日韩一区二区电影 | h小视频| 久久最新网址 | 羞羞网站免费 | 成人免费观看网站 | 日韩精品久久久 | 天天色综网| 激情一区二区三区 | 成人久久网 | 欧美一级片在线观看 | 亚洲电影中文字幕 | 蜜桃精品视频在线 | 国产精品久久久久久一区二区三区 | 日韩三级精品 | 九九热在线精品视频 | 国产在线精品一区 | 成人日韩精品 | 日韩免费高清视频 | www.青青草| 亚洲精品欧美 | 免费观看a级毛片在线播放 黄网站免费入口 | 免费大黄视频 | 欧美一区免费在线观看 | 亚洲国产一区在线 | 欧美黑人狂野猛交老妇 | 欧美自拍视频 | 男人的天堂视频网站 | 精品国产一区二区国模嫣然 | 欧美视频三区 | 91av小视频| 日韩精品一区二区三区中文在线 | 久久久久成人精品亚洲国产 | 久久久久久久久久久久久9999 | 一道本视频 |