成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

量化評估、算法拓展:強化學習研究的10大原則

開發 算法
今年9月份舉辦的深度學習Indaba2018峰會的干貨確實不少,今天文摘菌再給大家整理一份關于強化學習的10個原則,不僅在強化學習中有用,在機器學習研究中也能夠提供一些參考。

[[252430]]

大數據文摘出品

編譯:蔣寶尚

今年9月份舉辦的深度學習Indaba2018峰會的干貨確實不少,昨天文摘菌給大家整理了27位大咖關于自然語言處理的精彩問答。今天文摘菌再給大家整理一份關于強化學習的10個原則,不僅在強化學習中有用,在機器學習研究中也能夠提供一些參考。

這10個原則是一位來自Insight數據分析研究中心的博士生Sebastian Ruder在參會期間對David Silver報告進行的整理,除了Ruder自己的解析外,也把他自己拍的照片分享了出來。

1. 評估推動進步

量化評估、算法拓展

量化的評估才能推動進步。評估獎勵的選擇決定了進步的方向,要確保評估指標與目標密切相關,避免主觀評價(例如人類學科)。還有一點,雙Q學習優于單Q學習,因為后者能減少偏見。

2. 算法的可擴展性決定成功

量化評估、算法拓展

算法如何擴展非常重要,要避免性能上限。深度學習非常棒,因為它可以有效地擴展,但是樣本效率同樣重要。

算法的可擴展性的表現取決于資源,而算法的可擴展性決定是否成功:那么給予更多資源,性能如何提高?值得一提的是,這里的資源指的是計算,內存或數據。

3. 通用性,即算法在其他任務上的表現非常重要

量化評估/算法拓展

關鍵是要設計一系列具有挑戰性的任務,即應該對不同的新任務進行評估。避免過度使用當前的任務。

4. 相信Agent的經驗

量化評估/算法拓展

不要依賴人類的專業知識,不要依賴于工程特征。在數據有限時,領域專業知識和歸納偏差非常重要。

一些任務可能看起來不太可能完成,但是,你確實能在其中學到很多經驗。這種任務或者項目,通常滿足這三點:

  • 很難接受RL的核心問題。
  • 是AI的核心問題
  • 非常值得你去努力

5. 狀態應該是主觀的

量化評估/算法拓展

應將狀態建立為模型的狀態,即RNN的隱藏狀態,而不是根據環境定義。只有agent對世界的主觀看法才是重要的。不要推理外部現實,因為達到的效果非常有限。

6. 控制流

量化評估/算法拓展

Agent影響數據流和體驗。Agent應該有能夠訪問控制環境的功能。重點不僅在于***化獎勵,還在于建立對流的控制。

7. 價值函數塑造世界

量化評估/算法拓展

價值函數有效地總結了當前和未來的狀況。多值函數允許我們模擬世界的多個方面。可以幫助控制流。

8. 從想象的經驗(imagined experience)中學習

量化評估/算法拓展

接下來該怎樣規劃?同樣的,RL算法可以從想象的經驗(imagined experience)中學習,如Alphago中使用MCTS和值函數。

9. 利用函數逼近器

量化評估/算法拓展

可以將算法復雜度揉進神經網絡架構,甚至MCTS,分層控制等也可以用NN建模。然后要真正理解:我們從模型學到了什么。

10. 學會學習

量化評估/算法拓展

必須精通元學習,然后,你可能不再需要手工設置網絡架構,一切都是端到端學習。總而言之,神經網絡要通過盡可能少的人工干預來處理事情。但是,歸納偏差應該仍然有用。

相關報道:

https://twitter.com/seb_ruder/status/1040235236284669952?utm_campaign=NLP%20News&utm_medium=email&utm_source=Revue%20newsletter

【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】

     大數據文摘二維碼

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2012-03-15 11:15:13

Java設計模式

2012-03-05 13:58:34

設計模式里氏置換

2012-03-07 10:40:19

Java設計模式

2012-03-07 11:03:13

Java設計模式

2015-09-23 17:12:18

API設計原則

2020-06-09 07:00:00

面向對象編程編程原則

2010-03-31 17:26:52

SaaS

2012-03-08 10:57:00

Java設計模式

2012-02-01 13:24:37

2015-09-24 08:52:53

API設計原則

2011-09-07 09:21:01

設計模式

2024-10-14 09:52:39

軟件項目開發軟件項目估算

2011-06-29 15:44:19

SEO

2012-02-07 13:29:25

云計算HP

2022-08-07 23:37:53

測試軟件開發自動化

2016-02-26 18:03:17

搜狐

2017-07-11 05:03:54

數據分析大數據數據

2012-07-25 11:14:19

經理創業

2010-09-14 13:49:38

CSS代碼

2022-05-31 21:08:41

云原生容器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费在线观看av | 国产一级片在线播放 | 亚洲电影一级片 | 亚洲三区视频 | 国产成人福利在线观看 | 国产精品成人一区二区三区夜夜夜 | 精品一区二区三区91 | 国产极品车模吞精高潮呻吟 | 亚洲精品一级 | 风间由美一区二区三区在线观看 | 三级在线观看 | 第一区在线观看免费国语入口 | 日本精品裸体写真集在线观看 | 久久亚洲国产精品日日av夜夜 | 99精品在线| av免费在线播放 | 久久99精品国产99久久6男男 | 欧美xxxx色视频在线观看免费 | 一区欧美 | 99久久日韩精品免费热麻豆美女 | 在线免费观看黄色 | 国产精品高潮呻吟久久aⅴ码 | 一级大黄色片 | 国产一区免费视频 | 国产99久久 | 久久综合成人精品亚洲另类欧美 | 午夜久久 | 91黄色免费看 | 亚洲va欧美va人人爽午夜 | 夜夜操天天艹 | 成人免费视频网站 | 亚洲一区二区三区在线播放 | 国产一级淫片免费视频 | 国产一区二区三区视频在线观看 | www在线| 欧美中文字幕一区二区三区亚洲 | 99精品一区二区 | 亚洲视频观看 | 在线国产视频观看 | 成人在线激情 | 色偷偷噜噜噜亚洲男人 |