成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從Zero到Hero,OpenAI重磅發布深度強化學習資源

新聞 深度學習
OpenAI 發布了 Spinning Up,這是一份教學資源,旨在讓所有人熟練掌握深度強化學習方面的技能。

 OpenAI 發布了 Spinning Up,這是一份教學資源,旨在讓所有人熟練掌握深度強化學習方面的技能。Spinning Up 包含清晰的 RL 代碼示例、習題、文檔和教程。

在項目主頁中,OpenAI 提供了非常完整的使用教程,包括 Spinning Up 的詳細介紹、各種環境下的安裝方法、收錄的算法,以及實驗實現的教程等。除此之外,OpenAI 也提供了豐厚的學習資料,包括強化學習的入門基礎、結合 Spinning Up 學習 RL 的課程、論文推薦、實驗練習和基準結果參考等。給人的***印象就是,要想在深度強化學習上從 Zero 到 Hero,天天逛這個網站就夠了~

項目地址:https://spinningup.openai.com/en/latest/

在 Deep RL 中邁出***步

[[249339]]

OpenAI 相信深度學習——特別是深度強化學習——將在強大是 AI 技術發展中發揮核心作用。雖然有很多資源可以讓人們快速了解深度學習,但深度強化學習更具挑戰性。為此,OpenAI 設計了 Spinning Up 來幫助人們學會使用這些技術并擴展關于它們的一些想法。

OpenAI 設計 Spinning Up 的靈感來源于與該機構學者和研究員的合作,通過該合作,他們發現,如果獲得正確的指導和資源,在機器學習方面經驗甚少甚至沒有經驗的人也可以快速成長為從業者。在 Deep RL 中開發的 Spinning Up 正是為這種需求準備的,該資源已被納入了 2019 年的學者和研究員團隊課程(https://blog.openai.com/openai-scholars-2019/)。

[[249340]]

OpenAI 還發現,具有 RL 方面的能力可以幫助人們參與跨學科研究領域,如 AI 安全——涉及強化學習和其它技能的混合。還有很多從零開始學習 RL 的人向 OpenAI 尋求建議,因此他們決定把提供的這些非正式建議正式發布出來。

Spinning Up 主要包含以下核心內容:

  • 強化學習技術的簡介,包含各種算法和基本理論的直觀理解;
  • 一些介紹如何才能做好強化學習研究的經驗;
  • 重要論文的實現,按照主題進行分類;
  • 各種強化學習算法的單獨實現,它們都有非常完善的介紹文檔;
  • ***還會有一些熱身練習題。

整個項目主要可以分為用戶文檔、強化學習簡介、資源、算法文檔和 Utilities 文檔。其中用戶文檔主要介紹了學習該項目所需要的一些準備,包括怎樣安裝 Python 和 OpenAI Gym 等強化學習環境,學習資源的主要內容以及實戰所需要注意的事項等。

在強化學習簡介中,OpenAI 主要討論了 RL 中的關鍵概念、關鍵算法和策略優化等內容。根據這一部分的內容,至少我們會對強化學習有一個清晰的認識,也就正式從小白到入門了。簡介后面的資源章節才是進階者的***,OpenAI 會先介紹如何才能做好強化學習研究,包括需要怎樣的背景知識、如何寫 RL 代碼及思考強化學習問題等。當然這一部分還提供了非常多的「硬資源」,OpenAI 按照 12 大研究主題提供了 98 篇「必讀」論文,并提供了其它一些練習題與挑戰賽。

估計等讀者搞定資源部分,就可以成為真正的強化學習研究者了。當然我們也可以跳過直接學習第三部分的算法文檔,它包含了策略梯度、策略優化和 Actor-Critic 等多種主流強化學習算法。只要我們完成了***部分的前提準備,第三部分的各種算法就能手到擒來。此外對于每一個 RL 算法,文檔都會提供全面的介紹,包括基本思想、公式定理、模型組件和參數等。

支持

該項目具有以下支持計劃:

  • 高帶寬軟件支持期:發布后的前三周,OpenAI 將快速處理 bug 修復、安裝問題,以及解決文檔中的錯誤和歧義。我們將努力簡化用戶體驗,使用 Spinning Up 自學變得盡可能簡單。
  • 2019 年 4 月的主要審查:發布約六個月后,OpenAI 將基于從學習社區收到的反饋認真審查軟件包的狀態,并宣布任何未來修改的計劃。
  • 內部開發的公開發布:如果 OpenAI 在與學者和研究員一起工作時,對 Deep RL 中的 Spinning Up 進行了修改,OpenAI 會將修改發至公共報告,并立即向所有人開放。

OpenAI 還將與其它組織合作來幫助人們學會使用這些材料。他們的***個合作伙伴是加州大學伯克利分校的 Center for Human-Compatible AI (CHAI),并將在 2019 年初合作舉辦一個關于深度 RL 的研修班,類似于計劃在 OpenAI 舉辦的 Spinning Up 研修班。

Hello World

感受深度強化學習算法表現如何的***方式就是運行它們。而有了 Spinning Up,這變得非常簡單:

python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

在訓練結束時,你將獲得關于如何從實驗中查看數據以及觀看訓練智能體視頻的指導。

Spinning Up 實現與 Classic Control、Box2D 和 MuJoCo 任務套件中的 Gym 環境兼容。

考慮到新學者,我們為 Spinning Up 設計了代碼,使其更短、更友好,也更加容易學習。我們的目標是用最小的實現來演示理論如何變成代碼,避免深度強化學習庫中常見的抽象層和模糊層。我們傾向于清晰化而不是模塊化——實現之間的代碼重用嚴格受限于日志和并行實用程序。給代碼加注釋,這樣你就總能知道事情的進展,并在相應的文檔頁面上得到背景材料(和偽代碼)的支持。

學習資源概覽

在整個項目中,強化學習簡介部分和算法部分可能是很多數讀者都非常感興趣的章節,下面主要介紹了這兩部分包含的內容。首先在強化學習簡介中,關鍵概念是必須解釋清楚的:

從Zero到Hero,OpenAI重磅發布深度強化學習資源
  • 狀態和觀察值;
  • 動作空間;
  • 策略;
  • 軌跡;
  • 不同形式化的獎勵;
  • RL ***化問題;
  • 值函數。

在關鍵概念之后,OpenAI 詳細介紹了各種強化學習算法及技術在整體所處的位置。如下所示,強化學習也是個桃李滿天下的大家族:

從Zero到Hero,OpenAI重磅發布深度強化學習資源

***在強化學習簡介部分,OpenAI 還重點介紹了策略優化,這一部分有挺多推導的,尤其是梯度的推導。不過好消息是這些推導都給出了詳細的過程,包括變換、消元和一些對數技巧等。讀者可以感受下推導過程:

從Zero到Hero,OpenAI重磅發布深度強化學習資源

此外在算法章節,Spinning Up 還收錄了很多重要的強化學習算法,在項目頁上也給出了各個算法的詳細介紹和調用方法。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

Spinning Up 收錄的算法。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

比如策略梯度算法,如上圖所示,文檔中會給出關鍵的方程、偽代碼、使用方法以及參考文獻。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

策略梯度算法的有限時域未折扣回報的梯度期望,以及策略參數的梯度更新方法。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

策略梯度算法的偽代碼。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

策略梯度算法的調用函數,我們可以看到,Spinning Up 提供的函數調用可以直接設置參數。文檔還提供了詳細的參數解釋。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

策略梯度算法的參考文獻。

Spinning Up 提供了 MuJoCo Gym 任務套件的 5 個環境下的算法實現基準,包括 HalfCheetah、Hopper、Walker2d、Swimmer、Ant。

從Zero到Hero,OpenAI重磅發布深度強化學習資源

HalfCheetah-2 環境下訓練 3 百萬時間步的基準結果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-08-22 15:56:49

神經網絡強化學習DQN

2017-11-28 15:20:27

Python語言編程

2017-10-18 17:16:59

ZeroHeroPython

2021-09-17 15:54:41

深度學習機器學習人工智能

2017-08-17 09:15:23

強化學習KerasOpenAI

2017-03-27 16:35:23

2017-03-28 10:15:07

2022-07-11 11:14:47

強化學習AI基于模型

2024-09-13 06:32:25

2017-07-25 16:04:31

概念應用強化學習

2020-05-06 16:07:05

百度飛槳

2025-02-03 06:00:00

2021-09-26 13:50:52

AI 數據強化學習

2022-09-04 14:38:00

世界模型建模IRIS

2022-05-31 10:45:01

深度學習防御

2020-05-12 07:00:00

深度學習強化學習人工智能

2023-12-03 22:08:41

深度學習人工智能

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2023-08-05 13:08:54

2023-01-04 10:02:53

強化學習自動駕駛
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品视频一二区 | 中文字幕视频一区 | 在线免费av观看 | 91在线视频精品 | 日韩欧美天堂 | av网站在线看 | a免费视频 | 日韩成人免费视频 | 日日夜夜91 | 精品成人| 中文一区| www.日日夜夜 | 精品久久久久久 | 久久综合国产精品 | 欧美一级在线 | 亚州一区二区三区 | 91成人免费电影 | 日韩小视频 | 国产精品美女一区二区 | 黄色网址免费看 | 亚洲在线一区二区三区 | 久久免费观看视频 | 国产剧情一区二区三区 | 国产精品成人品 | 国产免费一区二区三区 | 欧美精品一区二区三区在线播放 | 精品亚洲一区二区三区四区五区高 | 亚洲激精日韩激精欧美精品 | 免费黄色a视频 | 久久久久久久久99精品 | 欧美成人手机视频 | h视频免费在线观看 | 欧美看片 | 欧美一级二级视频 | 日韩欧美成人精品 | 日韩欧美精品一区 | 日韩精品一区二 | 在线不卡一区 | 日韩黄色小视频 | 春色av| 日本亚洲一区二区 |