成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<kbd id="quewk"><strong id="quewk"></strong></kbd><button id="quewk"><em id="quewk"></em></button>

<code id="quewk"><center id="quewk"></center></code>

<table id="quewk"><rt id="quewk"></rt></table>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

作者：賈浩楠 2020-04-01 12:18:11

新聞機器學習

就在最近，一個簡潔、輕巧、快速的深度強化學習平臺，完全基于Pytorch，在Github上開源。

本文經AI新媒體量子位（公眾號ID:QbitAI）授權轉載，轉載請聯系出處。

江山代有才人出，開源一波更比一波強。

就在最近，一個簡潔、輕巧、快速的深度強化學習平臺，完全基于Pytorch，在Github上開源。

如果你也是強化學習方面的同仁，走過路過不要錯過。

而且作者，還是一枚清華大學的本科生——翁家翌，他獨立開發了”天授（Tianshou）“平臺。

沒錯，名字就叫“天授”。

Why 天授？

主要有四大優點：

1、速度快，整個平臺只用1500行左右代碼實現，在已有的toy scenarios上面完勝所有其他平臺，比如3秒訓練一個倒立擺（CartPole）。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

2、模塊化，把所有policy都拆成4個模塊：

init：策略初始化。process_fn：處理函數，從回放緩存中處理數據。call：根據觀測值計算操作learn：從給定數據包中學習

只要完善了這些給定的接口就能在100行之內完整實現一個強化學習算法。

3、天授平臺目前支持的算法有：

Policy Gradient (PG)
Deep Q-Network (DQN)
Double DQN (DDQN) with n-step returns
Advantage Actor-Critic (A2C)
Deep Deterministic Policy Gradient (DDPG)
Proximal Policy Optimization (PPO)
Twin Delayed DDPG (TD3)
Soft Actor-Critic (SAC)

隨著項目的開發，會有更多的強化學習算法加入天授。

4、接口靈活：用戶可以定制各種各樣的訓練方法，只用少量代碼就能實現。

如何使用天授

以DQN（Deep-Q-Network）算法為例，我們在天授平臺上使用CartPole小游戲，對它的agent進行訓練。

配置環境

習慣上使用OpenAI Gym，如果使用Python代碼，只需要簡單的調用Tianshou即可。

CartPole-v0是一個可應用DQN算法的簡單環境，它擁有離散操作空間。配置環境時，你需要注意它的操作空間是連續還是離散的，以此選擇適用的算法。

設置多環境層

你可以使用現成的gym.Env：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

也可以選擇天授提供的三種向量環境層：VectorEnv、SubprocVectorEnv和RayVectorEnv，如下所示：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

示例中分別設置了8層和100層環境。

建立網絡

天授支持任意用戶自主定義的網絡或優化器，但有接口限制。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

以下是一個正確的示例：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

設置策略

我們使用已定義的net和optim（有額外的策略超參數）來定義一個策略。下方我們用一個目標網絡來定義DQN算法策略。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

設置收集器

收集器是天授的關鍵概念，它使得策略能夠高效的與不同環境交互。每一步，收集器都會將該策略的操作數據記錄在一個回放緩存中。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

訓練

天授提供了訓練函數onpolicy_trainer和offpolicy_trainer。當策略達到終止條件時，他們會自動停止訓練。由于DQN是無策略算法，我們使用offpolicy_trainer。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

訓練器支持TensorBoard記錄，方法如下：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

將參數writer輸入訓練器中，訓練結果會被記錄在TensorBoard中。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

記錄顯示，我們在幾乎4秒的時間內完成了對DQN的訓練。

保存/加載策略

因為我們的策略沿襲自torch.nn.Module，所以保存/加載策略方法與torch模塊相同。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

觀察模型表現

收集器支持呈現功能，以35幀率觀察模型方法如下：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

用你自己的代碼訓練策略

如果你不想用天授提供的訓練器也沒問題，以下是使用自定義訓練器的方法。

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

上手體驗

天授需要Python3環境。以CartPole訓練DQN模型為例，輸入test_dqn.py代碼進行訓練，其結果統計如下：

清華本科生開發強化學習平臺「天授」：千行代碼實現，剛剛開源

可以看出整個訓練過程用時7.36秒，與開發者給出的訓練時間符合。

模型訓練結果如下：

作者介紹

天授的開發者：翁家翌，清華大學的在讀大四本科生。

高中畢業于福州一中，前NOI選手。

大二時作就作為團隊主要貢獻者獲得了強化學習國際比賽vizdoom的冠軍。他希望能將天授平臺深入開發，成為強化學習平臺的標桿。開源也是希望有更多的小伙伴加入這個項目。

傳送門：

PyPI提供天授平臺下載，你也可以在Github上找到天授的最新版本和其他資料。

PYPI：

https://pypi.org/project/tianshou/

Github天授主頁：

https://github.com/thu-ml/tianshou

責任編輯：張燕妮來源：量子位

人工智能強化學習開源

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 91资源在线观看 | 天天操精品视频 | 日韩欧美中文 | 日本天堂视频在线观看 | 中文字幕高清视频 | 久草综合在线视频 | 国产999精品久久久久久 | 999免费视频 | 91精品久久久久久久久中文字幕 | 久久久精 | 欧美日韩不卡合集视频 | 国产精品伦理一区二区三区 | 日韩欧美在线播放 | 国产精品久久久亚洲 | 国产一区二区影院 | 99re在线 | 国产中文原创 | 欧美中文在线 | 国产片网站 | 欧美久久一区 | 韩日在线 | 精久久久久| 欧美三级视频 | 国产成人免费视频 | 亚洲福利网| 日本免费网 | 亚洲国产在 | 日韩成年人视频在线 | 欧美日韩国产免费 | 国产美女精品 | 亚洲精品在线91 | 久久久毛片 | 国产在线精品一区二区三区 | 成人欧美一区二区三区黑人孕妇 | 欧美成人免费在线 | 日韩毛片免费视频 | 久久精品视频91 | 激情一区二区三区 | 欧美毛片免费观看 | 成人区精品 | 久久人爽|

<wbr id="iugys"><sup id="iugys"></sup></wbr>