成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

「多巴胺」來襲!谷歌推出新型強化學習框架Dopamine

新聞 人工智能
谷歌發布博客介紹其最新推出的強化學習新框架 Dopamine,該框架基于TensorFlow,可提供靈活性、穩定性、復現性,以及快速的基準測試。

谷歌發布博客介紹其最新推出的強化學習新框架 Dopamine,該框架基于TensorFlow,可提供靈活性、穩定性、復現性,以及快速的基準測試。

GitHub repo: https://github.com/google/dopamine

在過去幾年里,強化學習研究取得了多方面的顯著進展。這些進展使得智能體能夠以超越人類的水平玩游戲,其中比較可圈可點的例子包括:DeepMind 的 DQN 在 Atari 游戲上的表現、AlphaGo、AlphaGoZero 以及 Open AI Five。具體來說,在 DQN 中引入重播記憶(replay memory)使得智能體能夠利用先前的經驗,大規模分布式訓練使得智能體能夠將學習過程分配給多個工作線程(worker),分布式方法使得智能體能夠建模完整的分布,而不僅僅是它們的期望值,從而了解它們所在環境的完整情況。這種進步非常重要,因為算法催生的這些進展還可用于其他領域,如機器人學。

通常來講,取得此類進展需要在設計上進行快速迭代(通常沒有明確的方向),打破已有方法的結構。然而,多數現有強化學習框架并不同時具備可讓研究者高效迭代 RL 方法的靈活性和穩定性,因此探索新的研究方向可能短期內無法獲得明顯的收益。再者,復現現有框架的結果通常太過耗時,可能會導致科學復現性問題。

今天,谷歌介紹了一款基于TensorFlow的新框架,旨在為強化學習研究者及相關人員提供具備靈活性、穩定性及復現性的工具。該框架的靈感來自于大腦中獎勵–激勵行為的主要組成部分「多巴胺」(Dopamine),這反映了神經科學和強化學習研究之間的密切聯系,該框架旨在支持能夠推動重大發現的推測性研究。谷歌還發布了一組相關的 Colab( https://github.com/google/dopamine/blob/master/dopamine/colab/README.md ),以說明該框架的使用方法。

易用性

清晰性(clarity)和簡明性(simplicity)是該框架設計過程中的兩個關鍵考量因素。谷歌提供的代碼很緊湊(大約 15 個 Python 文件)且記錄良好。原因在于谷歌研究人員專注于街機模式學習環境(ALE,一個成熟、已被充分了解的基準)和四個基于價值的智能體:DQN、C51、精心設計的 Rainbow 智能體簡化版和 Implicit Quantile Network 智能體(上個月才在 ICML 大會上得到展示)。谷歌希望這一簡明性特點可使研究者容易理解智能體的內在工作原理,快速嘗試新想法。

復現性

谷歌非常看重強化學習研究中的復現性。因此,谷歌提供了其代碼的完整測試;這些測試見文檔附表。此外,谷歌的實驗框架遵循 Machado 等人(2018)關于利用 ALE 標準化經驗評估的推薦方法。

基準測試

對于新研究者來說,對自己的想法進行快速的基準測試是非常重要的。谷歌提供四個智能體的完整訓練數據,包括 ALE 支持的 60 個游戲,格式為 Python pickle 文件(對于使用谷歌框架訓練的智能體)和 JSON 數據文件(用于對比其他框架訓練的智能體)。谷歌還提供了一個網站,研究者可以使用該網站對所有提供智能體在所有 60 個游戲中的訓練運行進行快速可視化。下圖即谷歌的 4 個智能體在 Seaquest 上的訓練運行(Seaquest 是 ALE 支持的 Atari 2600 游戲之一)。

谷歌的 4 個智能體在 Seaquest 上的訓練運行。x 軸表示迭代,每個迭代是一百萬個游戲幀(實時游戲 4.5 小時);y 軸是每次游戲獲取的平均分。陰影區域表示 5 個獨立運行的置信區間。

谷歌還提供利用這些智能體訓練的深度網絡、原始統計日志以及用于 Tensorboard 可視化的TensorFlow事件文件。

相關地址: https://github.com/google/dopamine/tree/master/docs#downloads

谷歌希望其框架的靈活性和易用性能夠幫助研究者嘗試新想法。谷歌已經在研究中使用了該框架,發現它可使很多想法快速迭代,具備很強的靈活性。谷歌期待看到社區使用這一框架。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-26 13:20:49

谷歌AI模型Titans

2012-05-08 15:19:10

2009-03-26 18:46:20

戴爾Nehalem服務器

2010-07-07 20:23:57

思科云計算

2011-08-30 10:50:01

Vmware企業數據庫

2020-06-05 08:09:01

Python強化學習框架

2016-07-05 16:56:15

智能家電

2022-07-27 14:45:39

谷歌模型

2024-12-09 08:45:00

模型AI

2013-08-22 11:28:15

百度應用模式

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2025-05-15 09:04:00

2020-11-16 08:54:05

Google 開源技術

2023-05-15 20:19:26

谷歌AI

2021-10-11 09:51:38

谷歌人工智能強化學習

2021-05-31 14:57:13

谷歌AI工具人工智能

2022-10-08 09:53:17

AI算法

2009-05-13 09:57:33

AdobeStrobe框架

2025-04-03 09:23:08

大模型強化學習開源
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av手机免费在线观看 | 久久精品一区二区 | 日韩www | 黄视频在线网站 | 久久精品女人天堂av | 亚洲图片视频一区 | 日韩成人免费在线视频 | 在线观看视频福利 | 国产99久久 | 丁香婷婷久久久综合精品国产 | 五月婷婷激情网 | 99精品欧美一区二区三区综合在线 | 亚洲二区视频 | 亚洲欧美日韩电影 | 中文久久 | 亚洲va中文字幕 | 精品国产乱码久久久久久蜜臀 | 成年人免费在线视频 | 欧美精品一区二区三区四区 在线 | 免费视频一区二区三区在线观看 | 日本在线一区二区三区 | 久久久久国产成人精品亚洲午夜 | 91大片 | 亚洲成人一级 | 久久国产精品无码网站 | 中文字幕亚洲视频 | 欧美精品在线视频 | av香蕉 | 自拍亚洲| 久久新视频 | 国产精品免费一区二区三区四区 | 伊人精品视频 | 精品伊人| 中文字幕一区在线 | 久久久精品高清 | 香蕉视频一区二区 | 久久精品欧美一区二区三区麻豆 | 国产精品成人一区二区三区夜夜夜 | 国产一区二区在线播放视频 | аⅴ资源新版在线天堂 | 国产精品一区二区久久精品爱微奶 |