成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

DeepMind發布Acme,高效分布式強化學習算法框架輕松編寫RL智能體

新聞 架構 分布式 算法
DeepMind 本周發布了一個強化學習優化框架 Acme,可以讓AI驅動的智能體在不同的執行規模上運行,從而簡化強化學習算法的開發過程。

 [[329133]]

DeepMind 本周發布了一個強化學習優化框架 Acme,可以讓AI驅動的智能體在不同的執行規模上運行,從而簡化強化學習算法的開發過程。

Acme 背后的工程師和研究人員共同撰寫了一篇關于這項工作的技術論文,根據他們的說法,用這種方法創建智能體,并行性會更好。

       DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体

強化學習可以讓智能體與環境互動,生成他們自己的訓練數據,這在電子游戲、機器人技術、自動駕駛機器人出租車等領域取得了突破。

隨著所使用的培訓數據量的增加,這促使設計了一個系統,使智能體與環境實例相互作用,迅速積累經驗。DeepMind 斷言,將算法的單進程原型擴展到分布式系統通常需要重新實現相關的智能體,這就是 Acme 框架的用武之地。

DeepMind研究員寫道,「Acme 是一個用于構建可讀、高效、面向研究的 RL 算法的框架。Acme 的核心是設計用于簡單描述 RL 智能體,這些智能體可以在不同規模的執行中運行,包括分布式智能體。」

「通過發布 Acme,我們的目標是使學術界和工業實驗室開發的各種 RL 算法的結果更容易為整個機器學習社區復制和擴展。」

Acme 框架要實現的目標?

研究者明確指出了Acme框架的高級目標:

1 實現方法和結果可重復性

2 簡化新算法設計的方式

3 提高RL智能體的可讀性

如何實現這一目標?

從最高層次來看,我們可以將 Acme 視為一個經典的強化學習接口,其作用是將 actor(比如一個動作選擇智能體)連接到環境。

actor 是一個具有選擇動作、觀察并實現自我更新能力的簡單接口。

從內部看,學習智能體可以拆分為「執行」和「學習」兩部分。從表面上看,這使得我們在不同的多智能體之間重復使用 acting portion。

但是,更重要的是,這提供了一個可以對學習過程進行劃分和并行化處理的關鍵邊界。我們甚至可以從此處按比例縮小規模,并在沒有環境,只有固定數據集的情況下無縫攻擊批RL設置(batch RL setting)。

這些不同級別的復雜度的圖示如下:

       DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体

除了 Acme 的基礎框架之外,研究人員還發布了用 Acme 框架創建的大量智能體的單進程實例。

通過跨越執行/學習邊界,我們能夠以分布式方式運行這些相同的智能體,過程中的改變最小。

Acme 框架首個版本主要針對學生和研究人員使用最多的單進程智能體。

研究者在 control suite、Atari 和 bsuite 等環境中對這些智能體進行了基準測試。

Acme 框架有哪些優勢?

Acme是一組開發套件,用于培訓強化學習智能體,用來解決復雜性和規模的問題,其組件用于從算法和策略到學習者等不同抽象層次來指導代理。

這樣做可以讓idea快速迭代,并在生產過程中對這些 idea 進行評估,主要是通過訓練循環、強迫性日志記錄和檢查點。

一種特殊類型的 Acme actor 包括執行和學習兩個組件ーー它們都被稱為「智能體」ーー它們的狀態更新是由learner組件中的一些步驟觸發的。也就是說,智能體大部分情況會把他們的行動選擇權交給他們自己的執行組件。

在 Acme 框架中,actors與環境密切交互,通過觀察環境,執行動作,反過來為環境提供素材。

   DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体

在觀察了隨后發生的變化后,actors 有機會更新其狀態,這通常與其行動選擇策略有關,這些策略決定了它們為應對環境而采取的行動。

Acme 提供了一個位于 actor 和 learner 組件之間的數據集模塊,該模塊由一個名為 Reverb 的低級存儲系統支持,DeepMind 本周也剛剛發布這個系統。此外,該框架建立了一個接入Reverb的通用接口,使不同風格的預處理和觀察數據的持續聚合成為可能。

Reverb是一個專為機器學習研究設計的高效、易用的數據存儲和傳輸系統。Reverb主要作為分布式強化學習算法的經驗回放(experience replay)系統,但該系統也支持多種數據結構表示,如FIFO、LIFO和優先級隊列等。

       DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体

在 Acme 當中,執行、學習和存儲組件被劃分為不同的線程或進程,這帶來了兩個好處: 環境交互與學習過程非同步發生,以及數據生成的加速。

在其他地方,Acme允許從學習到執行以任何速率運行,只要流程保持在一定的定義公差內就可以不受阻礙。例如,如果一個進程由于網絡問題或資源不足而落后于另一個進程,速率限制器將阻塞落后者,而另一個進程將趕上來。

除了這些工具和資源,Acme 還附帶了一組示例智能體,作為各自強化學習算法以及強大研究基線的參考實現。

DeepMind研究人員寫道,「通過提供這些... ... 我們希望 Acme 將有助于提高[強化學習]的可再生性地位,并為學術研究者提供簡單的組件來創造新的智能體。」「此外,我們的baseline應該提供額外的衡量標準,以衡量該領域的進展。」

GitHub地址:https://github.com/deepmind/acme

論文地址:https://arxiv.org/pdf/2006.00979v1.pdf

 

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-01-16 15:57:36

AI 數據人工智能

2021-06-25 15:36:37

框架AI開發

2020-04-15 16:44:38

谷歌強化學習算法

2021-09-10 16:31:56

人工智能機器學習技術

2020-10-15 19:22:09

Menger機器學習強化學習

2020-12-23 06:07:54

人工智能AI深度學習

2023-08-28 06:52:29

2022-11-02 14:02:02

強化學習訓練

2020-02-21 15:33:44

人工智能機器學習技術

2023-07-21 14:58:05

智能開發

2020-05-06 16:07:05

百度飛槳

2025-05-13 13:51:20

模型AI訓練

2021-09-09 15:45:17

機器學習人工智能Ray

2022-10-08 09:53:17

AI算法

2021-03-05 15:03:36

算法強化學習技術

2025-03-28 10:16:15

2024-03-19 00:15:00

機器學習強化學習人工智能

2024-06-07 08:06:36

2023-05-04 15:53:34

強化學習開發

2012-07-10 11:08:52

asyncoro
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区二区免费 | 国产精品福利网站 | 日本中文在线 | 久久久久久国产免费视网址 | 欧美性高潮 | 亚洲精品视频网站在线观看 | 国产视频一区二区 | 亚洲国产日韩一区 | 天堂资源最新在线 | 久久一区精品 | 视频三区 | 中文字幕日韩在线 | 日韩在线精品视频 | 狠狠色综合欧美激情 | 一区二区三区久久久 | 欧美在线日韩 | 亚洲精品国产电影 | 久草99| 少妇一区二区三区 | 在线一区视频 | 一区二区不卡视频 | 日韩一区中文字幕 | 日韩精品一区二区三区视频播放 | 一区二区三区免费 | 国产激情视频在线 | 日韩久久综合网 | 黄色a视频| 天天噜天天干 | 国产在线观看一区 | 久久久久久久国产精品影院 | 91麻豆精品国产91久久久久久 | 亚洲在线高清 | 亚洲午夜小视频 | 亚洲综合天堂网 | 9999久久| 国产亚洲www | 成人在线观看欧美 | 午夜精品久久久久久久久久久久 | 美女爽到呻吟久久久久 | 日本成人在线播放 | 日韩毛片视频 |