成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

邊做邊思考,谷歌大腦提出并發RL算法,機械臂抓取速度提高一倍

新聞 人工智能 算法
RL 算法通常假設,在獲取觀測值、計算動作并執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現,然而在真實機器人控制當中并不成立,很可能導致控制策略運行緩慢甚至失效。

 RL 算法通常假設,在獲取觀測值、計算動作并執行期間環境狀態不發生變化。這一假設在仿真環境中很容易實現,然而在真實機器人控制當中并不成立,很可能導致控制策略運行緩慢甚至失效。為緩解以上問題,最近谷歌大腦與 UC 伯克利、X 實驗室共同提出一種并發 RL 算法,使機器人能夠像人一樣「邊做邊思考」。目前,該論文已被 ICLR 2020 接收。

該研究在如下情況中研究強化學習:在受控系統隨著時間演變的過程中同時對動作進行采樣。換句話說,所研究的機器人必須在執行著上一個動作的同時考慮下一個動作。就如同人或動物一樣,機器人必須同時思考及行動,在上一個動作完成之前決定下一個動作。

為了開發用于此類并發性控制問題的算法框架,研究者從連續時間的貝爾曼方程開始,隨后以考慮系統延遲的方式進行離散化。通過對現有基于價值(value-based)的深度強化學習算法進行簡單的架構擴展,該團隊提出了一類新型近似動態規劃方法,并在模擬基準任務和大規模機器人抓取任務上進行了評估(機器人必須「邊走邊思考」)。

以下分別為該方法在仿真與真實機器人上的運行效果:

論文地址:https://arxiv.org/abs/2004.06089

項目網頁:https://sites.google.com/view/thinkingwhilemoving

并發動作環境

下圖(a)表示在阻塞環境(blocking environment)中,動作以順序阻塞的方式執行,假設在獲取狀態與執行動作之間環境狀態不發生變化。我們也可以將其理解為:從智能體的角度看來,獲取狀態與推斷策略是瞬間完成的。與此相反,圖(b)中表示的并發環境(concurrent environment)在獲取狀態與推斷策略之間并沒有假設環境不變,而是允許環境在此期間發生變化。

阻塞環境與并發環境中不同階段的執行順序對比圖。

基于價值的連續與離散并發強化學習算法

研究者從連續時間強化學習的角度開始探索,因為它可以輕松地表示系統的并發特性。之后研究者證明,基于連續情況得出的結論同樣適用于隨后在所有實驗中使用的更為常用的離散環境。

連續環境方程

為了進一步分析并發環境,研究者引入下列符號。智能體在一個周期內選擇 N 個動作軌跡(a_1 , ..., a_N),其中每個 a_i(t) 為一個用于產生控制,并以時間 t 作為變量的連續函數。令 t_{AS} 為獲取狀態、推斷策略與任意額外通信時延的間隔時間。在 t 時刻,智能體開始計算狀態 s(t) 的第 i 個動作 a_i(t)。同時,在時間間隔 (t − H + t_{AS},t+t_{AS}) 內執行之前選取的動作 a_{i−1}(t)。在 t+t_{AS} 時刻(t ≤ t+t_{AS} ≤ t+H),智能體切換到去執行來自 a_i(t) 的動作。并發環境下的連續 Q 函數可表示如下:

前兩項分別對應執行 (t,t + t_{AS}) 時刻的動作 a_{i−1}(t) 和 (t + t_{AS},t + t_{AS} + H) 時刻動作 a_i(t) 的期望折扣回報。通過對隨機方程 p 進行采樣,可獲得一個僅關于策略 rollouts 的單樣本(single-sample)蒙特卡洛估計器 Q:

接下來,對于連續時間情形,研究者定義了一個新的并發貝爾曼 backup 算子:

以上算子將貝爾曼算子擴充為考慮并發動作的情形,研究者證明改進后的算子保持了其吸引域的特性,這對于 Q-learning 的收斂性至關重要。

離散環境方程

為了簡化離散情形下的符號(此時動作方程 a_i(t) 與該方程在 t 時刻的值 a_i(t) 并非必需),研究者將當前狀態設置為 s_t,將當前動作設置為 a_t,將上一時刻動作設置為 a_{t−1}(分別將其下標 i 替換為 t)。在以上符號記法下,研究者定義了離散情形下的并發 Q 方程:

其中 t_{AS′} 為動作 a_t 在 t + t_{AS} 時刻開始執行時的「溢出間隔」(spillover duration)。于是,并發貝爾曼算子(以下標 c 表示)為:

與連續情形類似,研究者也證明了該離散貝爾曼算子是一個吸引域。

實驗結果

簡單一階控制問題

首先,研究者通過對標準的 Cartpole 和 Pendulum 環境的并發版本進行控制變量研究,說明了并發控制范式對基于價值的 DRL 方法的影響。

為了估計不同并發知識表示的相對重要性,研究者分析了每種并發知識表示對其他超參數值組合的敏感性,如下圖所示:

Cartpole 和 Pendulum 環境中的實驗結果。

大規模機械臂抓取任務

接下來,研究者分別在仿真與真實機械臂上進行了實驗。

圖 3:仿真和真實環境下的機械臂抓取任務圖示。

表 1 通過對無條件模型與并發知識模型進行比較總結了阻塞和并發模式的性能。并發知識模型能夠學習更快的軌跡,其周期持續時間與阻塞無條件模型相比減少了 31.3%。

表 1:大規模仿真機械臂抓取任務的實驗結果。

此外,研究者在現實世界機器人抓取任務中,對比了并發模型和阻塞模型的定性策略行為,如圖 3b 所示。

如表 2 所示,這些模型在抓取成功方面性能相當,但是就策略持續時間而言,并發模型比阻塞模型快 49%(策略持續時間用來衡量策略的總執行時間,但不包括在周期持續時間中的基礎架構建立和拆除時間,并發操作無法對此優化)。

表 2:真實機械臂抓取結果。

 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-07-22 16:55:46

神經網絡數據圖形

2022-06-24 08:20:56

requests爬蟲Python

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2024-04-02 10:13:25

在線小工具開發

2021-01-13 15:16:45

谷歌架構開發者

2012-07-04 08:48:59

程序員

2023-04-10 14:22:26

PCIe6.0PCIe

2024-02-05 08:00:00

代碼生成人工智能自然語言

2012-07-04 09:30:49

程序員開發效率

2011-02-22 09:29:33

無線網絡無線網速

2009-06-15 08:47:33

微軟Windows 7操作系統

2020-05-28 13:20:49

算法谷歌性能

2022-11-21 10:18:24

AI谷歌

2011-07-05 17:14:39

Raritan力登年度環境計劃

2019-07-18 08:54:42

谷歌Android開發者

2010-08-13 11:06:52

創新工場CEO李開復

2009-11-26 11:29:46

Silverlight

2009-09-22 10:09:58

AHCIWindows 7加速

2010-06-03 17:32:34

Tera

2015-11-09 17:53:35

程序員高薪職業
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美xxxx日本 | 嫩草视频在线免费观看 | 国产91av视频在线观看 | 国产欧美日韩精品一区 | 亚洲成人综合网站 | 中文字幕免费观看 | 久久精品一区二区 | 91麻豆精品国产91久久久更新资源速度超快 | 中文一区| 亚洲精品一区av在线播放 | 国产激情视频网站 | 一色一黄视频 | 亚洲免费视频一区二区 | 国产精品影视在线观看 | av日日操 | 国产综合精品一区二区三区 | 91精品久久久 | 精品国产乱码久久久久久丨区2区 | 日韩精品成人av | 日韩三区 | 九九99精品 | 国产精品日韩一区二区 | 欧洲精品一区 | 亚洲成人av | 精品一区二区电影 | www.男人天堂.com| 久久久久免费精品国产小说色大师 | 黄色精品视频网站 | 亚洲精品一二三区 | 超碰天天| 精品国产99 | 一级片视频免费观看 | 在线播放中文字幕 | 在线观看日韩精品视频 | 国产亚洲一区二区三区在线观看 | 国产传媒在线播放 | www免费视频 | 亚洲在线 | 99精品视频在线观看 | 国产视频精品区 | 欧美一区二区三区的 |