成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

新聞 人工智能
Google X的一位斯坦福華人博士最近在ICLR2021上發(fā)表了一篇文章,教你動態(tài)模擬現(xiàn)實(shí)!

 [[407004]]

工科的同學(xué)想必離不開各種各樣的模擬器,模擬器使各種工程學(xué)科能夠用最少的人力快速制作原型。

在機(jī)器人技術(shù)領(lǐng)域,物理模擬為機(jī)器人提供了一個安全而廉價的虛擬操場,機(jī)器人可以利用深強(qiáng)化學(xué)習(xí)(DRL)等技術(shù)獲得物理技能。

然而,由于仿真中的手工衍生物理并不完全匹配真實(shí)世界,完全在仿真中訓(xùn)練的控制策略在真實(shí)硬件上測試時可能失敗ーー這是一個被稱為仿真到真實(shí)(sim-to-real)或域適應(yīng)的問題。

基于知覺的任務(wù)(如抓取)的模擬與真實(shí)的差距已經(jīng)用 RL-cycleGAN 和 RetinaGAN 解決了,但是由于機(jī)器人系統(tǒng)的動態(tài)性仍然存在差距。

RL-cycleGAN和RetinaGAN在新智元之前的推送《Google X教你用模擬器訓(xùn)練機(jī)器人,準(zhǔn)確率超93%,ICRA2021已發(fā)表》中有介紹。

這讓我們不禁要問,我們能從一些真實(shí)的機(jī)器人軌跡中學(xué)到更精確的物理模擬器嗎?如果是這樣,這樣一個改進(jìn)的模擬器可以用標(biāo)準(zhǔn)的 DRL 訓(xùn)練來改進(jìn)機(jī)器人控制器,使其在現(xiàn)實(shí)世界中成功。

基于這個想法,Google 和 X 團(tuán)隊(duì)共同在ICRA2021上發(fā)表了一篇論文《SimGAN: 混合模擬器識別領(lǐng)域適應(yīng)通過對抗性的強(qiáng)化學(xué)習(xí)》,文中提出把物理模擬器作為一個可學(xué)的組件,由 DRL 訓(xùn)練具有特殊的獎勵功能,懲罰在模擬中產(chǎn)生的軌跡(即,隨著時間的推移機(jī)器人的運(yùn)動),少量軌跡之間的差異,收集真實(shí)的機(jī)器人運(yùn)動軌跡。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

本文作者超半數(shù)為華人,第一作者Yifeng Jiang,是斯坦福大學(xué)計算機(jī)科學(xué)專業(yè)的二年級博士生,由C. Karen Liu博士指導(dǎo)。

他在佐治亞理工學(xué)院獲得了電子與計算機(jī)工程學(xué)士學(xué)位。在進(jìn)入研究生院之前,在上海交通大學(xué)獲得了學(xué)士學(xué)位,是密歇根大學(xué)上海交通大學(xué)聯(lián)合研究所的成員。他的研究興趣是機(jī)器人應(yīng)用的計算機(jī)動畫和物理模擬,以及統(tǒng)計技術(shù)如何在這些領(lǐng)域中發(fā)揮作用,除此之外對數(shù)值優(yōu)化,人類認(rèn)知和運(yùn)動學(xué)習(xí)也很感興趣。

[[407005]]

文中使用生成對抗性網(wǎng)絡(luò)(GANs)來提供這種獎勵,并制定了一個混合模擬器,它結(jié)合了可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)和分析物理方程,來平衡模型的表達(dá)性和物理正確性。在機(jī)器人運(yùn)動任務(wù)上,該方法優(yōu)于多個強(qiáng)基線,包括領(lǐng)域隨機(jī)化。

一個可學(xué)習(xí)的混合模擬器傳統(tǒng)的物理模擬器是一個程序,用來解決微分方程,在虛擬世界中模擬運(yùn)動或相互作用的物體。

對于這項(xiàng)工作,有必要建立不同的物理模型來代表不同的環(huán)境——如果一個機(jī)器人在床墊上行走,床墊的變形需要考慮在內(nèi)(例如,與有限元分析一起)。

然而,由于機(jī)器人在現(xiàn)實(shí)世界中可能遇到的場景的多樣性,這種特定環(huán)境的建模技術(shù)將是冗長的(甚至是不可能的) ,這就是為什么采用基于機(jī)器學(xué)習(xí)的方法是有用的。

雖然模擬器可以完全從數(shù)據(jù)中學(xué)習(xí),但如果訓(xùn)練數(shù)據(jù)不包括足夠廣泛的各種情況,那么學(xué)習(xí)的模擬器如果需要模擬未經(jīng)訓(xùn)練的情況,就可能違反物理定律(即偏離現(xiàn)實(shí)世界的動力學(xué))。

因此,在如此有限的模擬器中訓(xùn)練的機(jī)器人在現(xiàn)實(shí)世界中更有可能失敗。

為了克服這一復(fù)雜性,文中構(gòu)造了一個混合模擬器,結(jié)合了可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)和物理方程。

具體地說,研究人員使用一個可學(xué)習(xí)的仿真參數(shù)函數(shù)來代替通常由人工定義的模擬器參數(shù)ーー接觸參數(shù)(如摩擦系數(shù)和恢復(fù)系數(shù))和電機(jī)參數(shù)(如電機(jī)增益) ,因?yàn)榻佑|的未建模細(xì)節(jié)和電機(jī)動態(tài)是產(chǎn)生仿真間隙的主要原因。

與傳統(tǒng)的模擬器將這些參數(shù)視為常數(shù)不同,在混合模擬器中,這些參數(shù)是狀態(tài)相關(guān)的ーー它們可以根據(jù)機(jī)器人的狀態(tài)而改變。

例如,電機(jī)在較高的速度下會變得較弱。這些典型的未建模物理現(xiàn)象可以使用與狀態(tài)相關(guān)的模擬參數(shù)函數(shù)來捕獲。

此外,雖然接觸和電機(jī)參數(shù)通常難以識別和易于變化,由于磨損,我們的混合模擬器可以自動學(xué)習(xí)他們從數(shù)據(jù)。例如,模擬器不再需要手動指定機(jī)器人腳的參數(shù),而是從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)這些參數(shù)。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

混合模擬器的另一部分由物理方程組成,確保模擬遵循物理學(xué)的基本定律,如能量守恒,使其更接近真實(shí)世界,從而減少模擬與真實(shí)世界的差距。

在之前的床墊例子中,可學(xué)習(xí)的混合模擬器能夠模擬床墊的接觸力。由于學(xué)習(xí)的接觸參數(shù)是狀態(tài)相關(guān)的,模擬器可以根據(jù)機(jī)器人腳相對于床墊的距離和速度來調(diào)節(jié)接觸力,模擬可變形表面的剛度和阻尼的影響。

因此,我們不需要為可變形的表面專門設(shè)計一個解析的模型。

使用GAN模擬器學(xué)習(xí)成功地學(xué)習(xí)上面討論的模擬參數(shù)函數(shù)將導(dǎo)致一個混合模擬器,可以產(chǎn)生類似真正的機(jī)器人的軌跡。

使這種學(xué)習(xí)成為可能的關(guān)鍵是為軌跡之間的相似性定義一個度量標(biāo)準(zhǔn)。

GAN最初設(shè)計用于生成具有相同分布或風(fēng)格(style)的合成圖像,只有少量真實(shí)圖像,可用于生成與真實(shí)圖像無法區(qū)分的合成軌跡。

GAN有兩個主要部分,一個是學(xué)習(xí)生成新實(shí)例的生成器,另一個是判別器,評估新實(shí)例與訓(xùn)練數(shù)據(jù)的相似程度。

在這種情況下,可學(xué)習(xí)的混合模擬器作為 GAN 生成器,而 GAN 鑒別器提供相似性評分。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

將模擬模型的參數(shù)與現(xiàn)實(shí)世界中收集到的數(shù)據(jù)進(jìn)行擬合,這一過程稱為系統(tǒng)辨識過程(SysID) ,已經(jīng)成為許多工程領(lǐng)域中的常見做法。

例如,可變形表面的剛度參數(shù)可以通過測量表面在不同壓力下的位移來確定。這個過程通常是手動的和繁瑣的,但是使用 GANs 可以更有效率。例如,SysID 經(jīng)常需要一個手工制作的度量標(biāo)準(zhǔn)來衡量模擬軌跡和真實(shí)軌跡之間的差異。對于 GANs,這樣的度量是由鑒別器自動學(xué)習(xí)的。此外,為了計算差異度量,傳統(tǒng)的 SysID 需要將每個模擬軌跡配對到使用相同控制策略生成的對應(yīng)實(shí)際軌跡。

由于 GAN 鑒別器只采用一個軌跡作為輸入,并計算在現(xiàn)實(shí)世界中chuxian的可能性,因此不需要這種一對一的配對。

使用強(qiáng)化學(xué)習(xí)學(xué)習(xí)模擬器和優(yōu)化策略把所有的東西融合到一起,我們將模擬學(xué)習(xí)形式化為一個 RL 問題。神經(jīng)網(wǎng)絡(luò)從少量的現(xiàn)實(shí)軌跡中學(xué)習(xí)狀態(tài)相關(guān)的接觸和電機(jī)參數(shù)。對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,使模擬軌跡與實(shí)際軌跡之間的誤差最小。

需要注意的是,在一段較長的時間內(nèi)盡量減少這種錯誤是很重要的ー一種能夠準(zhǔn)確預(yù)測更遠(yuǎn)的未來的模擬將導(dǎo)致更好的控制政策。RL 非常適合這一點(diǎn),因?yàn)樗S著時間的推移優(yōu)化了累積的獎勵,而不僅僅是優(yōu)化了單步獎勵。

在學(xué)習(xí)了混合模擬器并且變得更加準(zhǔn)確之后,我們再次使用 RL 在模擬中改進(jìn)機(jī)器人的控制策略。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

結(jié)果表明,SimGan優(yōu)于多個sota模型基線,包括領(lǐng)域隨機(jī)化(DR)和直接細(xì)化目標(biāo)域(FT)。

Google X華人博士發(fā)布機(jī)器人模擬器SimGAN,ICLR2021已發(fā)表

仿真與現(xiàn)實(shí)的差距是阻礙機(jī)器人利用強(qiáng)化學(xué)習(xí)能力的關(guān)鍵瓶頸之一。

通過學(xué)習(xí)一個模擬器來應(yīng)對這個挑戰(zhàn),這個模擬器可以更忠實(shí)地模擬真實(shí)世界的動態(tài),同時只使用少量的真實(shí)世界數(shù)據(jù)。可以成功地部署在此模擬器中改進(jìn)的控制策略。為了達(dá)到這個目的,我們在經(jīng)典物理模擬器的基礎(chǔ)上增加了可學(xué)習(xí)的組件,并使用對抗性的強(qiáng)化學(xué)習(xí)語言來訓(xùn)練這個混合模擬器。

 

到目前為止,我們已經(jīng)測試了它在運(yùn)動任務(wù)中的應(yīng)用,我們希望通過將它應(yīng)用于其他機(jī)器人學(xué)習(xí)任務(wù),如導(dǎo)航和操作,來構(gòu)建這個通用框架。

 

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2016-04-18 19:24:38

2021-07-19 15:02:48

機(jī)器人人工智能算法

2024-01-23 11:31:24

模型AI

2021-03-18 19:19:35

機(jī)器人AI人工智能

2023-11-28 10:54:49

機(jī)器人人工智能

2014-10-10 14:18:58

2020-10-15 15:42:00

人工智能

2021-09-13 17:27:49

對比學(xué)習(xí)深度學(xué)習(xí)人工智能

2013-11-07 09:31:22

2024-12-25 11:30:43

2017-03-28 17:18:20

2023-03-28 07:49:38

2009-04-05 09:33:50

Chrome瀏覽器Google

2020-09-17 13:07:16

阿里物流機(jī)器人

2014-11-03 14:21:50

AndroidGoogle機(jī)器人Andy Rubin

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2015-07-28 09:36:11

機(jī)器人

2022-07-26 12:43:53

機(jī)器人
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日本一区二区不卡 | 成人国产精品入口免费视频 | www.性色 | 中文字幕日韩欧美 | 黄视频在线网站 | 国产欧美精品在线 | 亚洲精品国产精品国自产在线 | 香蕉婷婷 | 中文字幕综合 | av香港经典三级级 在线 | 久久成人国产精品 | 婷婷二区| 精品国产一级 | 国产亚洲精品美女久久久久久久久久 | 干干干操操操 | 成人亚洲在线 | 国产精品av久久久久久毛片 | 欧美一级在线视频 | 在线免费观看欧美 | 国产欧美日韩 | 91久久久久| 国产一区二区三区久久久久久久久 | 成人不卡视频 | 91天堂网| 高清欧美性猛交xxxx黑人猛交 | 亚洲另类自拍 | 中文字幕在线观看日韩 | 99热精品在线观看 | www.日韩在线 | 精品久久久久久久久久久久久久久久久 | 亚洲精品久久久久久久久久久久久 | 久久久国产一区二区三区四区小说 | 欧美日韩成人影院 | 国产日韩中文字幕 | 男女在线网站 | 欧美大片一区二区 | 久久精品视频在线播放 | 男女视频在线免费观看 | 美女黄色在线观看 | 日本精品一区二区三区在线观看 | 亚洲国产精品一区二区三区 |