成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

人工智能 新聞
這是UC伯克利大學帶來的最新成果,讓機器人直接在實際環境中訓練學習,不再依賴于模擬器。

本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。

現在,讓機械狗自己打滾一個小時,它就能學會走路了!

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

步態看著相當有模有樣:

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

還能扛住大棍子的一通狂懟:

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

就算是摔了個四仰八叉,翻個身自己又站起來了:

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

如此看來,訓機械狗和普通訓狗真是要沒什么兩樣了啊。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

這就是UC伯克利大學帶來的最新成果,讓機器人直接在實際環境中訓練學習,不再依賴于模擬器

應用這一方法,研究人員在短時間內訓練出了4個機器人。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

比如開頭看到的1小時學會走路的機械狗;

還有2個機械臂,在8-10小時實戰抓取后,表現接近于人類水平

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

以及一個擁有計算機視覺的小機器人,在自己摸索2小時后,能絲滑地滾動到指定位置。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

該研究由Pieter Abbeel等人提出,Pieter Abbeel是吳恩達的第一位博士生,前不久他剛剛獲得2021 ACM 計算獎(ACM Prize in Computing)。

目前,該方法的所有軟件基礎架構已經開源。

一個叫做“空想家”的算法

本文方法的pipeline大致可分為4步:

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

第一步,是先把機器人放在真實環境里,收集數據

第二步,把這些數據傳輸到Replay Buffer。這一步驟就是利用歷史數據進行訓練、“總結經驗”,高效利用收集到的樣本。

第三步,World Model會對已有經驗進行學習,然后“腦補”出策略。

第四步,再用演員評論家(Actor Critic)算法來提升策略梯度法的性能。

然后循環往復,將已經提煉出的辦法再使用到機器人身上,最后達到一種“自己摸索學習”的感覺。

具體來看,這里的核心環節是World Model

World Models是2018年由DAVID HA等人提出的一種快速無監督學習方式,獲得了NIPS 2018的Oral Presentation。

它的核心理念是認為人類是基于已有經驗,形成了一個心理世界模型,我們所做的決定和行動都是基于這個內部模型。

比如人類在打棒球時,做出反應的速度遠比視覺信息傳達到大腦中的快,那么在這種情況下還能正確回球的原因,就是因為大腦已經做出了本能的預測。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

此前,基于World Model這種“腦補”的學習方法,谷歌提出了Dreamer這種可擴展的強化學習方法。

這一次提出的方法是在此基礎上,叫做DayDreamer。

(貌似可以叫做空想家?)

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

具體來看,World Model就是一個智能體模型。

它包括一個視覺感知組件,能將看到的圖像壓縮成一個低維的表征向量作為模型輸入。

同時還有一個記憶組件,可以基于歷史信息,對未來的表征向量做出預測。

最后,還包括一個決策組件,它能基于視覺感知組件、決策組件的表征向量,決定采取怎樣的動作。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

現在,我們回到本次UC伯克利學者提出的方法。

不難發現,其中World Model Learning部分的邏輯就是一個經驗積累的過程,Behavior Learning部分則是一個動作輸出的過程。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

本篇論文方法的提出,主要解決了機器人訓練中兩方面的問題:

效率和準確率

一般來說,訓練機器人的常規方法是強化學習,通過反復實驗來調整機器人的運作。

不過這種方法往往需要非常大量的測試,才能達到很好的效果。

不僅效率低下,而且訓練需要付出的成本也不低。

后來,不少人提出在模擬器中對機器人進行訓練,可以很好增效降本。

但是本文作者認為,模擬器訓練方法在準確性方面的表現還是不夠好,只有真實的環境才能讓機器人達到最好的效果。

從結果來看,在訓練機器狗的過程中,只花10分鐘時間,機器狗就能適應自己的行為了。

和SAC方法對比來看,效果有明顯提升。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

在機械臂訓練過程中,這一新方法還克服了視覺定位和稀疏獎勵的挑戰,幾小時內的訓練成果明顯優于其他方法。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

研究團隊

值得一提的是,本次帶來新成果的研究團隊成員,也非常令人矚目。

其中,Pieter Abbeel是吳恩達的開山大弟子。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

他現在是UC伯克利電氣工程和計算機科學教授,伯克利機器人學習實驗室主任,伯克利AI研究院共同主任,曾加入過OpenAI。

前不久,他還獲得了2021 ACM 計算獎(ACM Prize in Computing),以表彰其在機器人學習方面的貢獻。

與此同時,他還是AI機器人公司Covariant的聯合創始人。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

另一位Ken Goldberg,也是AI領域的頂級專家。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

他現在是UC伯克利工程教授,研究方向為強化學習、人機交互等。

2005年,他被評選為IEEE院士。

與此同時,Goldberg還是一位藝術家,是UC伯克利藝術、科技文化研討會的奠基人。

此外,Philipp Wu、Alejandro Escontrela、Danijar Hafner三人為共同一作。

其中Philipp Wu還只是UC伯克利一位大四的學生。

One More Thing

在觀看機械狗訓練的視頻時,我們發現研究人員使用的是Unitree機械狗。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

這個品牌來自中國企業宇樹科技,之前登上過春晚的機器小牛,也來自它家。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

而且,最近宇樹機器狗集體進行Go1測試的視頻曝光,還在國外火了一波。

新出生的機器狗,打滾1小時后自己掌握走路,吳恩達大弟子成果

論文地址:

https://danijar.com/project/daydreamer/

責任編輯:張燕妮 來源: 量子位
相關推薦

2022-06-06 12:53:17

吳恩達AI機器學習

2021-04-13 09:25:21

機器學習人工智能計算機

2024-06-13 09:05:36

2017-12-15 12:44:02

2021-04-23 10:55:52

人工智能深度學習

2022-07-20 14:59:51

機器狗算法

2025-02-07 15:20:00

AI數據訓練

2019-09-24 08:16:14

Reactor響應式編程

2020-11-09 08:55:10

Python 開發AI

2024-09-23 09:00:00

模型訓練

2017-03-22 20:18:04

百度人工智能吳恩達

2019-10-21 09:51:20

AI 數據人工智能

2022-02-13 17:27:59

吳恩達AI小數據

2020-12-25 15:34:35

AI 數據人工智能

2022-02-21 13:57:47

人工智能小數據機器學習

2024-08-20 14:28:15

2017-03-22 13:34:42

離職百度吳恩達

2017-01-12 15:35:07

人工智能學習機器

2024-01-02 13:17:00

模型訓練

2022-12-29 13:32:05

AI發展
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩一区二区三区在线观看 | 日本不卡一区二区三区在线观看 | 激情婷婷| 91精品久久久| hitomi一区二区三区精品 | a精品视频| 天天操人人干 | 成人妇女免费播放久久久 | 久久亚洲国产精品 | 国产伊人精品 | 古装三级在线播放 | 欧美一级片在线观看 | 中文字幕亚洲精品 | 91精品国产乱码久久久久久久久 | 日本一区二区三区免费观看 | 一区二区中文 | 日韩欧美在线一区 | 亚洲国产精品99久久久久久久久 | 成人精品鲁一区一区二区 | 久久亚洲一区二区 | 国产日韩久久 | 久久伊人影院 | 国产不卡一区 | 欧美网址在线观看 | 亚洲欧美中文日韩在线v日本 | 综合激情av | 天堂在线一区 | 亚洲天堂男人的天堂 | 精品视频在线播放 | 精品久久久久久久人人人人传媒 | 天天弄天天操 | 亚洲成人自拍 | 一区二区日韩 | 精品国产三级 | 日本久久综合 | 91色综合| 精品国产欧美一区二区三区成人 | 91久久综合亚洲鲁鲁五月天 | 国产成在线观看免费视频 | 日日摸天天添天天添破 | av看看|