成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

從觀察、思考到行動,深度強化學習大牛Pieter Abbeel談如何馴服機器人

人工智能 新聞
最近,ACM 邀請到 Pieter Abbeel,聊一聊有關(guān)他的工作,以及那些他為更輕松「教」機器人學習而開發(fā)的技術(shù)。

人類的大腦具有學習新事物的能力,而且學習方式多種多樣,從模仿他人到觀看在線解說視頻,不一而足。如果機器人也能這樣做呢?2021 年 ACM 計算獎獲得者 Pieter Abbeel 的職業(yè)生涯一直在研究這個問題。

Pieter Abbeel 是 Covariant 的創(chuàng)始人之一。Covariant 是一家人工智能機器人公司,致力于構(gòu)建一個通用的人工智能,使機器人能夠在現(xiàn)實世界中學習和操作,以協(xié)助人類完成繁重和勞累的任務(wù),尤其是在倉儲和物流行業(yè)中。

圖片

Covariant 的創(chuàng)始人陳曦、Pieter Abbeel、段巖、張?zhí)旌疲◤淖蟮接遥?/span>

通過與倉儲公司的合作,Covariant 的核心技術(shù)「Covariant Brain」能夠接觸到大量現(xiàn)實生活中物體,從數(shù)百萬次的拾取任務(wù)中學習。Covariant Brain 能夠使機器人看、思考并行動。在學習過程中不僅學習既有動作,還通過學會如何學習(元學習)來抓取任何不熟悉的物品,無論形狀、大小或包裝如何。

最近,ACM 邀請到 Pieter Abbeel,聊一聊有關(guān)他的工作,以及那些他為更輕松「教」機器人學習而開發(fā)的技術(shù)。以下為機器之心對本次訪談進行了不改變原意的編譯與整理。

ACM:讓我們從深度強化學習和你開發(fā)的名為 「信賴域策略優(yōu)化 」的方法開始。這種方法是如何工作的,你又是如何開發(fā)出來的?

Pieter Abbeel:過去,要把機器人放在某個地方,比如汽車廠或電子廠。這時你需要把機器人周圍的環(huán)境布置好,讓一切以完全相同的方式重復一遍又一遍。然后,用某種固定的動作序列對機器人進行編程,這樣就能完成任務(wù)了。這對于結(jié)構(gòu)化的環(huán)境非常有效,但當在可預測性稍差的環(huán)境中,我們就無能為力了。

我一直認為,當機器人能夠適應不同環(huán)境時,就會發(fā)生重大變革。而要做到這一點,就意味著機器人必須具備學習能力。

ACM:那么如何讓機器人學習呢?

Pieter Abbeel:這是我取得博士學位之后一直在研究的問題。從根本上說,主要有兩種方法,它們相輔相成:一種是模仿學習或?qū)W徒學習,另一種是強化學習。

在模仿學習中,你告訴機器人該做什么,機器人就會從你的例子中學會做這件事。這很好,因為當你想讓機器人做某件事時,你通常較為準確地知道需要它做些什么。但挑戰(zhàn)在于,你需要給機器人提供大量的示例,這樣它才能在面對新場景時進行歸納總結(jié),并完成任務(wù)。這可能會變得非常耗時,并且一旦環(huán)境發(fā)生變化,總會有一些內(nèi)容超出你所給出例子的范圍。

ACM:強化學習是什么?

Pieter Abbeel:強化學習是關(guān)于試錯的。在這種方法中,不需要向機器人展示該做什么,機器人只是不斷嘗試,然后系統(tǒng)會告訴它是否成功。因此原則上,你需要先通過模仿學習向機器人展示該做什么,然后讓機器人不斷試錯,從而學習。

ACM:2012 年,ACM 圖靈獎獲得者 Geoff Hinton 證明,只要有足夠的視覺數(shù)據(jù),深度神經(jīng)網(wǎng)絡(luò)在訓練后就能表現(xiàn)出前所未有的模式識別能力。我想這啟發(fā)了你,使你的強化學習框架中的模式識別功能更加強大。

Pieter Abbeel:在強化學習中,機器人會自己做一些事情,但它仍然需要識別好的運行模式與差的運行模式有何不同。我和我的學生 John Schulman 開始嘗試使用深度神經(jīng)網(wǎng)絡(luò),看看能否改進強化學習算法中的模式識別器。但事實證明,強化學習算法比標準的監(jiān)督學習要脆弱得多。在監(jiān)督學習中,有一個輸入,輸出是一個標簽,你只需要識別模式。而在強化學習中,機器人需要在從未運行過的情況下學會運行。在這過程中,信號不多,噪音很大。

ACM:因此,你嘗試既要提高模式識別,又要讓算法更加穩(wěn)定。

Pieter Abbeel:我們需要能夠保證機器人在持續(xù)改進。如果機器人觀察最近的經(jīng)驗,它將更新模式識別器。而模式識別器是一種神經(jīng)網(wǎng)絡(luò)策略,用于接收當前的傳感器輸入并生成電機指令。我們知道,如果能想出一種方法讓機器人在每一步都能持續(xù)改進,那么就有了利用這些龐大神經(jīng)網(wǎng)絡(luò)進行強化學習的真正基礎(chǔ)。

ACM:這就是信賴域策略優(yōu)化的作用所在了。

Pieter Abbeel:在傳統(tǒng)強化學習中,我們會進行一系列試驗,然后計算梯度,找出進步最大的方向。信賴域策略優(yōu)化定義了一個信賴區(qū)域:一個我們知道可以信賴梯度的區(qū)域。梯度是 landscape 的一階線性近似值。我們知道 landscape 不是線性的,但在局部它能夠以這種方式近似為線性。因此,我和 John Schulman 想出了一種方法,來量化可以信賴這種線性近似的區(qū)域。接下來,我們只需在該區(qū)域內(nèi)邁出一步,就能保證改進效果。

ACM:重復這樣做,你就為強化訓練打下了值得信賴的基礎(chǔ)。

Pieter Abbeel:沒錯!我們在 YouTube 上有一段視頻 ,你可以在視頻中看到整個過程。機器人只是不斷嘗試,不斷摔倒,但隨著時間的推移,它真的開始運行了。學習的妙處在于,一旦你有了學習算法,你就不需要重新編程,只需再次運行學習算法,它就能學會在新情況下需要什么。

視頻來源:https://bit.ly/3nZrQhs

ACM:你創(chuàng)立的公司 Covariant 正試圖通過制造一個通用的機器人大腦來商業(yè)化這個想法。

Pieter Abbeel:我們的目標是提出一種方法,使機器人能夠在學習什么以及如何學習方面通用。當然,機器人不能通過學習過操作堆樂高積木然后學會飛行,堆積木并不是學習飛行的正確數(shù)據(jù)集,但是代碼可以是相同的。就像人類學習如何騎自行車或駕駛汽車,在人腦中,思路都是一樣的。

ACM:Covariant 也在為商業(yè)應用構(gòu)建機器人,特別是倉儲取放機器人。

Pieter Abbeel:我們可以賦予機器人超越預先編程的固定動作序列的新技能,即使它們不是完全通用的。從我們的學術(shù)研究中我們知道這是可能的,我們開始考慮創(chuàng)建 Covariant。我們想到,機器人現(xiàn)在應該具備有用性。另外,我們的產(chǎn)品開發(fā)是數(shù)據(jù)驅(qū)動的,如果想要收集大量的數(shù)據(jù),則需要制造出真正能激發(fā)人們購買需要的機器人。

ACM:當你在 2017 年創(chuàng)建 Covariant 時,自動駕駛汽車獲得了大量的資金。是什么吸引了投入倉儲取放機器人?

Pieter Abbeel:我們希望找到一個領(lǐng)域,它不需要實時干預,而是在極少數(shù)情況下才需要人工支持。實時人工干預很昂貴,無法體現(xiàn)機器人做事的價值。使用機器人操作,你仍然需要非常高的精度,但一旦機器人沒有像預期的那樣運行,就會有人介入并進行快速修復。

我們研究了許多不同的公司、行業(yè)和應用,最后我們把目光集中在倉儲上,因為它似乎是一個自然而然的起點,原因有二。首先,取放是機器人幾乎所有操作的基礎(chǔ)。第二,這是一個快速發(fā)展的行業(yè),真正需要自動化來支持我們所有的在線傳送。在拾取和放置過程中沒有自動化,這種非常重復的工作是對人類來說是很傷腦筋的。

ACM:你還與人共同教授一門關(guān)于 AI 業(yè)務(wù)的課程。你從向非專業(yè)人士教授 AI 中發(fā)現(xiàn)了什么?

Pieter Abbeel:我決定教授這門課程的原因之一是,我認為對 AI 的基本了解對做出商業(yè)決策很重要。許多公司將以某種方式使用 AI 人工智能,無論是在內(nèi)部開發(fā)還是購買某種服務(wù)。商業(yè)專業(yè)的學生必須能夠理解今天可能發(fā)生的事情,以及在不久的將來可能發(fā)生的事情,以及如何評估不同的系統(tǒng)。

這很有趣,因為對于從未真正研究過 AI 的人來說,這有點像解釋一個魔術(shù)。就其核心而言,AI 是很好解釋的。如果你想把它推向下一個技術(shù)前沿,你需要大量的訓練,但理解基本概念并不需要多年的學習。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2022-07-24 19:24:32

機器學習預訓練模型機器人

2025-04-17 09:12:00

2025-04-09 09:34:00

2023-07-20 15:18:42

2020-09-02 10:36:52

機器人人工智能系統(tǒng)

2023-12-03 22:08:41

深度學習人工智能

2024-09-05 08:23:58

2023-10-09 12:36:25

AI模型

2024-04-15 08:20:00

機器人技能

2023-11-01 19:17:05

特斯拉機器人Optimus

2023-04-25 11:44:36

垃圾分類AI

2023-09-21 10:29:01

AI模型

2025-04-25 13:34:53

R1DeepSeekAgent

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2025-04-27 08:55:00

2022-03-25 10:35:20

機器學習深度學習強化學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2021-10-11 09:51:38

谷歌人工智能強化學習

2021-02-05 10:18:07

深度學習機器人通用人工智能

2021-07-22 10:17:55

加密機器人加密貨幣機器人
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 男女免费网站 | 91欧美| 免费看片在线播放 | 色视频在线播放 | 久久国产视频网站 | 久久久久一区二区三区 | 影音先锋中文字幕在线观看 | 99精品国产一区二区三区 | 国产精品女人久久久 | 成人免费区一区二区三区 | 国产综合久久 | 国产激情视频在线观看 | 人人性人人性碰国产 | 久久久成人动漫 | 亚洲美女在线一区 | www国产成人| 久久久精品一区 | 激情视频一区 | 国产高清在线精品一区二区三区 | 国产.com| 婷婷色婷婷 | 91亚洲免费 | 久久com| 日本久久视频 | 伊人久久一区二区 | 欧美日韩在线观看视频 | 亚洲视频在线免费观看 | 龙珠z在线观看 | 国产一卡二卡三卡 | 天堂av影院 | 欧美a∨ | 国产一区二区三区四区三区四 | 美女黄网 | 久久久91精品国产一区二区三区 | 成人影视网址 | 亚洲精品欧美 | 国产1区2区在线观看 | 视频在线一区二区 | 国产特级毛片aaaaaa喷潮 | 欧美精品中文字幕久久二区 | 欧美精品成人一区二区三区四区 |