成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4教會(huì)機(jī)器手轉(zhuǎn)筆、玩魔方!RL社區(qū)震驚:LLM設(shè)計(jì)獎(jiǎng)勵(lì)竟能超越人類?

人工智能
來自英偉達(dá)等機(jī)構(gòu)的研究者,竟然讓GPT-4教會(huì)機(jī)器人轉(zhuǎn)筆、玩魔方?通過編碼大語言模型,可以完成超越人類水平的獎(jiǎng)勵(lì)設(shè)計(jì),整個(gè)RL社區(qū)都震驚了。

GPT-4,竟然教會(huì)機(jī)器人轉(zhuǎn)筆了!

圖片圖片

英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專家提出一個(gè)開放式Agent——Eureka,它是一個(gè)開放式Agent,為超人類水平的機(jī)器人靈巧性設(shè)計(jì)了獎(jiǎng)勵(lì)功能。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2310.12931.pdf

項(xiàng)目鏈接:https://eureka-research.github.io/

代碼鏈接:https://github.com/eureka-research/Eureka

作者之一的英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此點(diǎn)評(píng)道:這簡直就像物理模擬器API空間中的旅行者空間探測器!

圖片圖片

以往,LLM和機(jī)器人結(jié)合的應(yīng)用案例,往往是讓大模型幫助機(jī)器人規(guī)劃高級(jí)任務(wù)。比如,讓LLM告訴機(jī)器人,把大象裝進(jìn)冰箱需要3步,打開冰箱,把大象放進(jìn)去,再關(guān)上冰箱門。

然而控制機(jī)器人完成打開冰箱,放置大象,和關(guān)上冰箱門這3個(gè)具體的低級(jí)動(dòng)作,機(jī)器人需要依靠其他的方式來控制完成。

圖片圖片

但是英偉達(dá)等機(jī)構(gòu)的研究人員開發(fā)出的Eureka系統(tǒng),可以讓GPT-4直接教機(jī)器人完成基本的動(dòng)作。

具體來說,它是一個(gè)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法,充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力,產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過強(qiáng)化學(xué)習(xí)來讓機(jī)器人獲得復(fù)雜的具體技能。

圖片圖片

在沒有任何特定于任務(wù)的提示或預(yù)定義的獎(jiǎng)勵(lì)模板的情況下,Eureka生成的獎(jiǎng)勵(lì)函數(shù)的質(zhì)量,已經(jīng)能夠超過人類專家設(shè)計(jì)的獎(jiǎng)勵(lì)!

從此,LLM+機(jī)器人又有了新玩法。

同往常一樣,代碼是開源的。

圖片圖片

全體RL社區(qū),起立!

AI學(xué)者驚呼:全體RL社區(qū)都應(yīng)該對(duì)Eureka論文感到敬畏和震驚。

圖片圖片

如果按他們的方法一遍一遍重復(fù),RL會(huì)在不同的任務(wù)中取得超越人類的成功,并且完全不需要人工干預(yù)!

幾年前,RL似乎讓業(yè)界有野心實(shí)現(xiàn)AGI,但后來發(fā)生的事情,讓RL被降級(jí)為蛋糕上的櫻桃,而LLM一直是那塊缺失的拼圖。

如今,基于自我改進(jìn)的正反饋循環(huán)很可能即將到來,進(jìn)而讓我們擁有超越人類的訓(xùn)練數(shù)據(jù)和能力。

Jim Fan還表示,Eureka可以應(yīng)用機(jī)器人之外的許多場景,比如動(dòng)畫和游戲。

圖片圖片

動(dòng)畫即是控制虛擬世界中的角色,這是勞動(dòng)密集型的工作:工作室讓藝術(shù)家用手畫每一幀,或者讓演員做MoCap。即便如此,動(dòng)作也是靜態(tài)數(shù)據(jù),無法對(duì)動(dòng)態(tài)變化的環(huán)境做出反應(yīng)。


而Eureka是通用的,提供了一種快速擴(kuò)展物理逼真和響應(yīng)式動(dòng)畫的方法。它可以成為藝術(shù)家的copilot,通過自然語言界面創(chuàng)造新的靈巧技能。而且,游戲甚至可以通過使用臨時(shí)獎(jiǎng)勵(lì)功能微調(diào)控制器,來動(dòng)態(tài)生成行為。

圖片圖片

《艾爾登法環(huán)》的Boss戰(zhàn)中,女神瑪蓮妮亞標(biāo)志性的「水鳥亂舞」動(dòng)作不知道需要多少天的手工工作

在編碼和電機(jī)控制之間,架起橋梁

Eureka在高級(jí)推理(編碼)和低級(jí)電機(jī)控制之間,架起了一座橋梁,彌合了差距。

它是一種「混合梯度架構(gòu)」:一個(gè)黑盒、純推理的LLM指導(dǎo)一個(gè)白盒、可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。

外循環(huán)運(yùn)行 GPT-4 以優(yōu)化獎(jiǎng)勵(lì)函數(shù)(無梯度),而內(nèi)循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)以訓(xùn)練機(jī)器人控制器(基于梯度)。

圖片圖片

研究者之所以能擴(kuò)大Eureka的規(guī)模,這要?dú)w功于IsaacGym,這是一款GPU加速的物理模擬器,可將現(xiàn)實(shí)速度提高1000倍。

在10個(gè)機(jī)器人執(zhí)行的29項(xiàng)基準(zhǔn)任務(wù)中,Eureka在83%的任務(wù)中獲得的獎(jiǎng)勵(lì)超過了人類編寫的專家獎(jiǎng)勵(lì),平均提高幅度達(dá)52%。

Eureka獎(jiǎng)勵(lì)和策略

研究人員展示了Eureka設(shè)計(jì)的獎(jiǎng)勵(lì)以及使用這些獎(jiǎng)勵(lì)為每個(gè)環(huán)境訓(xùn)練的策略:

在兩個(gè)開源基準(zhǔn)測試:Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中,Eureka針對(duì)10個(gè)機(jī)器人和29個(gè)獨(dú)立任務(wù)設(shè)計(jì)了獎(jiǎng)勵(lì)。

圖片圖片

最讓人驚訝的是,Eureka竟然學(xué)會(huì)了轉(zhuǎn)筆!要知道,即使是CGI藝術(shù)家,也很難把它逐幀制作成動(dòng)畫。

圖片圖片

網(wǎng)格中心的視頻展示的是筆的旋轉(zhuǎn)軸垂直于手掌,將筆平行與手掌進(jìn)行旋轉(zhuǎn)(經(jīng)典的轉(zhuǎn)筆動(dòng)作)。此外,研究人員還訓(xùn)練了圍繞不同軸轉(zhuǎn)筆的其他幾種變體。

并且,Eureka還實(shí)現(xiàn)了一種新形式的上下文RLHF,它能將人類操作員的自然語言反饋納入其中,以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。

而且,機(jī)器人工程師設(shè)計(jì)復(fù)雜的運(yùn)動(dòng)行為時(shí),這種RLHF還可以提供強(qiáng)大的co-pilot功能。

在機(jī)器人學(xué)習(xí)中,大語言模型一直擅長的是生成高級(jí)計(jì)劃和中級(jí)動(dòng)作,比如拾取和放置(VIMA、RT-1 等),但在復(fù)雜的高頻運(yùn)動(dòng)控制上,LLM就有所欠缺了。

而Eureka時(shí)刻通過編碼實(shí)現(xiàn)了獎(jiǎng)勵(lì)功能,這是LLM學(xué)習(xí)靈巧技能的關(guān)鍵入口。

Eureka的構(gòu)成組件

Eureka通過在上下文中發(fā)展獎(jiǎng)勵(lì)功能,實(shí)現(xiàn)了人類水平的獎(jiǎng)勵(lì)設(shè)計(jì)。

它有3個(gè)關(guān)鍵組成部分。

圖片圖片

  1. 模擬器環(huán)境代碼作為上下文,快速啟動(dòng)初始「種子」獎(jiǎng)勵(lì)函數(shù)。
  2. GPU上的大規(guī)模并行RL,可以快速評(píng)估大量候選獎(jiǎng)勵(lì)。
  3. 獎(jiǎng)勵(lì)反射可在上下文中產(chǎn)生有針對(duì)性的獎(jiǎng)勵(lì)突變。

將原始環(huán)境用作LLM上下文

首先,通過使用原始的IsaacGym環(huán)境代碼作為上下文,Eureka已經(jīng)可以生成可用的獎(jiǎng)勵(lì)程序,而無需任何特定任務(wù)的提示工程。

這就使得Eureka成為一個(gè)開放式的通用獎(jiǎng)勵(lì)設(shè)計(jì)師,在第一次嘗試時(shí)就可以輕松地為所有的環(huán)境生成獎(jiǎng)勵(lì)函數(shù)。

圖片圖片

其次,Eureka 會(huì)在每個(gè)進(jìn)化步驟中生成許多候選獎(jiǎng)勵(lì),然后使用完整的RL訓(xùn)練循環(huán)對(duì)其進(jìn)行評(píng)估。

通常,這個(gè)過程非常緩慢,可能需要幾天甚至幾周。

而有了英偉達(dá)的GPU原生機(jī)器人訓(xùn)練平臺(tái)IsaacGym (https://developer.nvidia.com/isaac-gym),這一規(guī)??梢匝杆贁U(kuò)大,將模擬時(shí)間提高了1000倍。

現(xiàn)在,RL內(nèi)循環(huán)可以在幾分鐘內(nèi)完成!

Eureka獎(jiǎng)勵(lì)反思(Reward Reflection)

Eureka依賴于獎(jiǎng)勵(lì)反思,這是對(duì)RL訓(xùn)練的自動(dòng)文本總結(jié)。

因?yàn)镚PT-4在上下文代碼修復(fù)上的卓越能力,使得Eureka能夠執(zhí)行有針對(duì)性的獎(jiǎng)勵(lì)突變。

圖片圖片

實(shí)驗(yàn)

研究人員在一系列不同的機(jī)器人實(shí)施例和任務(wù)上對(duì) Eureka 進(jìn)行了全面評(píng)估,測試其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)以及整合各種形式的人類輸入的能力。

研究人員的環(huán)境由10 個(gè)不同的機(jī)器人和使用IsaacGym模擬器執(zhí)行的29個(gè)任務(wù)組成。

首先,研究人員包括來自 IsaacGym (Isaac) 的 9 個(gè)原始環(huán)境,涵蓋從四足、雙足、四旋翼、協(xié)作機(jī)器人手臂到靈巧手的各種機(jī)器人形態(tài)。

除了囊括了機(jī)器人外形尺寸之外,研究人員還通過納入Dexterity基準(zhǔn)測試中的所有 20 項(xiàng)任務(wù)來確保評(píng)估的深度。

Dexterity包含20項(xiàng)復(fù)雜的雙手動(dòng)任務(wù),需要一雙影子手來解決各種復(fù)雜的具體操作技能,從物體交接到將杯子旋轉(zhuǎn)180度。

評(píng)估結(jié)果

圖片圖片

Eureka可以生成超人類水平的獎(jiǎng)勵(lì)函數(shù)

在29項(xiàng)任務(wù)中,Eureka生成的獎(jiǎng)勵(lì)在83%的任務(wù)上表現(xiàn)優(yōu)于人類專家編寫的獎(jiǎng)勵(lì),平均標(biāo)準(zhǔn)化提升為52%。

特別是,Eureka在高維Dexterity環(huán)境中實(shí)現(xiàn)了更大的收益。

圖片圖片

Eureka進(jìn)化獎(jiǎng)勵(lì)搜索可以隨著時(shí)間的推移實(shí)現(xiàn)持續(xù)的獎(jiǎng)勵(lì)改進(jìn)

Eureka通過將大規(guī)模獎(jiǎng)勵(lì)搜索與詳細(xì)獎(jiǎng)勵(lì)反思反饋相結(jié)合,逐步產(chǎn)生更好的獎(jiǎng)勵(lì),最終超過人類水平。

Eureka生成的原創(chuàng)性獎(jiǎng)勵(lì)

圖片圖片

研究人員通過計(jì)算所有Isaac任務(wù)上的Eureka和人類獎(jiǎng)勵(lì)之間的相關(guān)性來評(píng)估Eureka獎(jiǎng)勵(lì)的新穎性。

如上圖所示,Eureka主要生成弱相關(guān)的獎(jiǎng)勵(lì)函數(shù),其表現(xiàn)優(yōu)于人類的獎(jiǎng)勵(lì)函數(shù)。

此外,研究人員觀察到任務(wù)越難,Eureka獎(jiǎng)勵(lì)的相關(guān)性就越小。在某些情況下,Eureka獎(jiǎng)勵(lì)甚至與人類獎(jiǎng)勵(lì)呈負(fù)相關(guān),但表現(xiàn)卻明顯優(yōu)于人類獎(jiǎng)勵(lì)。

通過課程學(xué)習(xí)來教會(huì)靈巧轉(zhuǎn)筆

圖片圖片

轉(zhuǎn)筆任務(wù)需要影子手不斷旋轉(zhuǎn)筆,以實(shí)現(xiàn)一些預(yù)定義的旋轉(zhuǎn)模式,完成盡可能多的循環(huán)。

圖片圖片

研究人員通過以下方式解決此任務(wù):

(1)指示 Eureka 生成獎(jiǎng)勵(lì)函數(shù),用于將筆重新定向到隨機(jī)目標(biāo)配置,然后

(2)使用 Eureka 獎(jiǎng)勵(lì)微調(diào)此預(yù)訓(xùn)練策略以達(dá)到所需的筆序列-旋轉(zhuǎn)配置。

如圖所示,Eureka微調(diào)很快就適應(yīng)了策略,成功地連續(xù)旋轉(zhuǎn)了許多個(gè)周期。相比之下,預(yù)訓(xùn)練或從頭開始學(xué)習(xí)的策略連單個(gè)周期都無法完成。

圖片圖片

5次查詢,教會(huì)人形機(jī)器人穩(wěn)定地跑步!

Eureka能否根據(jù)人類反饋進(jìn)行調(diào)整呢?

目前為止,Eureka可以通過環(huán)境反饋全自動(dòng)運(yùn)行。

為了捕捉人類的細(xì)微偏好,Eureka還可以使用自然語言反饋來共同引導(dǎo)獎(jiǎng)勵(lì)設(shè)計(jì)。

這就產(chǎn)生了一種新穎的無梯度情境下的RLHF。

圖片圖片

帶有人類反饋的Eureka只用了5次查詢,就教會(huì)了人形機(jī)器人如何穩(wěn)定地跑步!

圖片圖片

而在沒有RLHF前,人形機(jī)器人是這樣跑步的。

圖片圖片

參考資料:

https://eureka-research.github.io/

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2025-05-30 07:40:56

2020-04-15 17:14:14

戴爾

2023-10-21 21:14:00

AI模型

2011-12-21 10:54:23

Apple應(yīng)用設(shè)計(jì)iOS

2012-06-01 14:49:07

豌豆莢設(shè)計(jì)獎(jiǎng)Tawkon

2023-03-26 21:03:54

GPT-4人工智能

2013-06-13 14:24:29

蘋果WWDC2013

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-05-20 08:40:00

2023-06-19 08:19:50

2023-10-22 20:14:08

人工智能GPT-4

2012-06-13 13:24:01

Between豌豆莢設(shè)計(jì)獎(jiǎng)

2025-04-16 09:35:03

2023-11-02 12:10:00

AI訓(xùn)練

2023-05-05 09:42:12

2012-06-20 16:24:11

Cubie Messe豌豆莢設(shè)計(jì)獎(jiǎng)

2023-11-06 12:46:00

AI數(shù)據(jù)

2023-10-08 13:11:00

訓(xùn)練數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产一区视频在线 | 久久久精 | 亚洲啪啪| 成人免费区一区二区三区 | 91日b| va精品| 久久精品视频免费观看 | www.日韩 | 99精品国自产在线 | 亚洲精品在线视频 | 日韩欧美天堂 | 综合二区 | 亚洲久久 | 九九综合 | 91在线色视频 | 成人免费看 | 国产精品一区在线 | 国产一区二区三区 | 91在线观| av香蕉| 99精品免费| 夜夜草| 九九综合 | 久久乐国产精品 | 欧产日产国产精品视频 | 久久成人精品一区二区三区 | 国产精品欧美一区二区三区 | 日本a在线 | 欧美视频福利 | www.日本国产| 一级黄色片在线免费观看 | 欧美视频第三页 | 我我色综合 | 综合网在线 | 久久综合伊人 | 色综合色综合网色综合 | 国产伊人精品 | 亚洲影视在线 | 久久久成人免费一区二区 | av中文字幕在线 | 国产69精品久久99不卡免费版 |