GPT-4教會(huì)機(jī)器手轉(zhuǎn)筆、玩魔方！RL社區(qū)震驚：LLM設(shè)計(jì)獎(jiǎng)勵(lì)竟能超越人類？

2023-10-23 13:31:37

來自英偉達(dá)等機(jī)構(gòu)的研究者，竟然讓GPT-4教會(huì)機(jī)器人轉(zhuǎn)筆、玩魔方？通過編碼大語言模型，可以完成超越人類水平的獎(jiǎng)勵(lì)設(shè)計(jì)，整個(gè)RL社區(qū)都震驚了。

GPT-4，竟然教會(huì)機(jī)器人轉(zhuǎn)筆了！

圖片

英偉達(dá)、賓大、加州理工、德州奧斯汀等機(jī)構(gòu)的專家提出一個(gè)開放式Agent——Eureka，它是一個(gè)開放式Agent，為超人類水平的機(jī)器人靈巧性設(shè)計(jì)了獎(jiǎng)勵(lì)功能。

圖片

論文鏈接：https://arxiv.org/pdf/2310.12931.pdf

項(xiàng)目鏈接：https://eureka-research.github.io/

代碼鏈接：https://github.com/eureka-research/Eureka

作者之一的英偉達(dá)高級(jí)科學(xué)家Jim Fan對(duì)此點(diǎn)評(píng)道：這簡直就像物理模擬器API空間中的旅行者空間探測器！

圖片

以往，LLM和機(jī)器人結(jié)合的應(yīng)用案例，往往是讓大模型幫助機(jī)器人規(guī)劃高級(jí)任務(wù)。比如，讓LLM告訴機(jī)器人，把大象裝進(jìn)冰箱需要3步，打開冰箱，把大象放進(jìn)去，再關(guān)上冰箱門。

然而控制機(jī)器人完成打開冰箱，放置大象，和關(guān)上冰箱門這3個(gè)具體的低級(jí)動(dòng)作，機(jī)器人需要依靠其他的方式來控制完成。

圖片

但是英偉達(dá)等機(jī)構(gòu)的研究人員開發(fā)出的Eureka系統(tǒng)，可以讓GPT-4直接教機(jī)器人完成基本的動(dòng)作。

具體來說，它是一個(gè)GPT-4加持的獎(jiǎng)勵(lì)設(shè)計(jì)算法，充分利用了GPT-4優(yōu)秀的零樣本生成、代碼生成和上下文學(xué)習(xí)的能力，產(chǎn)生的獎(jiǎng)勵(lì)可以用于通過強(qiáng)化學(xué)習(xí)來讓機(jī)器人獲得復(fù)雜的具體技能。

圖片

在沒有任何特定于任務(wù)的提示或預(yù)定義的獎(jiǎng)勵(lì)模板的情況下，Eureka生成的獎(jiǎng)勵(lì)函數(shù)的質(zhì)量，已經(jīng)能夠超過人類專家設(shè)計(jì)的獎(jiǎng)勵(lì)！

從此，LLM+機(jī)器人又有了新玩法。

同往常一樣，代碼是開源的。

圖片

全體RL社區(qū)，起立！

AI學(xué)者驚呼：全體RL社區(qū)都應(yīng)該對(duì)Eureka論文感到敬畏和震驚。

圖片

如果按他們的方法一遍一遍重復(fù)，RL會(huì)在不同的任務(wù)中取得超越人類的成功，并且完全不需要人工干預(yù)！

幾年前，RL似乎讓業(yè)界有野心實(shí)現(xiàn)AGI，但后來發(fā)生的事情，讓RL被降級(jí)為蛋糕上的櫻桃，而LLM一直是那塊缺失的拼圖。

如今，基于自我改進(jìn)的正反饋循環(huán)很可能即將到來，進(jìn)而讓我們擁有超越人類的訓(xùn)練數(shù)據(jù)和能力。

Jim Fan還表示，Eureka可以應(yīng)用機(jī)器人之外的許多場景，比如動(dòng)畫和游戲。

圖片

動(dòng)畫即是控制虛擬世界中的角色，這是勞動(dòng)密集型的工作：工作室讓藝術(shù)家用手畫每一幀，或者讓演員做MoCap。即便如此，動(dòng)作也是靜態(tài)數(shù)據(jù)，無法對(duì)動(dòng)態(tài)變化的環(huán)境做出反應(yīng)。

而Eureka是通用的，提供了一種快速擴(kuò)展物理逼真和響應(yīng)式動(dòng)畫的方法。它可以成為藝術(shù)家的copilot，通過自然語言界面創(chuàng)造新的靈巧技能。而且，游戲甚至可以通過使用臨時(shí)獎(jiǎng)勵(lì)功能微調(diào)控制器，來動(dòng)態(tài)生成行為。

圖片

《艾爾登法環(huán)》的Boss戰(zhàn)中，女神瑪蓮妮亞標(biāo)志性的「水鳥亂舞」動(dòng)作不知道需要多少天的手工工作

在編碼和電機(jī)控制之間，架起橋梁

Eureka在高級(jí)推理（編碼）和低級(jí)電機(jī)控制之間，架起了一座橋梁，彌合了差距。

它是一種「混合梯度架構(gòu)」：一個(gè)黑盒、純推理的LLM指導(dǎo)一個(gè)白盒、可學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。

外循環(huán)運(yùn)行 GPT-4 以優(yōu)化獎(jiǎng)勵(lì)函數(shù)（無梯度），而內(nèi)循環(huán)運(yùn)行強(qiáng)化學(xué)習(xí)以訓(xùn)練機(jī)器人控制器（基于梯度）。

圖片

研究者之所以能擴(kuò)大Eureka的規(guī)模，這要?dú)w功于IsaacGym，這是一款GPU加速的物理模擬器，可將現(xiàn)實(shí)速度提高1000倍。

在10個(gè)機(jī)器人執(zhí)行的29項(xiàng)基準(zhǔn)任務(wù)中，Eureka在83%的任務(wù)中獲得的獎(jiǎng)勵(lì)超過了人類編寫的專家獎(jiǎng)勵(lì)，平均提高幅度達(dá)52%。

Eureka獎(jiǎng)勵(lì)和策略

研究人員展示了Eureka設(shè)計(jì)的獎(jiǎng)勵(lì)以及使用這些獎(jiǎng)勵(lì)為每個(gè)環(huán)境訓(xùn)練的策略：

在兩個(gè)開源基準(zhǔn)測試：Isaac Gym (Isaac) 和Bidexterous Manipulation (Dexterity)中，Eureka針對(duì)10個(gè)機(jī)器人和29個(gè)獨(dú)立任務(wù)設(shè)計(jì)了獎(jiǎng)勵(lì)。

圖片

最讓人驚訝的是，Eureka竟然學(xué)會(huì)了轉(zhuǎn)筆！要知道，即使是CGI藝術(shù)家，也很難把它逐幀制作成動(dòng)畫。

圖片

網(wǎng)格中心的視頻展示的是筆的旋轉(zhuǎn)軸垂直于手掌，將筆平行與手掌進(jìn)行旋轉(zhuǎn)（經(jīng)典的轉(zhuǎn)筆動(dòng)作）。此外，研究人員還訓(xùn)練了圍繞不同軸轉(zhuǎn)筆的其他幾種變體。

并且，Eureka還實(shí)現(xiàn)了一種新形式的上下文RLHF，它能將人類操作員的自然語言反饋納入其中，以引導(dǎo)和調(diào)整獎(jiǎng)勵(lì)功能。

而且，機(jī)器人工程師設(shè)計(jì)復(fù)雜的運(yùn)動(dòng)行為時(shí)，這種RLHF還可以提供強(qiáng)大的co-pilot功能。

在機(jī)器人學(xué)習(xí)中，大語言模型一直擅長的是生成高級(jí)計(jì)劃和中級(jí)動(dòng)作，比如拾取和放置（VIMA、RT-1 等），但在復(fù)雜的高頻運(yùn)動(dòng)控制上，LLM就有所欠缺了。

而Eureka時(shí)刻通過編碼實(shí)現(xiàn)了獎(jiǎng)勵(lì)功能，這是LLM學(xué)習(xí)靈巧技能的關(guān)鍵入口。

Eureka的構(gòu)成組件

Eureka通過在上下文中發(fā)展獎(jiǎng)勵(lì)功能，實(shí)現(xiàn)了人類水平的獎(jiǎng)勵(lì)設(shè)計(jì)。

它有3個(gè)關(guān)鍵組成部分。

圖片

模擬器環(huán)境代碼作為上下文，快速啟動(dòng)初始「種子」獎(jiǎng)勵(lì)函數(shù)。
GPU上的大規(guī)模并行RL，可以快速評(píng)估大量候選獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)反射可在上下文中產(chǎn)生有針對(duì)性的獎(jiǎng)勵(lì)突變。

將原始環(huán)境用作LLM上下文

首先，通過使用原始的IsaacGym環(huán)境代碼作為上下文，Eureka已經(jīng)可以生成可用的獎(jiǎng)勵(lì)程序，而無需任何特定任務(wù)的提示工程。

這就使得Eureka成為一個(gè)開放式的通用獎(jiǎng)勵(lì)設(shè)計(jì)師，在第一次嘗試時(shí)就可以輕松地為所有的環(huán)境生成獎(jiǎng)勵(lì)函數(shù)。

圖片

其次，Eureka 會(huì)在每個(gè)進(jìn)化步驟中生成許多候選獎(jiǎng)勵(lì)，然后使用完整的RL訓(xùn)練循環(huán)對(duì)其進(jìn)行評(píng)估。

通常，這個(gè)過程非常緩慢，可能需要幾天甚至幾周。

而有了英偉達(dá)的GPU原生機(jī)器人訓(xùn)練平臺(tái)IsaacGym (https://developer.nvidia.com/isaac-gym)，這一規(guī)?？梢匝杆贁U(kuò)大，將模擬時(shí)間提高了1000倍。

現(xiàn)在，RL內(nèi)循環(huán)可以在幾分鐘內(nèi)完成！

Eureka獎(jiǎng)勵(lì)反思（Reward Reflection）

Eureka依賴于獎(jiǎng)勵(lì)反思，這是對(duì)RL訓(xùn)練的自動(dòng)文本總結(jié)。

因?yàn)镚PT-4在上下文代碼修復(fù)上的卓越能力，使得Eureka能夠執(zhí)行有針對(duì)性的獎(jiǎng)勵(lì)突變。

圖片

實(shí)驗(yàn)

研究人員在一系列不同的機(jī)器人實(shí)施例和任務(wù)上對(duì) Eureka 進(jìn)行了全面評(píng)估，測試其生成獎(jiǎng)勵(lì)函數(shù)、解決新任務(wù)以及整合各種形式的人類輸入的能力。

研究人員的環(huán)境由10 個(gè)不同的機(jī)器人和使用IsaacGym模擬器執(zhí)行的29個(gè)任務(wù)組成。

首先，研究人員包括來自 IsaacGym (Isaac) 的 9 個(gè)原始環(huán)境，涵蓋從四足、雙足、四旋翼、協(xié)作機(jī)器人手臂到靈巧手的各種機(jī)器人形態(tài)。

除了囊括了機(jī)器人外形尺寸之外，研究人員還通過納入Dexterity基準(zhǔn)測試中的所有 20 項(xiàng)任務(wù)來確保評(píng)估的深度。

Dexterity包含20項(xiàng)復(fù)雜的雙手動(dòng)任務(wù)，需要一雙影子手來解決各種復(fù)雜的具體操作技能，從物體交接到將杯子旋轉(zhuǎn)180度。

評(píng)估結(jié)果

圖片

Eureka可以生成超人類水平的獎(jiǎng)勵(lì)函數(shù)

在29項(xiàng)任務(wù)中，Eureka生成的獎(jiǎng)勵(lì)在83%的任務(wù)上表現(xiàn)優(yōu)于人類專家編寫的獎(jiǎng)勵(lì)，平均標(biāo)準(zhǔn)化提升為52%。

特別是，Eureka在高維Dexterity環(huán)境中實(shí)現(xiàn)了更大的收益。

圖片

Eureka進(jìn)化獎(jiǎng)勵(lì)搜索可以隨著時(shí)間的推移實(shí)現(xiàn)持續(xù)的獎(jiǎng)勵(lì)改進(jìn)

Eureka通過將大規(guī)模獎(jiǎng)勵(lì)搜索與詳細(xì)獎(jiǎng)勵(lì)反思反饋相結(jié)合，逐步產(chǎn)生更好的獎(jiǎng)勵(lì)，最終超過人類水平。

Eureka生成的原創(chuàng)性獎(jiǎng)勵(lì)

圖片

研究人員通過計(jì)算所有Isaac任務(wù)上的Eureka和人類獎(jiǎng)勵(lì)之間的相關(guān)性來評(píng)估Eureka獎(jiǎng)勵(lì)的新穎性。

如上圖所示，Eureka主要生成弱相關(guān)的獎(jiǎng)勵(lì)函數(shù)，其表現(xiàn)優(yōu)于人類的獎(jiǎng)勵(lì)函數(shù)。

此外，研究人員觀察到任務(wù)越難，Eureka獎(jiǎng)勵(lì)的相關(guān)性就越小。在某些情況下，Eureka獎(jiǎng)勵(lì)甚至與人類獎(jiǎng)勵(lì)呈負(fù)相關(guān)，但表現(xiàn)卻明顯優(yōu)于人類獎(jiǎng)勵(lì)。

通過課程學(xué)習(xí)來教會(huì)靈巧轉(zhuǎn)筆

圖片

轉(zhuǎn)筆任務(wù)需要影子手不斷旋轉(zhuǎn)筆，以實(shí)現(xiàn)一些預(yù)定義的旋轉(zhuǎn)模式，完成盡可能多的循環(huán)。

圖片

研究人員通過以下方式解決此任務(wù)：

（1）指示 Eureka 生成獎(jiǎng)勵(lì)函數(shù)，用于將筆重新定向到隨機(jī)目標(biāo)配置，然后

（2）使用 Eureka 獎(jiǎng)勵(lì)微調(diào)此預(yù)訓(xùn)練策略以達(dá)到所需的筆序列-旋轉(zhuǎn)配置。

如圖所示，Eureka微調(diào)很快就適應(yīng)了策略，成功地連續(xù)旋轉(zhuǎn)了許多個(gè)周期。相比之下，預(yù)訓(xùn)練或從頭開始學(xué)習(xí)的策略連單個(gè)周期都無法完成。

圖片

5次查詢，教會(huì)人形機(jī)器人穩(wěn)定地跑步！

Eureka能否根據(jù)人類反饋進(jìn)行調(diào)整呢？

目前為止，Eureka可以通過環(huán)境反饋全自動(dòng)運(yùn)行。

為了捕捉人類的細(xì)微偏好，Eureka還可以使用自然語言反饋來共同引導(dǎo)獎(jiǎng)勵(lì)設(shè)計(jì)。

這就產(chǎn)生了一種新穎的無梯度情境下的RLHF。

圖片

帶有人類反饋的Eureka只用了5次查詢，就教會(huì)了人形機(jī)器人如何穩(wěn)定地跑步！

圖片

而在沒有RLHF前，人形機(jī)器人是這樣跑步的。

圖片

參考資料：

https://eureka-research.github.io/

責(zé)任編輯：武曉燕來源：新智元

GPT-4 語言模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4教會(huì)機(jī)器手轉(zhuǎn)筆、玩魔方！RL社區(qū)震驚：LLM設(shè)計(jì)獎(jiǎng)勵(lì)竟能超越人類？