成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

語(yǔ)言、機(jī)器人破壁,MIT等用GPT-4自動(dòng)生成模擬任務(wù),并遷移到真實(shí)世界

人工智能 新聞
近年來(lái),大語(yǔ)言模型在自然語(yǔ)言處理及各類任務(wù)的代碼生成方面不斷取得重大進(jìn)展。同樣,LLM 已經(jīng)應(yīng)用于機(jī)器人的多個(gè)方面,包括用戶界面、任務(wù)和運(yùn)動(dòng)規(guī)劃、機(jī)器人日志總結(jié)、成本和獎(jiǎng)勵(lì)設(shè)計(jì),揭示了在物理基礎(chǔ)和代碼生成任務(wù)上的強(qiáng)大能力。

圖片

在機(jī)器人領(lǐng)域,實(shí)現(xiàn)通用機(jī)器人策略需要大量數(shù)據(jù),而在真實(shí)世界收集這些數(shù)據(jù)又耗時(shí)費(fèi)力。盡管模擬為生成場(chǎng)景級(jí)和實(shí)例級(jí)的不同體量的數(shù)據(jù)提供了一種經(jīng)濟(jì)的解決方案,但由于需要大量的人力(尤其是對(duì)復(fù)雜任務(wù)),在模擬環(huán)境中增加任務(wù)多樣性仍面臨挑戰(zhàn)。這就導(dǎo)致典型的人工模擬基準(zhǔn)通常僅能包含數(shù)十到數(shù)百個(gè)任務(wù)。

如何解決呢?近年來(lái),大語(yǔ)言模型在自然語(yǔ)言處理及各類任務(wù)的代碼生成方面不斷取得重大進(jìn)展。同樣,LLM 已經(jīng)應(yīng)用于機(jī)器人的多個(gè)方面,包括用戶界面、任務(wù)和運(yùn)動(dòng)規(guī)劃、機(jī)器人日志總結(jié)、成本和獎(jiǎng)勵(lì)設(shè)計(jì),揭示了在物理基礎(chǔ)和代碼生成任務(wù)上的強(qiáng)大能力。

在近日的一項(xiàng)研究中,來(lái)自 MIT CSAIL、上海交通大學(xué)等機(jī)構(gòu)的研究者進(jìn)一步探究 LLM 是否可以用來(lái)創(chuàng)建多樣化的模擬任務(wù),并進(jìn)一步挖掘它們的能力。

具體來(lái)講,研究者提出了一種基于 LLM 的框架 GenSim,它為設(shè)計(jì)和驗(yàn)證任務(wù)資產(chǎn)安排、任務(wù)進(jìn)展提供了一種自動(dòng)化機(jī)制。更重要的是,生成的任務(wù)表現(xiàn)出了極大的多樣性,促進(jìn)了機(jī)器人策略的任務(wù)級(jí)泛化。此外從概念上講,利用 GenSim,LLM 的推理和編碼能力通過(guò)中間合成的模擬數(shù)據(jù)被提煉成了語(yǔ)言 - 視覺(jué) - 行動(dòng)策略。

論文地址:https://arxiv.org/pdf/2310.01361.pdf

GenSim 框架由以下三部分組成:

  • 首先是通過(guò)自然語(yǔ)言指令提出新任務(wù)以及相應(yīng)代碼實(shí)現(xiàn)的提示機(jī)制;
  • 其次是緩存以前生成的高質(zhì)量指令代碼以用于驗(yàn)證和語(yǔ)言模型微調(diào)的任務(wù)庫(kù),并作為綜合任務(wù)數(shù)據(jù)集返回;
  • 最后是利用生成的數(shù)據(jù)來(lái)增強(qiáng)任務(wù)級(jí)泛化能力的語(yǔ)言調(diào)整多任務(wù)策略訓(xùn)練流程。

同時(shí)該框架通過(guò)兩種不同的模式運(yùn)行。其中在目標(biāo)導(dǎo)向設(shè)置中,用戶有特定的任務(wù)或者希望設(shè)計(jì)一個(gè)任務(wù)課程。這時(shí) GenSim 采取自上而下的方法,以預(yù)期任務(wù)作為輸入,迭代地生成相關(guān)任務(wù)以實(shí)現(xiàn)預(yù)期目標(biāo)。而在探索性環(huán)境中,如果缺少目標(biāo)任務(wù)的先驗(yàn)知識(shí),則 GenSim 逐漸探索現(xiàn)有任務(wù)以外的內(nèi)容,并建立與任務(wù)無(wú)關(guān)的基礎(chǔ)策略。

在下圖 1 中,研究者初始化了包含 10 個(gè)人工策劃任務(wù)的任務(wù)庫(kù),使用 GenSim 對(duì)它進(jìn)行擴(kuò)展并生成 100 多個(gè)任務(wù)。

圖片

研究者還提出了幾個(gè)定制化的指標(biāo)來(lái)漸進(jìn)地衡量生成模擬任務(wù)的質(zhì)量,并在目標(biāo)導(dǎo)向和探索性設(shè)置中評(píng)估了幾種 LLM。其中對(duì)于 GPT-4 生成的任務(wù)庫(kù),他們對(duì) GPT-3.5 和 Code-Llama 等 LLM 進(jìn)行有監(jiān)督微調(diào),進(jìn)一步提升了 LLM 的任務(wù)生成性能。同時(shí)通過(guò)策略訓(xùn)練定量地衡量任務(wù)的可實(shí)現(xiàn)性,并提供不同屬性的任務(wù)統(tǒng)計(jì)數(shù)據(jù)和不同模型之間的代碼比較。

不僅如此,研究者還訓(xùn)練了多任務(wù)機(jī)器人策略,與僅僅在人工策劃任務(wù)上訓(xùn)練的模型相比,這些策略在所有生成任務(wù)上都能很好地泛化,并提高了零樣本泛化性能。其中與 GPT-4 生成任務(wù)的聯(lián)合訓(xùn)練可以將泛化性能提升 50%,并在模擬中將大約 40% 的零樣本任務(wù)遷移到新任務(wù)中。

最后,研究者還考慮了模擬到真實(shí)的遷移,表明在不同模擬任務(wù)上的預(yù)訓(xùn)練可以將真實(shí)世界的泛化能力提升 25%。

總之,在不同 LLM 生成的任務(wù)上訓(xùn)練的策略實(shí)現(xiàn)了對(duì)新任務(wù)的更好任務(wù)級(jí)泛化能力,彰顯了通過(guò) LLM 擴(kuò)展模擬任務(wù)來(lái)訓(xùn)練基礎(chǔ)策略的潛力。

Tenstorrent AI 產(chǎn)品管理總監(jiān) Shubham Saboo 給予了這項(xiàng)研究很高的評(píng)價(jià),他表示,這是 GPT-4 結(jié)合機(jī)器人的突破性研究,通過(guò) GPT-4 等 LLM 來(lái)生成 autopilot 上的一系列模擬機(jī)器人任務(wù),使機(jī)器人的零樣本學(xué)習(xí)和真實(shí)世界適應(yīng)成為了現(xiàn)實(shí)。

圖片

方法介紹

如下圖 2 所示,GenSim 框架通過(guò)程序合成生成模擬環(huán)境、任務(wù)和演示。GenSim pipeline 從任務(wù)創(chuàng)建器開(kāi)始,prompt 鏈以兩種模式運(yùn)行,即目標(biāo)導(dǎo)向模式和探索模式,具體取決于目標(biāo)任務(wù)。GenSim 中的任務(wù)庫(kù)是一個(gè)內(nèi)存組件,用于存儲(chǔ)之前生成的高質(zhì)量任務(wù),任務(wù)庫(kù)中存儲(chǔ)的任務(wù)可用于多任務(wù)策略訓(xùn)練或微調(diào) LLM。

圖片

任務(wù)創(chuàng)建器

如下圖 3 所示,語(yǔ)言鏈會(huì)首先生成任務(wù)描述,然后再生成相關(guān)的實(shí)現(xiàn)。任務(wù)描述包括任務(wù)名稱、資源和任務(wù)摘要。該研究在 pipeline 中采用少樣本 prompt 來(lái)生成代碼。

圖片

任務(wù)庫(kù)

GenSim 框架中的任務(wù)庫(kù)會(huì)存儲(chǔ)任務(wù)創(chuàng)建器生成的任務(wù),以生成更好的新任務(wù)和訓(xùn)練多任務(wù)策略。任務(wù)庫(kù)是根據(jù)人工創(chuàng)建的基準(zhǔn)中的任務(wù)進(jìn)行初始化的。

任務(wù)庫(kù)為任務(wù)創(chuàng)建器為描述生成階段提供了作為條件的先前的任務(wù)描述,為代碼生成階段提供了先前的代碼,并 prompt 任務(wù)創(chuàng)建器從任務(wù)庫(kù)中選擇參考任務(wù)作為編寫新任務(wù)的樣例。完成任務(wù)實(shí)現(xiàn)并通過(guò)所有測(cè)試后,LLM 會(huì)被 prompt,以「反思(reflect)」新任務(wù)和任務(wù)庫(kù),并形成是否應(yīng)將新生成的任務(wù)添加到庫(kù)中的綜合決策。

如下圖 4 所示,該研究還觀察到 GenSim 表現(xiàn)出有趣的任務(wù)級(jí)組合和外推行為:

圖片

LLM 監(jiān)督的多任務(wù)策略

生成任務(wù)后,該研究使用這些任務(wù)實(shí)現(xiàn)來(lái)生成演示數(shù)據(jù)并訓(xùn)練操作策略,并使用與 Shridhar et al. (2022) 類似的雙流傳輸網(wǎng)絡(luò)架構(gòu)。

如下圖 5 所示,該研究將程序視為任務(wù)和相關(guān)演示數(shù)據(jù)的有效表征(圖 5),就可以定義任務(wù)之間的嵌入空間,其距離指標(biāo)對(duì)于來(lái)自感知的各種因素(例如對(duì)象姿態(tài)和形狀)更加穩(wěn)健。

圖片

實(shí)驗(yàn)及結(jié)果

該研究通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證 GenSim 框架,針對(duì)以下具體問(wèn)題:(1)LLM 設(shè)計(jì)和實(shí)現(xiàn)模擬任務(wù)的效果如何?GenSim 可以改進(jìn) LLM 在任務(wù)生成方面的表現(xiàn)嗎?(2) 對(duì) LLM 生成的任務(wù)進(jìn)行訓(xùn)練是否可以提高策略泛化能力?如果給出更多的生成任務(wù),策略訓(xùn)練是否會(huì)受益更多?(3) 針對(duì) LLM 生成的模擬任務(wù)進(jìn)行預(yù)訓(xùn)練是否有利于現(xiàn)實(shí)世界的機(jī)器人策略部署?

評(píng)估 LLM 機(jī)器人模擬任務(wù)的泛化能力

如下圖 6 所示,對(duì)于探索模式和目標(biāo)導(dǎo)向模式任務(wù)生成,少樣本和任務(wù)庫(kù)的兩階段 prompt 鏈可以有效提高代碼生成的成功率。

圖片

任務(wù)級(jí)泛化

對(duì)相關(guān)任務(wù)的少樣本策略優(yōu)化。從下圖 7 左可以觀察到,聯(lián)合訓(xùn)練 LLM 生成的任務(wù)可以將原始 CLIPort 任務(wù)上的策略性能提升 50% 以上,尤其是在低數(shù)據(jù)情況(如 5 個(gè) demo)下。

對(duì)未見(jiàn)過(guò)任務(wù)的零樣本策略泛化。從圖 7 中可以看到,通過(guò)對(duì) LLM 生成的更多任務(wù)進(jìn)行預(yù)訓(xùn)練,研究者的模型可以更好地泛化到原始 Ravens 基準(zhǔn)中的任務(wù)。圖 7 右中,研究者還對(duì)人工編寫任務(wù)、閉源 LLM 和開(kāi)源微調(diào) LLM 等不同任務(wù)源上的 5 個(gè)任務(wù)進(jìn)行了預(yù)訓(xùn)練,并觀察到了類似的零樣本任務(wù)級(jí)泛化。

圖片

使預(yù)訓(xùn)練模型適應(yīng)真實(shí)世界

研究者將模擬環(huán)境中訓(xùn)練的策略遷移到了真實(shí)環(huán)境中。結(jié)果如下表 1 所示,在 70 個(gè) GPT-4 生成的任務(wù)上進(jìn)行預(yù)訓(xùn)練的模型在 9 個(gè)任務(wù)上進(jìn)行了 10 次實(shí)驗(yàn),取得 68.8% 的平均成功率,與僅在 CLIPort 任務(wù)上進(jìn)行預(yù)訓(xùn)練的基線模型相比提升了 25% 以上,與僅在 50 個(gè)任務(wù)上預(yù)訓(xùn)練的模型相比提升了 15%。

圖片

研究者還觀察到,對(duì)不同模擬任務(wù)的預(yù)訓(xùn)練提高了長(zhǎng)期復(fù)雜任務(wù)的穩(wěn)健性。比如說(shuō),GPT-4 預(yù)訓(xùn)練的模型在真實(shí)世界的 build-wheel 任務(wù)上表現(xiàn)出了更加穩(wěn)健的性能。

圖片

消融實(shí)驗(yàn)

模擬訓(xùn)練成功率。在下表 2 中,研究者在擁有 200 個(gè) demo 的生成任務(wù)子集上,演示了單任務(wù)和多任務(wù)策略訓(xùn)練的成功率。對(duì)于 GPT-4 生成任務(wù)的策略訓(xùn)練,它的平均任務(wù)成功率為單任務(wù) 75.8%,多任務(wù) 74.1%。

圖片

生成任務(wù)統(tǒng)計(jì)。下圖 9 (a) 中,研究者展示了 LLM 生成的 120 個(gè)任務(wù)的不同特征的任務(wù)統(tǒng)計(jì)。其中 LLM 模型生成的顏色、資產(chǎn)、動(dòng)作和實(shí)例數(shù)量之間存在著有趣的平衡。例如,生成的代碼包含了很多超過(guò) 7 個(gè)對(duì)象實(shí)例的場(chǎng)景,以及很多拾起 - 放置原始動(dòng)作和塊等資產(chǎn)。

代碼生成比較。下圖 9 (b) 中,研究者定性地評(píng)估了 GPT-4 和 Code Llama 的自上而下實(shí)驗(yàn)中的失敗案例。

圖片

更多技術(shù)細(xì)節(jié)請(qǐng)參閱原論文。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-04 08:00:00

機(jī)器人GPT4模型機(jī)器學(xué)習(xí)

2023-03-15 08:44:58

2023-10-21 21:14:00

AI模型

2023-03-16 12:14:55

2023-06-19 08:19:50

2024-07-15 09:00:00

2025-04-16 09:35:03

2021-07-31 21:08:53

工業(yè)機(jī)器人機(jī)器人編程語(yǔ)言

2017-03-07 16:10:36

腦控機(jī)器人糾錯(cuò)

2023-05-04 06:28:51

GPT-4OpenAI

2023-10-22 20:14:08

人工智能GPT-4

2024-07-16 13:15:23

2023-07-04 14:01:26

GPT-4模型

2023-11-23 14:05:36

Claude 2.0聊天機(jī)器人

2023-06-25 12:46:24

GPT-4人工智能

2023-05-31 14:23:44

人工智能

2025-05-09 08:50:00

機(jī)器人訓(xùn)練AI

2025-05-30 07:40:56

2023-12-03 08:43:55

機(jī)器人模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 天天碰日日操 | 亚洲欧美日韩成人在线 | 久久er精品 | 在线视频亚洲 | 成av人电影在线 | 久久黄网| 国产精品福利久久久 | 一级黄在线观看 | 天堂素人约啪 | 久久综合一区二区三区 | 午夜天堂精品久久久久 | 亚洲永久精品国产 | 欧美一区二区三区四区视频 | 成人不卡在线 | аⅴ资源新版在线天堂 | 亚洲精品日本 | 日韩精品久久久久久 | 精品一区二区三区免费毛片 | 国产羞羞视频在线观看 | 狠狠干美女| 国产午夜视频 | 日本精品久久久一区二区三区 | 国产在线精品一区二区 | 男女爱爱网站 | 激情视频一区 | 国产美女在线看 | 久优草| 国产成人黄色 | 一级毛片免费 | 精品一区二区三区电影 | 成人国产精品免费观看视频 | 午夜a v电影 | 99久久中文字幕三级久久日本 | 欧洲免费视频 | 国产欧美一区二区三区在线看蜜臀 | 午夜视频一区二区 | 国产精品精品 | 成人在线视频免费观看 | 韩国毛片一区二区三区 | 午夜影院在线播放 | 精品久久久一区 |