成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Dynalang——一種使用語(yǔ)言學(xué)習(xí)世界模型的AI新技術(shù)

譯文 精選
人工智能
人工智能夢(mèng)寐以求的目標(biāo)之一是創(chuàng)造出能夠通過(guò)遵循自然語(yǔ)言指令在現(xiàn)實(shí)世界中有效完成任務(wù)的智能體。大型語(yǔ)言模型(LLM)在實(shí)現(xiàn)這一目標(biāo)方面取得了重大進(jìn)展,展示了處理定義明確的任務(wù)的令人印象深刻的能力。

譯者 | 朱先忠

審校 | 重樓

簡(jiǎn)介

這篇文章是我們對(duì)人工智能最新研究報(bào)道的一部分。

人工智能夢(mèng)寐以求的目標(biāo)之一是創(chuàng)造出能夠通過(guò)遵循自然語(yǔ)言指令在現(xiàn)實(shí)世界中有效完成任務(wù)的智能體。大型語(yǔ)言模型(LLM)在實(shí)現(xiàn)這一目標(biāo)方面取得了重大進(jìn)展,展示了處理定義明確的任務(wù)的令人印象深刻的能力。然而,它們的能力目前還是有限的——在面臨需要更廣泛了解世界的任務(wù)時(shí)往往達(dá)不到要求。

加州大學(xué)伯克利分校科學(xué)家的一篇新研究論文提出了應(yīng)對(duì)這一挑戰(zhàn)的創(chuàng)新方法。本文介紹了一種名為Dynalang的新技術(shù),旨在設(shè)計(jì)能夠借助自然語(yǔ)言學(xué)習(xí)世界模型的強(qiáng)化學(xué)習(xí)代理。這種方法不僅僅是教人工智能執(zhí)行任務(wù);而且還使得人工智能能夠理解其所在環(huán)境的上下文,并更有力、更高效地執(zhí)行任務(wù)。

物理世界中的大型語(yǔ)言模型

PaLM-SayCan使用大型語(yǔ)言模型(LLM)使機(jī)器人能夠用自然語(yǔ)言執(zhí)行指令(來(lái)源:谷歌博客,地址:https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html)。

LLM的最新進(jìn)展在各個(gè)領(lǐng)域引發(fā)了一波熱潮,包括機(jī)器人和現(xiàn)實(shí)世界中的任務(wù)執(zhí)行代理。LLM的一個(gè)非常有前景的方面是它們能夠彌合語(yǔ)言和視覺(jué)數(shù)據(jù)之間的差距,從而產(chǎn)生視覺(jué)語(yǔ)言模型(VLM)。

VLM能夠?qū)⑽谋居成涞揭曈X(jué)數(shù)據(jù);反之亦然,這一功能已在不同的應(yīng)用領(lǐng)域中得到利用,包括文本到圖像模型和AI圖像搜索領(lǐng)域。這項(xiàng)技術(shù)的一個(gè)更先進(jìn)的應(yīng)用是將自然語(yǔ)言命令映射到現(xiàn)實(shí)世界中的動(dòng)作。這有時(shí)被稱為“具身語(yǔ)言模型”(Embodied Language Models)。

如今,已經(jīng)出現(xiàn)一些技術(shù),其將強(qiáng)化學(xué)習(xí)與VLM相結(jié)合,以訓(xùn)練能夠執(zhí)行特定指令的代理。

然而,當(dāng)前的模型有它們明顯的局限性,例如,它們擅長(zhǎng)執(zhí)行非常特定的任務(wù)的命令,例如“拿起藍(lán)盒子”。不過(guò),最近的進(jìn)一步研究成果能夠?yàn)檫@些命令添加上一層抽象,使VLM驅(qū)動(dòng)的代理能夠理解和執(zhí)行更復(fù)雜的指令,例如“撿起代表滅絕動(dòng)物的玩具”。

但在現(xiàn)實(shí)世界中,命令和話語(yǔ)往往與上下文有關(guān)。例如,如果是洗碗或上菜,“我把碗收起來(lái)了”這句話對(duì)代理來(lái)說(shuō)可能意味著不同的事情。加州大學(xué)伯克利分校的研究人員指出,“當(dāng)語(yǔ)言不談?wù)撊蝿?wù)時(shí),它只與代理應(yīng)該采取的最佳行動(dòng)弱相關(guān)?!?/span>

最近,研究人員提出了一種不同的方法。他們建議,與其訓(xùn)練代理立即完成任務(wù),不如先訓(xùn)練他們?cè)谡Z(yǔ)言指令的幫助下學(xué)習(xí)世界模型來(lái)預(yù)測(cè)未來(lái)。研究人員寫道:“與下一個(gè)表征預(yù)測(cè)如何允許語(yǔ)言模型形成世界知識(shí)的內(nèi)部表征類似,我們假設(shè)預(yù)測(cè)未來(lái)表征為主體理解語(yǔ)言及其與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)?!?/span>

這種方法可以幫助人工智能代理了解其環(huán)境的上下文,從而更有力、更高效地執(zhí)行任務(wù)。

Dynalang

Dynalang使用語(yǔ)言更好地學(xué)習(xí)世界模型(來(lái)源:GitHub)Dynalang使用語(yǔ)言更好地學(xué)習(xí)世界模型(來(lái)源:GitHub)

加州大學(xué)伯克利分校的研究人員提出了一種名為Dynalang的技術(shù),他們將其描述為“一種從在線體驗(yàn)中學(xué)習(xí)語(yǔ)言和圖像世界模型并使用該模型學(xué)習(xí)如何行動(dòng)的代理?!边@項(xiàng)技術(shù)的方法獨(dú)特,并提供了兩種不同的訓(xùn)練模式。

首先,Dynalang學(xué)習(xí)通過(guò)文本和視覺(jué)觀察來(lái)對(duì)世界進(jìn)行建模。研究人員解釋說(shuō),“我們訓(xùn)練世界模型,當(dāng)代理在環(huán)境中行動(dòng)時(shí),利用在線收集的經(jīng)驗(yàn)來(lái)預(yù)測(cè)未來(lái)的潛在表征?!边@種方法反映了人類用來(lái)將環(huán)境中的觀察結(jié)果映射到語(yǔ)言的一種自我監(jiān)督學(xué)習(xí)形式。研究人員稱之為“語(yǔ)言條件世界模型”。值得注意的是,Dynalang是多模態(tài)的,這意味著它不僅預(yù)測(cè)文本,還支持預(yù)測(cè)未來(lái)的視覺(jué)表現(xiàn)。

其次,Dynalang通過(guò)對(duì)世界模型和任務(wù)表征的強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)其行動(dòng)策略。研究人員寫道:“我們訓(xùn)練政策采取行動(dòng),最大限度地提高任務(wù)回報(bào),將世界模型的潛在代表性作為輸入?!?。

從本質(zhì)上講,Dynalang旨在通過(guò)語(yǔ)言和視覺(jué)觀察來(lái)學(xué)習(xí)一個(gè)世界模型,然后使用這個(gè)模型來(lái)學(xué)習(xí)如何在各種環(huán)境中有效地行動(dòng)。這種方法可能會(huì)在不同的環(huán)境中增強(qiáng)人工智能代理的穩(wěn)健性和效率。

Dynalang的工作原理

加州大學(xué)伯克利分校的研究人員利用不同機(jī)器學(xué)習(xí)技術(shù)的巧妙組合開(kāi)發(fā)了Dynalang。Dynalang的核心是一個(gè)旨在執(zhí)行動(dòng)作的人工智能系統(tǒng),其結(jié)構(gòu)基于強(qiáng)化學(xué)習(xí)循環(huán)。這個(gè)循環(huán)由代理、環(huán)境、操作、狀態(tài)和獎(jiǎng)勵(lì)組成。Dynalang的根本目標(biāo)是培養(yǎng)一個(gè)能夠最大限度地提高回報(bào)的代理。

Dynalang是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng),這意味著它可以根據(jù)世界模型預(yù)測(cè)動(dòng)作和狀態(tài)。同時(shí),使用過(guò)去動(dòng)作的回放緩沖區(qū)作為監(jiān)督學(xué)習(xí)流來(lái)訓(xùn)練世界模型。根據(jù)環(huán)境的不同,動(dòng)作空間可以由電機(jī)命令、文本生成和其他類型的動(dòng)作組成。

Dynalang的一個(gè)有趣的特性是,它能夠以令牌流形式接收文本指令和描述,同時(shí)還可以一起傳遞圖像幀信息。這與在一組任務(wù)的開(kāi)頭提供完整的指令文本的其他技術(shù)形成了鮮明對(duì)比。研究人員解釋道,“對(duì)于人類來(lái)說(shuō),閱讀、聽(tīng)力和口語(yǔ)會(huì)隨著時(shí)間的推移而延長(zhǎng),在此期間,我們會(huì)接收新的視覺(jué)輸入,并可以執(zhí)行運(yùn)動(dòng)動(dòng)作。類似地,我們?cè)诿總€(gè)時(shí)間步長(zhǎng)為我們的代理提供一個(gè)視頻幀和一個(gè)語(yǔ)言令牌,代理產(chǎn)生一個(gè)運(yùn)動(dòng)動(dòng)作,在適用的環(huán)境中,每個(gè)時(shí)間步長(zhǎng)產(chǎn)生一個(gè)語(yǔ)言標(biāo)記。”

與語(yǔ)言模型的許多應(yīng)用程序一樣,Dynalang可以在原始數(shù)據(jù)(文本和圖像)上進(jìn)行預(yù)訓(xùn)練,在那里它可以學(xué)習(xí)每個(gè)模型的潛在表示。然后,它可以在較小的傳感器和動(dòng)作數(shù)據(jù)集上進(jìn)行微調(diào)。然而,正如研究人員所指出的,有一點(diǎn)需要注意:“與典型的語(yǔ)言建模目標(biāo)不同,該模型沒(méi)有明確地訓(xùn)練為從前綴預(yù)測(cè)下一個(gè)令牌,除非通過(guò)在下一時(shí)間步長(zhǎng)時(shí)的預(yù)測(cè)表示?!?/span>

Dynalang的效果如何?

Dynalang支持在不同類型的環(huán)境中工作——使用語(yǔ)言提示和指令來(lái)更好地學(xué)習(xí)世界模型(來(lái)源:GitHub)。

Dynalang的研究論文目前尚未正式印刷出版,這意味著它還沒(méi)有經(jīng)過(guò)嚴(yán)格的同行評(píng)審。然而,該論文的作者包括人工智能研究領(lǐng)域備受尊敬的人物,例如伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任兼伯克利人工智能研究實(shí)驗(yàn)室聯(lián)合主任Pieter Abeel。這為論文中的成果發(fā)現(xiàn)提供了一定程度的可信度。

研究人員讓Dynalang在各種環(huán)境中進(jìn)行測(cè)試,每種環(huán)境都有獨(dú)特的設(shè)置和挑戰(zhàn)。在可能的情況下,他們將Dynalang的性能與在相同環(huán)境中運(yùn)行的基線強(qiáng)化學(xué)習(xí)模型進(jìn)行了比較。

HomeGrid就是這樣一個(gè)環(huán)境,它是一個(gè)多任務(wù)網(wǎng)格世界,代理在其中接收語(yǔ)言形式的任務(wù)規(guī)范以及語(yǔ)言提示,這些提示包括對(duì)對(duì)象的描述,環(huán)境中的動(dòng)力信息以及相關(guān)動(dòng)作的糾正。

研究人員指出,“值得注意的是,代理在HomeGrid中從未接受過(guò)關(guān)于提示含義的直接監(jiān)督,而且提示通常與他們所指的對(duì)象或觀察結(jié)果相去甚遠(yuǎn)?!边@意味著,代理必須通過(guò)將提示與世界模型觀察到的狀態(tài)相關(guān)聯(lián)來(lái)學(xué)習(xí)提示的含義。實(shí)驗(yàn)表明,Dynalang善于利用這些提示,而RL模型則必須通過(guò)試錯(cuò)來(lái)學(xué)習(xí)動(dòng)作分布。

在另一個(gè)環(huán)境VLN-CE(Vision-and-Language Navigation in Continuous Environments:連續(xù)環(huán)境中的視覺(jué)和語(yǔ)言導(dǎo)航)中,需要代理在3D環(huán)境中導(dǎo)航以到達(dá)指定的目的地。每一組任務(wù)都包括一個(gè)環(huán)境和自然語(yǔ)言說(shuō)明,說(shuō)明如何到達(dá)目的地。

實(shí)驗(yàn)表明,Dynalang在實(shí)現(xiàn)目標(biāo)方面明顯比純RL方法更有效,因?yàn)樗鼘W(xué)會(huì)了將文本指令與環(huán)境觀察和行動(dòng)聯(lián)系起來(lái)。

然而,作者警告說(shuō),“[Dynalang]還不能與最先進(jìn)的VLN方法(其中許多方法使用專家演示或?qū)I(yè)架構(gòu))競(jìng)爭(zhēng)?!边@意味著,雖然Dynalang不如SOTA技術(shù)有效,但它也需要更少的手動(dòng)注釋,并且可以從接近原始的數(shù)據(jù)中學(xué)習(xí)。

本論文還探討了另外兩個(gè)有趣的環(huán)境:Messenger游戲環(huán)境和LangRoom包含的問(wèn)答挑戰(zhàn)。如果您要想詳細(xì)分析Dynalang在這些環(huán)境中的表現(xiàn),我建議閱讀全文。

本論文的一個(gè)關(guān)鍵發(fā)現(xiàn)是,在純文本數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練可以顯著提高模型在最終任務(wù)中的性能。這表明,模型從文本中學(xué)習(xí)的能力是其整體有效性的關(guān)鍵因素。

然而,研究人員承認(rèn),Dynalang還有相當(dāng)大的改進(jìn)空間。他們認(rèn)為,更好的語(yǔ)言建模技術(shù)和架構(gòu)能夠支持長(zhǎng)期的操作,可以提高模型的性能。我個(gè)人很感興趣的是,如果它與更先進(jìn)的轉(zhuǎn)換器模型相結(jié)合的話它將如何改進(jìn)。

此外,這些技術(shù)在現(xiàn)實(shí)世界中的表現(xiàn)如何還有待觀察,而現(xiàn)實(shí)世界往往比受控環(huán)境更不可預(yù)測(cè)和復(fù)雜。但研究人員對(duì)Dynalang的潛力持樂(lè)觀態(tài)度,尤其是在利用網(wǎng)上大量未標(biāo)記數(shù)據(jù)方面。研究人員寫道,“在沒(méi)有動(dòng)作或獎(jiǎng)勵(lì)的情況下對(duì)視頻和文本進(jìn)行預(yù)訓(xùn)練的能力表明,Dynalang可以擴(kuò)展到大型網(wǎng)絡(luò)數(shù)據(jù)集,為實(shí)現(xiàn)與世界上的人類交互的自我改進(jìn)的多模式代理鋪平了道路?!?/span>

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。

原文標(biāo)題:New AI technique uses language to learn world models,作者:Ben Dickson



責(zé)任編輯:華軒 來(lái)源: 51CTO
相關(guān)推薦

2023-08-05 13:45:46

模型AI

2025-06-03 08:40:00

2020-06-17 09:59:17

人工智能

2022-11-21 14:33:53

大數(shù)據(jù)數(shù)據(jù)存儲(chǔ)機(jī)器學(xué)習(xí)

2015-08-03 09:36:01

賽迪翻譯

2015-08-31 09:27:21

語(yǔ)言界面UI

2010-01-21 16:24:02

C++語(yǔ)言

2020-12-23 10:10:23

Pythonweb代碼

2022-06-22 09:44:41

Python文件代碼

2022-07-07 10:33:27

Python姿勢(shì)代碼

2017-11-15 19:00:49

深度學(xué)習(xí)SoftmaxRNN語(yǔ)言模型

2020-12-09 10:15:34

Pythonweb代碼

2024-01-30 09:00:28

框架BMRL模型

2010-01-25 15:09:17

C++語(yǔ)言

2021-04-08 10:19:39

人工智能機(jī)器學(xué)習(xí)知識(shí)圖譜

2025-05-22 04:00:00

PARSCALE大型語(yǔ)言模型LLM

2020-10-20 09:45:28

Facebook AI翻譯

2023-07-18 18:10:04

2009-09-04 08:51:33

Java語(yǔ)言

2012-11-01 13:41:25

編程語(yǔ)言BasicPerl
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 日韩视频在线观看一区二区 | 久久久久久网站 | 一区二区三区中文字幕 | 91电影 | 国产一区二区三区在线 | 成人免费影院 | 一级做a爰片性色毛片 | 天天久久 | 午夜激情免费 | 天天综合网7799精品 | 欧美日韩一区二区三区不卡视频 | 成人精品免费视频 | 成人午夜av | 懂色av一区二区三区在线播放 | 久久国内精品 | 日韩一二区 | 人人人人干 | www.av在线| 91精品亚洲 | 在线观看国产视频 | 国产精品视频一区二区三区四区国 | 99久久精品免费看国产四区 | 国产成人综合一区二区三区 | av香港经典三级级 在线 | 国产成人影院 | 国产精品成人在线观看 | 日韩影音| 人人射人人草 | 日本成人区 | 国产精品日韩欧美一区二区三区 | 91视频网址 | 久久极品 | 日本在线一区二区三区 | 免费视频一区二区 | 美女三区| 日本亚洲一区二区 | 久久免费精品 | 在线播放国产一区二区三区 | 一区二区精品 | 久久久久久久久久久久亚洲 | 青青伊人久久 |