譯者 | 朱先忠
審校 | 重樓
簡(jiǎn)介
這篇文章是我們對(duì)人工智能最新研究報(bào)道的一部分。
人工智能夢(mèng)寐以求的目標(biāo)之一是創(chuàng)造出能夠通過(guò)遵循自然語(yǔ)言指令在現(xiàn)實(shí)世界中有效完成任務(wù)的智能體。大型語(yǔ)言模型(LLM)在實(shí)現(xiàn)這一目標(biāo)方面取得了重大進(jìn)展,展示了處理定義明確的任務(wù)的令人印象深刻的能力。然而,它們的能力目前還是有限的——在面臨需要更廣泛了解世界的任務(wù)時(shí)往往達(dá)不到要求。
加州大學(xué)伯克利分校科學(xué)家的一篇新研究論文提出了應(yīng)對(duì)這一挑戰(zhàn)的創(chuàng)新方法。本文介紹了一種名為Dynalang的新技術(shù),旨在設(shè)計(jì)能夠借助自然語(yǔ)言學(xué)習(xí)世界模型的強(qiáng)化學(xué)習(xí)代理。這種方法不僅僅是教人工智能執(zhí)行任務(wù);而且還使得人工智能能夠理解其所在環(huán)境的上下文,并更有力、更高效地執(zhí)行任務(wù)。
物理世界中的大型語(yǔ)言模型
PaLM-SayCan使用大型語(yǔ)言模型(LLM)使機(jī)器人能夠用自然語(yǔ)言執(zhí)行指令(來(lái)源:谷歌博客,地址:https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html)。
LLM的最新進(jìn)展在各個(gè)領(lǐng)域引發(fā)了一波熱潮,包括機(jī)器人和現(xiàn)實(shí)世界中的任務(wù)執(zhí)行代理。LLM的一個(gè)非常有前景的方面是它們能夠彌合語(yǔ)言和視覺(jué)數(shù)據(jù)之間的差距,從而產(chǎn)生視覺(jué)語(yǔ)言模型(VLM)。
VLM能夠?qū)⑽谋居成涞揭曈X(jué)數(shù)據(jù);反之亦然,這一功能已在不同的應(yīng)用領(lǐng)域中得到利用,包括文本到圖像模型和AI圖像搜索領(lǐng)域。這項(xiàng)技術(shù)的一個(gè)更先進(jìn)的應(yīng)用是將自然語(yǔ)言命令映射到現(xiàn)實(shí)世界中的動(dòng)作。這有時(shí)被稱為“具身語(yǔ)言模型”(Embodied Language Models)。
如今,已經(jīng)出現(xiàn)一些技術(shù),其將強(qiáng)化學(xué)習(xí)與VLM相結(jié)合,以訓(xùn)練能夠執(zhí)行特定指令的代理。
然而,當(dāng)前的模型有它們明顯的局限性,例如,它們擅長(zhǎng)執(zhí)行非常特定的任務(wù)的命令,例如“拿起藍(lán)盒子”。不過(guò),最近的進(jìn)一步研究成果能夠?yàn)檫@些命令添加上一層抽象,使VLM驅(qū)動(dòng)的代理能夠理解和執(zhí)行更復(fù)雜的指令,例如“撿起代表滅絕動(dòng)物的玩具”。
但在現(xiàn)實(shí)世界中,命令和話語(yǔ)往往與上下文有關(guān)。例如,如果是洗碗或上菜,“我把碗收起來(lái)了”這句話對(duì)代理來(lái)說(shuō)可能意味著不同的事情。加州大學(xué)伯克利分校的研究人員指出,“當(dāng)語(yǔ)言不談?wù)撊蝿?wù)時(shí),它只與代理應(yīng)該采取的最佳行動(dòng)弱相關(guān)?!?/span>
最近,研究人員提出了一種不同的方法。他們建議,與其訓(xùn)練代理立即完成任務(wù),不如先訓(xùn)練他們?cè)谡Z(yǔ)言指令的幫助下學(xué)習(xí)世界模型來(lái)預(yù)測(cè)未來(lái)。研究人員寫道:“與下一個(gè)表征預(yù)測(cè)如何允許語(yǔ)言模型形成世界知識(shí)的內(nèi)部表征類似,我們假設(shè)預(yù)測(cè)未來(lái)表征為主體理解語(yǔ)言及其與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)?!?/span>
這種方法可以幫助人工智能代理了解其環(huán)境的上下文,從而更有力、更高效地執(zhí)行任務(wù)。
Dynalang
Dynalang使用語(yǔ)言更好地學(xué)習(xí)世界模型(來(lái)源:GitHub)
加州大學(xué)伯克利分校的研究人員提出了一種名為Dynalang的技術(shù),他們將其描述為“一種從在線體驗(yàn)中學(xué)習(xí)語(yǔ)言和圖像世界模型并使用該模型學(xué)習(xí)如何行動(dòng)的代理?!边@項(xiàng)技術(shù)的方法獨(dú)特,并提供了兩種不同的訓(xùn)練模式。
首先,Dynalang學(xué)習(xí)通過(guò)文本和視覺(jué)觀察來(lái)對(duì)世界進(jìn)行建模。研究人員解釋說(shuō),“我們訓(xùn)練世界模型,當(dāng)代理在環(huán)境中行動(dòng)時(shí),利用在線收集的經(jīng)驗(yàn)來(lái)預(yù)測(cè)未來(lái)的潛在表征?!边@種方法反映了人類用來(lái)將環(huán)境中的觀察結(jié)果映射到語(yǔ)言的一種自我監(jiān)督學(xué)習(xí)形式。研究人員稱之為“語(yǔ)言條件世界模型”。值得注意的是,Dynalang是多模態(tài)的,這意味著它不僅預(yù)測(cè)文本,還支持預(yù)測(cè)未來(lái)的視覺(jué)表現(xiàn)。
其次,Dynalang通過(guò)對(duì)世界模型和任務(wù)表征的強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)其行動(dòng)策略。研究人員寫道:“我們訓(xùn)練政策采取行動(dòng),最大限度地提高任務(wù)回報(bào),將世界模型的潛在代表性作為輸入?!?。
從本質(zhì)上講,Dynalang旨在通過(guò)語(yǔ)言和視覺(jué)觀察來(lái)學(xué)習(xí)一個(gè)世界模型,然后使用這個(gè)模型來(lái)學(xué)習(xí)如何在各種環(huán)境中有效地行動(dòng)。這種方法可能會(huì)在不同的環(huán)境中增強(qiáng)人工智能代理的穩(wěn)健性和效率。
Dynalang的工作原理
加州大學(xué)伯克利分校的研究人員利用不同機(jī)器學(xué)習(xí)技術(shù)的巧妙組合開(kāi)發(fā)了Dynalang。Dynalang的核心是一個(gè)旨在執(zhí)行動(dòng)作的人工智能系統(tǒng),其結(jié)構(gòu)基于強(qiáng)化學(xué)習(xí)循環(huán)。這個(gè)循環(huán)由代理、環(huán)境、操作、狀態(tài)和獎(jiǎng)勵(lì)組成。Dynalang的根本目標(biāo)是培養(yǎng)一個(gè)能夠最大限度地提高回報(bào)的代理。
Dynalang是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng),這意味著它可以根據(jù)世界模型預(yù)測(cè)動(dòng)作和狀態(tài)。同時(shí),使用過(guò)去動(dòng)作的回放緩沖區(qū)作為監(jiān)督學(xué)習(xí)流來(lái)訓(xùn)練世界模型。根據(jù)環(huán)境的不同,動(dòng)作空間可以由電機(jī)命令、文本生成和其他類型的動(dòng)作組成。
Dynalang的一個(gè)有趣的特性是,它能夠以令牌流形式接收文本指令和描述,同時(shí)還可以一起傳遞圖像幀信息。這與在一組任務(wù)的開(kāi)頭提供完整的指令文本的其他技術(shù)形成了鮮明對(duì)比。研究人員解釋道,“對(duì)于人類來(lái)說(shuō),閱讀、聽(tīng)力和口語(yǔ)會(huì)隨著時(shí)間的推移而延長(zhǎng),在此期間,我們會(huì)接收新的視覺(jué)輸入,并可以執(zhí)行運(yùn)動(dòng)動(dòng)作。類似地,我們?cè)诿總€(gè)時(shí)間步長(zhǎng)為我們的代理提供一個(gè)視頻幀和一個(gè)語(yǔ)言令牌,代理產(chǎn)生一個(gè)運(yùn)動(dòng)動(dòng)作,在適用的環(huán)境中,每個(gè)時(shí)間步長(zhǎng)產(chǎn)生一個(gè)語(yǔ)言標(biāo)記。”
與語(yǔ)言模型的許多應(yīng)用程序一樣,Dynalang可以在原始數(shù)據(jù)(文本和圖像)上進(jìn)行預(yù)訓(xùn)練,在那里它可以學(xué)習(xí)每個(gè)模型的潛在表示。然后,它可以在較小的傳感器和動(dòng)作數(shù)據(jù)集上進(jìn)行微調(diào)。然而,正如研究人員所指出的,有一點(diǎn)需要注意:“與典型的語(yǔ)言建模目標(biāo)不同,該模型沒(méi)有明確地訓(xùn)練為從前綴預(yù)測(cè)下一個(gè)令牌,除非通過(guò)在下一時(shí)間步長(zhǎng)時(shí)的預(yù)測(cè)表示?!?/span>
Dynalang的效果如何?
Dynalang支持在不同類型的環(huán)境中工作——使用語(yǔ)言提示和指令來(lái)更好地學(xué)習(xí)世界模型(來(lái)源:GitHub)。
Dynalang的研究論文目前尚未正式印刷出版,這意味著它還沒(méi)有經(jīng)過(guò)嚴(yán)格的同行評(píng)審。然而,該論文的作者包括人工智能研究領(lǐng)域備受尊敬的人物,例如伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任兼伯克利人工智能研究實(shí)驗(yàn)室聯(lián)合主任Pieter Abeel。這為論文中的成果發(fā)現(xiàn)提供了一定程度的可信度。
研究人員讓Dynalang在各種環(huán)境中進(jìn)行測(cè)試,每種環(huán)境都有獨(dú)特的設(shè)置和挑戰(zhàn)。在可能的情況下,他們將Dynalang的性能與在相同環(huán)境中運(yùn)行的基線強(qiáng)化學(xué)習(xí)模型進(jìn)行了比較。
HomeGrid就是這樣一個(gè)環(huán)境,它是一個(gè)多任務(wù)網(wǎng)格世界,代理在其中接收語(yǔ)言形式的任務(wù)規(guī)范以及語(yǔ)言提示,這些提示包括對(duì)對(duì)象的描述,環(huán)境中的動(dòng)力信息以及相關(guān)動(dòng)作的糾正。
研究人員指出,“值得注意的是,代理在HomeGrid中從未接受過(guò)關(guān)于提示含義的直接監(jiān)督,而且提示通常與他們所指的對(duì)象或觀察結(jié)果相去甚遠(yuǎn)?!边@意味著,代理必須通過(guò)將提示與世界模型觀察到的狀態(tài)相關(guān)聯(lián)來(lái)學(xué)習(xí)提示的含義。實(shí)驗(yàn)表明,Dynalang善于利用這些提示,而RL模型則必須通過(guò)試錯(cuò)來(lái)學(xué)習(xí)動(dòng)作分布。
在另一個(gè)環(huán)境VLN-CE(Vision-and-Language Navigation in Continuous Environments:連續(xù)環(huán)境中的視覺(jué)和語(yǔ)言導(dǎo)航)中,需要代理在3D環(huán)境中導(dǎo)航以到達(dá)指定的目的地。每一組任務(wù)都包括一個(gè)環(huán)境和自然語(yǔ)言說(shuō)明,說(shuō)明如何到達(dá)目的地。
實(shí)驗(yàn)表明,Dynalang在實(shí)現(xiàn)目標(biāo)方面明顯比純RL方法更有效,因?yàn)樗鼘W(xué)會(huì)了將文本指令與環(huán)境觀察和行動(dòng)聯(lián)系起來(lái)。
然而,作者警告說(shuō),“[Dynalang]還不能與最先進(jìn)的VLN方法(其中許多方法使用專家演示或?qū)I(yè)架構(gòu))競(jìng)爭(zhēng)?!边@意味著,雖然Dynalang不如SOTA技術(shù)有效,但它也需要更少的手動(dòng)注釋,并且可以從接近原始的數(shù)據(jù)中學(xué)習(xí)。
本論文還探討了另外兩個(gè)有趣的環(huán)境:Messenger游戲環(huán)境和LangRoom包含的問(wèn)答挑戰(zhàn)。如果您要想詳細(xì)分析Dynalang在這些環(huán)境中的表現(xiàn),我建議閱讀全文。
本論文的一個(gè)關(guān)鍵發(fā)現(xiàn)是,在純文本數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練可以顯著提高模型在最終任務(wù)中的性能。這表明,模型從文本中學(xué)習(xí)的能力是其整體有效性的關(guān)鍵因素。
然而,研究人員承認(rèn),Dynalang還有相當(dāng)大的改進(jìn)空間。他們認(rèn)為,更好的語(yǔ)言建模技術(shù)和架構(gòu)能夠支持長(zhǎng)期的操作,可以提高模型的性能。我個(gè)人很感興趣的是,如果它與更先進(jìn)的轉(zhuǎn)換器模型相結(jié)合的話它將如何改進(jìn)。
此外,這些技術(shù)在現(xiàn)實(shí)世界中的表現(xiàn)如何還有待觀察,而現(xiàn)實(shí)世界往往比受控環(huán)境更不可預(yù)測(cè)和復(fù)雜。但研究人員對(duì)Dynalang的潛力持樂(lè)觀態(tài)度,尤其是在利用網(wǎng)上大量未標(biāo)記數(shù)據(jù)方面。研究人員寫道,“在沒(méi)有動(dòng)作或獎(jiǎng)勵(lì)的情況下對(duì)視頻和文本進(jìn)行預(yù)訓(xùn)練的能力表明,Dynalang可以擴(kuò)展到大型網(wǎng)絡(luò)數(shù)據(jù)集,為實(shí)現(xiàn)與世界上的人類交互的自我改進(jìn)的多模式代理鋪平了道路?!?/span>
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計(jì)算機(jī)教師,自由編程界老兵一枚。
原文標(biāo)題:New AI technique uses language to learn world models,作者:Ben Dickson