Dynalang——一種使用語(yǔ)言學(xué)習(xí)世界模型的AI新技術(shù)

作者：朱先忠 2023-08-21 08:00:00

人工智能夢(mèng)寐以求的目標(biāo)之一是創(chuàng)造出能夠通過(guò)遵循自然語(yǔ)言指令在現(xiàn)實(shí)世界中有效完成任務(wù)的智能體。大型語(yǔ)言模型（LLM）在實(shí)現(xiàn)這一目標(biāo)方面取得了重大進(jìn)展，展示了處理定義明確的任務(wù)的令人印象深刻的能力。

譯者 | 朱先忠

審校 | 重樓

簡(jiǎn)介

這篇文章是我們對(duì)人工智能最新研究報(bào)道的一部分。

加州大學(xué)伯克利分校科學(xué)家的一篇新研究論文提出了應(yīng)對(duì)這一挑戰(zhàn)的創(chuàng)新方法。本文介紹了一種名為Dynalang的新技術(shù)，旨在設(shè)計(jì)能夠借助自然語(yǔ)言學(xué)習(xí)世界模型的強(qiáng)化學(xué)習(xí)代理。這種方法不僅僅是教人工智能執(zhí)行任務(wù)；而且還使得人工智能能夠理解其所在環(huán)境的上下文，并更有力、更高效地執(zhí)行任務(wù)。

物理世界中的大型語(yǔ)言模型

PaLM-SayCan使用大型語(yǔ)言模型（LLM）使機(jī)器人能夠用自然語(yǔ)言執(zhí)行指令（來(lái)源：谷歌博客，地址：https://ai.googleblog.com/2023/02/google-research-2022-beyond-robotics.html）。

LLM的最新進(jìn)展在各個(gè)領(lǐng)域引發(fā)了一波熱潮，包括機(jī)器人和現(xiàn)實(shí)世界中的任務(wù)執(zhí)行代理。LLM的一個(gè)非常有前景的方面是它們能夠彌合語(yǔ)言和視覺(jué)數(shù)據(jù)之間的差距，從而產(chǎn)生視覺(jué)語(yǔ)言模型（VLM）。

VLM能夠?qū)⑽谋居成涞揭曈X(jué)數(shù)據(jù)；反之亦然，這一功能已在不同的應(yīng)用領(lǐng)域中得到利用，包括文本到圖像模型和AI圖像搜索領(lǐng)域。這項(xiàng)技術(shù)的一個(gè)更先進(jìn)的應(yīng)用是將自然語(yǔ)言命令映射到現(xiàn)實(shí)世界中的動(dòng)作。這有時(shí)被稱為“具身語(yǔ)言模型”（Embodied Language Models）。

如今，已經(jīng)出現(xiàn)一些技術(shù)，其將強(qiáng)化學(xué)習(xí)與VLM相結(jié)合，以訓(xùn)練能夠執(zhí)行特定指令的代理。

然而，當(dāng)前的模型有它們明顯的局限性，例如，它們擅長(zhǎng)執(zhí)行非常特定的任務(wù)的命令，例如“拿起藍(lán)盒子”。不過(guò)，最近的進(jìn)一步研究成果能夠?yàn)檫@些命令添加上一層抽象，使VLM驅(qū)動(dòng)的代理能夠理解和執(zhí)行更復(fù)雜的指令，例如“撿起代表滅絕動(dòng)物的玩具”。

但在現(xiàn)實(shí)世界中，命令和話語(yǔ)往往與上下文有關(guān)。例如，如果是洗碗或上菜，“我把碗收起來(lái)了”這句話對(duì)代理來(lái)說(shuō)可能意味著不同的事情。加州大學(xué)伯克利分校的研究人員指出，“當(dāng)語(yǔ)言不談?wù)撊蝿?wù)時(shí)，它只與代理應(yīng)該采取的最佳行動(dòng)弱相關(guān)?！?/span>

最近，研究人員提出了一種不同的方法。他們建議，與其訓(xùn)練代理立即完成任務(wù)，不如先訓(xùn)練他們?cè)谡Z(yǔ)言指令的幫助下學(xué)習(xí)世界模型來(lái)預(yù)測(cè)未來(lái)。研究人員寫道：“與下一個(gè)表征預(yù)測(cè)如何允許語(yǔ)言模型形成世界知識(shí)的內(nèi)部表征類似，我們假設(shè)預(yù)測(cè)未來(lái)表征為主體理解語(yǔ)言及其與世界的關(guān)系提供了豐富的學(xué)習(xí)信號(hào)?！?/span>

這種方法可以幫助人工智能代理了解其環(huán)境的上下文，從而更有力、更高效地執(zhí)行任務(wù)。

Dynalang

Dynalang使用語(yǔ)言更好地學(xué)習(xí)世界模型（來(lái)源：GitHub）

加州大學(xué)伯克利分校的研究人員提出了一種名為Dynalang的技術(shù)，他們將其描述為“一種從在線體驗(yàn)中學(xué)習(xí)語(yǔ)言和圖像世界模型并使用該模型學(xué)習(xí)如何行動(dòng)的代理?！边@項(xiàng)技術(shù)的方法獨(dú)特，并提供了兩種不同的訓(xùn)練模式。

首先，Dynalang學(xué)習(xí)通過(guò)文本和視覺(jué)觀察來(lái)對(duì)世界進(jìn)行建模。研究人員解釋說(shuō)，“我們訓(xùn)練世界模型，當(dāng)代理在環(huán)境中行動(dòng)時(shí)，利用在線收集的經(jīng)驗(yàn)來(lái)預(yù)測(cè)未來(lái)的潛在表征?！边@種方法反映了人類用來(lái)將環(huán)境中的觀察結(jié)果映射到語(yǔ)言的一種自我監(jiān)督學(xué)習(xí)形式。研究人員稱之為“語(yǔ)言條件世界模型”。值得注意的是，Dynalang是多模態(tài)的，這意味著它不僅預(yù)測(cè)文本，還支持預(yù)測(cè)未來(lái)的視覺(jué)表現(xiàn)。

其次，Dynalang通過(guò)對(duì)世界模型和任務(wù)表征的強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)其行動(dòng)策略。研究人員寫道：“我們訓(xùn)練政策采取行動(dòng)，最大限度地提高任務(wù)回報(bào)，將世界模型的潛在代表性作為輸入?！?。

從本質(zhì)上講，Dynalang旨在通過(guò)語(yǔ)言和視覺(jué)觀察來(lái)學(xué)習(xí)一個(gè)世界模型，然后使用這個(gè)模型來(lái)學(xué)習(xí)如何在各種環(huán)境中有效地行動(dòng)。這種方法可能會(huì)在不同的環(huán)境中增強(qiáng)人工智能代理的穩(wěn)健性和效率。

Dynalang的工作原理

加州大學(xué)伯克利分校的研究人員利用不同機(jī)器學(xué)習(xí)技術(shù)的巧妙組合開(kāi)發(fā)了Dynalang。Dynalang的核心是一個(gè)旨在執(zhí)行動(dòng)作的人工智能系統(tǒng)，其結(jié)構(gòu)基于強(qiáng)化學(xué)習(xí)循環(huán)。這個(gè)循環(huán)由代理、環(huán)境、操作、狀態(tài)和獎(jiǎng)勵(lì)組成。Dynalang的根本目標(biāo)是培養(yǎng)一個(gè)能夠最大限度地提高回報(bào)的代理。

Dynalang是一個(gè)基于模型的強(qiáng)化學(xué)習(xí)系統(tǒng)，這意味著它可以根據(jù)世界模型預(yù)測(cè)動(dòng)作和狀態(tài)。同時(shí)，使用過(guò)去動(dòng)作的回放緩沖區(qū)作為監(jiān)督學(xué)習(xí)流來(lái)訓(xùn)練世界模型。根據(jù)環(huán)境的不同，動(dòng)作空間可以由電機(jī)命令、文本生成和其他類型的動(dòng)作組成。

Dynalang的一個(gè)有趣的特性是，它能夠以令牌流形式接收文本指令和描述，同時(shí)還可以一起傳遞圖像幀信息。這與在一組任務(wù)的開(kāi)頭提供完整的指令文本的其他技術(shù)形成了鮮明對(duì)比。研究人員解釋道，“對(duì)于人類來(lái)說(shuō)，閱讀、聽(tīng)力和口語(yǔ)會(huì)隨著時(shí)間的推移而延長(zhǎng)，在此期間，我們會(huì)接收新的視覺(jué)輸入，并可以執(zhí)行運(yùn)動(dòng)動(dòng)作。類似地，我們?cè)诿總€(gè)時(shí)間步長(zhǎng)為我們的代理提供一個(gè)視頻幀和一個(gè)語(yǔ)言令牌，代理產(chǎn)生一個(gè)運(yùn)動(dòng)動(dòng)作，在適用的環(huán)境中，每個(gè)時(shí)間步長(zhǎng)產(chǎn)生一個(gè)語(yǔ)言標(biāo)記。”

與語(yǔ)言模型的許多應(yīng)用程序一樣，Dynalang可以在原始數(shù)據(jù)（文本和圖像）上進(jìn)行預(yù)訓(xùn)練，在那里它可以學(xué)習(xí)每個(gè)模型的潛在表示。然后，它可以在較小的傳感器和動(dòng)作數(shù)據(jù)集上進(jìn)行微調(diào)。然而，正如研究人員所指出的，有一點(diǎn)需要注意：“與典型的語(yǔ)言建模目標(biāo)不同，該模型沒(méi)有明確地訓(xùn)練為從前綴預(yù)測(cè)下一個(gè)令牌，除非通過(guò)在下一時(shí)間步長(zhǎng)時(shí)的預(yù)測(cè)表示?！?/span>

Dynalang的效果如何？

Dynalang支持在不同類型的環(huán)境中工作——使用語(yǔ)言提示和指令來(lái)更好地學(xué)習(xí)世界模型（來(lái)源：GitHub）。

Dynalang的研究論文目前尚未正式印刷出版，這意味著它還沒(méi)有經(jīng)過(guò)嚴(yán)格的同行評(píng)審。然而，該論文的作者包括人工智能研究領(lǐng)域備受尊敬的人物，例如伯克利機(jī)器人學(xué)習(xí)實(shí)驗(yàn)室主任兼伯克利人工智能研究實(shí)驗(yàn)室聯(lián)合主任Pieter Abeel。這為論文中的成果發(fā)現(xiàn)提供了一定程度的可信度。

研究人員讓Dynalang在各種環(huán)境中進(jìn)行測(cè)試，每種環(huán)境都有獨(dú)特的設(shè)置和挑戰(zhàn)。在可能的情況下，他們將Dynalang的性能與在相同環(huán)境中運(yùn)行的基線強(qiáng)化學(xué)習(xí)模型進(jìn)行了比較。

HomeGrid就是這樣一個(gè)環(huán)境，它是一個(gè)多任務(wù)網(wǎng)格世界，代理在其中接收語(yǔ)言形式的任務(wù)規(guī)范以及語(yǔ)言提示，這些提示包括對(duì)對(duì)象的描述，環(huán)境中的動(dòng)力信息以及相關(guān)動(dòng)作的糾正。

研究人員指出，“值得注意的是，代理在HomeGrid中從未接受過(guò)關(guān)于提示含義的直接監(jiān)督，而且提示通常與他們所指的對(duì)象或觀察結(jié)果相去甚遠(yuǎn)?！边@意味著，代理必須通過(guò)將提示與世界模型觀察到的狀態(tài)相關(guān)聯(lián)來(lái)學(xué)習(xí)提示的含義。實(shí)驗(yàn)表明，Dynalang善于利用這些提示，而RL模型則必須通過(guò)試錯(cuò)來(lái)學(xué)習(xí)動(dòng)作分布。

在另一個(gè)環(huán)境VLN-CE（Vision-and-Language Navigation in Continuous Environments：連續(xù)環(huán)境中的視覺(jué)和語(yǔ)言導(dǎo)航）中，需要代理在3D環(huán)境中導(dǎo)航以到達(dá)指定的目的地。每一組任務(wù)都包括一個(gè)環(huán)境和自然語(yǔ)言說(shuō)明，說(shuō)明如何到達(dá)目的地。

實(shí)驗(yàn)表明，Dynalang在實(shí)現(xiàn)目標(biāo)方面明顯比純RL方法更有效，因?yàn)樗鼘W(xué)會(huì)了將文本指令與環(huán)境觀察和行動(dòng)聯(lián)系起來(lái)。

然而，作者警告說(shuō)，“[Dynalang]還不能與最先進(jìn)的VLN方法（其中許多方法使用專家演示或?qū)I(yè)架構(gòu)）競(jìng)爭(zhēng)?！边@意味著，雖然Dynalang不如SOTA技術(shù)有效，但它也需要更少的手動(dòng)注釋，并且可以從接近原始的數(shù)據(jù)中學(xué)習(xí)。

本論文還探討了另外兩個(gè)有趣的環(huán)境：Messenger游戲環(huán)境和LangRoom包含的問(wèn)答挑戰(zhàn)。如果您要想詳細(xì)分析Dynalang在這些環(huán)境中的表現(xiàn)，我建議閱讀全文。

本論文的一個(gè)關(guān)鍵發(fā)現(xiàn)是，在純文本數(shù)據(jù)集上對(duì)模型進(jìn)行預(yù)訓(xùn)練可以顯著提高模型在最終任務(wù)中的性能。這表明，模型從文本中學(xué)習(xí)的能力是其整體有效性的關(guān)鍵因素。

然而，研究人員承認(rèn)，Dynalang還有相當(dāng)大的改進(jìn)空間。他們認(rèn)為，更好的語(yǔ)言建模技術(shù)和架構(gòu)能夠支持長(zhǎng)期的操作，可以提高模型的性能。我個(gè)人很感興趣的是，如果它與更先進(jìn)的轉(zhuǎn)換器模型相結(jié)合的話它將如何改進(jìn)。

此外，這些技術(shù)在現(xiàn)實(shí)世界中的表現(xiàn)如何還有待觀察，而現(xiàn)實(shí)世界往往比受控環(huán)境更不可預(yù)測(cè)和復(fù)雜。但研究人員對(duì)Dynalang的潛力持樂(lè)觀態(tài)度，尤其是在利用網(wǎng)上大量未標(biāo)記數(shù)據(jù)方面。研究人員寫道，“在沒(méi)有動(dòng)作或獎(jiǎng)勵(lì)的情況下對(duì)視頻和文本進(jìn)行預(yù)訓(xùn)練的能力表明，Dynalang可以擴(kuò)展到大型網(wǎng)絡(luò)數(shù)據(jù)集，為實(shí)現(xiàn)與世界上的人類交互的自我改進(jìn)的多模式代理鋪平了道路?！?/span>