成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

“行勝于言”:語言模型如何適應(yīng)機(jī)器人?

人工智能 新聞
SayCan將使用強(qiáng)化學(xué)習(xí)的“行”的能力和大規(guī)模語言模型的“言”的能力結(jié)合在一起,突出了“行勝于言”的背后思想。

本文轉(zhuǎn)自雷鋒網(wǎng),如需轉(zhuǎn)載請(qǐng)至雷鋒網(wǎng)官網(wǎng)申請(qǐng)授權(quán)。

?Google Brain的機(jī)器人團(tuán)隊(duì)(Robotics at Google)最近發(fā)布了一篇文章,介紹了他們?nèi)绾螌⒋笠?guī)模語言模型的“說”的能力和機(jī)器人“行”的能力結(jié)合在一起,從而賦予機(jī)器人更適用于物理世界的推理能力(physically-grounded)。

1 動(dòng)機(jī)

面對(duì)對(duì)方“我不小心灑了我的飲料,你可以幫我一下嗎?”的問題的時(shí)候,你會(huì)怎么反應(yīng)?

你評(píng)估一下當(dāng)下的環(huán)境,可能會(huì)幫對(duì)方把飲料瓶收拾掉,如果周圍有抹布,你會(huì)拿起抹布幫他收拾干凈,當(dāng)然這些一步一步的指令可能會(huì)在你的心中默念一遍。

當(dāng)你沒有觀察到吸塵器在周圍時(shí)候,你顯然不會(huì)告訴對(duì)方要使用吸塵器收拾,因?yàn)槟遣环袭?dāng)下的環(huán)境條件。

這樣的行為決策已經(jīng)體現(xiàn)了兩個(gè)步驟:面對(duì)一個(gè)求助,你擁有一些可以解決當(dāng)下問題的行為候選項(xiàng),然后你還得實(shí)際下來,選擇最符合現(xiàn)實(shí)的那個(gè)行為。

放在機(jī)器人的語境下,在前一個(gè)步驟,我們需要一個(gè)語言模型去理解一段人類語言發(fā)出的指令,并“說出”我們可能的種種解決方案;第二個(gè)步驟需要結(jié)合周圍環(huán)境,挑出那些符合現(xiàn)實(shí)世界的方案。

這篇文章就是試圖將這兩個(gè)行為解耦出來,并以恰當(dāng)?shù)姆绞浇Y(jié)合在一起。

首先是用于理解和生成可能的候選項(xiàng)的第一步。很自然地,文章使用了現(xiàn)在在自然語言處理領(lǐng)域很流行的大規(guī)模語言模型(LLM)。它可以是生成式的,即面對(duì)一個(gè)問題,生成可能的問答,如下圖所示:

三個(gè)LLM給出的回應(yīng)

可以看出這種生成式的結(jié)構(gòu)并非適用在面對(duì)行為的機(jī)器人領(lǐng)域,一方面如FLAN模型輸出的結(jié)果沒有明確的行為指令;另一方面,即使像GPT3中給出了具體的做法,它仍然沒有考慮到現(xiàn)實(shí)場(chǎng)景:萬一當(dāng)下沒有吸塵器呢?

就像開頭想表達(dá)的:會(huì)說什么并不重要,重要的是可行嗎?

因此,第二個(gè)步就需要考慮機(jī)器人所處的環(huán)境、它能夠完成的行為、它當(dāng)下?lián)碛械募寄艿鹊攘耍@些往往采用強(qiáng)化學(xué)習(xí)的value function(VF)或者affordance function進(jìn)行評(píng)估。

如果將第一步的LLM視作是可以思考和講話的“心和嘴”,后一步的affordance則充當(dāng)了“眼和手”的功能。前一步“說”(Say),后一步判斷“能”(Can)做什么,文章將這一模型起名為SayCan。

2 方法

從上文所述文章方法的關(guān)鍵是如何將沒有與現(xiàn)實(shí)世界結(jié)合的“理想化”的LLM變得更加“現(xiàn)實(shí)”。只是根據(jù)一段指令,采用對(duì)話生成的方式產(chǎn)生一段雖然合理但是無關(guān)的語句并非我們所要的。因此,SayCan采用了prompt以及給特定行為打分的方式。

具體而言,機(jī)器人先觀察周圍環(huán)境,利用VF找出一些可行(actionable)的行為候選項(xiàng)。LLM根據(jù)問題和一小段prompt對(duì)于這些行為進(jìn)行打分。

VF和LLM打出的兩個(gè)分?jǐn)?shù)的乘積作為最終選擇該行為的置信度,挑選出最高得分的行為作為這一步選擇的行為。

之后,將當(dāng)前選擇的行為在接到上一步的回答模板中,作為下一步的模板輸入,繼續(xù)重復(fù)上述的動(dòng)作,遞歸式推斷之后的行為,直到最終推斷出一個(gè)結(jié)束的標(biāo)志。這一過程,可以參考下圖。

選擇行為的流程示意圖

具體LLM是如何做的呢?

如下圖所示,LLM采用模板“I would:1.”作為回答“How would...”問題的命令詞匯(prompt)。值得注意的是,文章中也提到,這樣以比較標(biāo)準(zhǔn)的方式開頭的對(duì)話都是在機(jī)器人語境下專門設(shè)計(jì)的,現(xiàn)實(shí)場(chǎng)景可能會(huì)更加復(fù)雜。除此之外,用于in-context learning的例子也由類似的語句構(gòu)成,為了讓模型生成語句時(shí)候有所參考,也就是圖中的:prompt engineering的部分。

之后的LLM是針對(duì)預(yù)選好的行為進(jìn)行打分,是一種類似分類或者檢索的方式,而不是生成式的。

LLM的具體實(shí)現(xiàn)過程

整個(gè)實(shí)現(xiàn)可以參考如下的偽代碼:

3 結(jié)果

文章在模擬的廚房和現(xiàn)實(shí)的廚房做了測(cè)試,這包括101個(gè)由不同語言指令構(gòu)成的任務(wù),下面展示了一些SayCan完成的例子,作為給出了人類的指令,右邊則是機(jī)器人根據(jù)LLM和VF共同解碼出來的指令序列。藍(lán)色的條圖表示LLM對(duì)于特定動(dòng)作得到的概率打分,右邊則是通過VF得到的分?jǐn)?shù)。

場(chǎng)景一

人類:我灑了可樂,你能幫我用什么清理干凈嗎?

機(jī)器人:我會(huì)1)找到一塊抹布。2)拿起這塊抹布。3)把它帶給你。4)完成。

示例場(chǎng)景一

場(chǎng)景二

人類:我灑了可樂,你能幫我重新拿一罐嗎?

機(jī)器人:我會(huì)1)找到一罐可樂。2)拿起這罐可樂。3)把它帶給你。4)完成。

示例場(chǎng)景二

示例場(chǎng)景三

場(chǎng)景三

人類:你會(huì)怎么把抹布放在衣柜上

機(jī)器人:我會(huì)1)找到一塊抹布。2)拿起這塊抹布。3)走到衣柜附近。4)完成。

其中場(chǎng)景三的第一步的選擇盡管語言模型給出了“pick up the sponge”的最佳選項(xiàng),但當(dāng)機(jī)器人什么都沒有看到時(shí),VF則給這個(gè)選項(xiàng)很低的得分。這說明了SayCan的語言部分可以做出對(duì)于物理世界的推理。同時(shí)有趣的是,最后一個(gè)動(dòng)作,“笨拙”的機(jī)器人還是沒有做成功:它把海綿抹布掉到了地上。

更多視頻可以參考網(wǎng)站:https://say-can.github.io/

4 結(jié)論

SayCan將使用強(qiáng)化學(xué)習(xí)的“行”的能力和大規(guī)模語言模型的“言”的能力結(jié)合在一起,突出了“行勝于言”的背后思想——僅僅發(fā)出可能的行為指令是不夠的,還需要結(jié)合外在的周圍環(huán)境,做可以做到的。不過,文章提出了如下的問題,作為未來的思考方向:

1)如何借鑒融合了真實(shí)世界的LLM,來進(jìn)一步完善語言模型本身,如提高它對(duì)于世界知識(shí)的推理能力。

2)更為本質(zhì)的,適用于人類的自然語言是否真的是用于機(jī)器人編程的本體(ontology)語言?

3)如何更好地在機(jī)器人領(lǐng)域融合自然語言理解技術(shù)?

可以來到,目前機(jī)器人的研究已經(jīng)逐漸在“軟件”算法層面發(fā)力了,而且上游的AI算法也很快地應(yīng)用到這一領(lǐng)域,期待它的更好發(fā)展。?

責(zé)任編輯:張燕妮 來源: AI科技評(píng)論
相關(guān)推薦

2018-06-08 17:52:06

華為

2021-07-22 10:17:55

加密機(jī)器人加密貨幣機(jī)器人

2020-10-15 15:42:00

人工智能

2020-12-31 06:55:37

機(jī)器人自然語言人工智能

2024-05-20 09:44:13

人工智能機(jī)器人

2021-08-19 15:44:20

機(jī)器人人工智能機(jī)器學(xué)習(xí)

2015-07-28 09:36:11

機(jī)器人

2021-07-31 21:08:53

工業(yè)機(jī)器人機(jī)器人編程語言

2017-03-28 12:21:21

機(jī)器人定義

2024-07-10 11:38:15

2023-07-01 19:49:04

機(jī)器人

2015-12-10 21:49:32

IM機(jī)器人

2021-05-07 13:20:39

Python機(jī)器人編程語言

2012-03-08 09:42:16

開源軟件Linux

2024-09-18 13:30:00

2020-10-29 17:37:14

人工智能

2022-03-24 20:50:17

機(jī)器人人工智能

2023-12-13 14:57:25

2024-12-13 15:41:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 不卡在线视频 | 在线观看视频亚洲 | 精品日韩一区二区 | 免费在线日韩 | 99精品久久 | 91色视频在线观看 | 欧美视频xxx | 日韩在线h | 中文字幕1区 | 老牛嫩草一区二区三区av | 欧美一级电影免费 | 国产 欧美 日韩 一区 | 永久免费视频 | 久久久久久久久久久爱 | 色一级 | 欧美日韩综合精品 | 久久国产精品-国产精品 | 91久久精品国产91久久 | 久久久久久久电影 | 日本成人福利 | 色五月激情五月 | 999在线精品 | 91久久久精品国产一区二区蜜臀 | 欧美一区免费 | 日韩一区二区三区四区五区六区 | www.久久久久久久久久久久 | 欧美一级欧美一级在线播放 | 日本特黄a级高清免费大片 成年人黄色小视频 | 欧美专区在线视频 | 久久国产精品一区二区三区 | 久久久999精品 | 免费在线观看一区二区三区 | 久久精品播放 | 96久久久久久 | 日韩精品在线免费观看视频 | 日韩在线视频网址 | 青春草在线 | 日韩快播电影网 | 精品久久99 | 日日噜噜噜夜夜爽爽狠狠视频97 | 日韩综合色 |