成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌機器人邁入「交互語言」新紀元!開放命令正確率高達93.5%,開源數據量提升十倍

人工智能 新聞
Google機器人最近實現了在開放詞匯的條件下執行自然語言命令,真正實現了「聽懂人話」,相關數據集已開源!

注意看,眼前的這個男人正在對著一個機器人不斷發出自然語言指令,如「把綠色的星推到紅色塊之間」、「把藍色的方塊移動到左下角」,機器人對每一次輸入的指令都可以實時完成。

自上世紀60年代開始,機器人專家就開始嘗試讓機器人聽懂人的「自然語言指令」,并執行具體的行動。

理想情況下,未來的機器人將對用戶能夠用自然語言描述的任何相關任務做出實時反應。

特別是在開放的人類環境中,用戶可能需要在機器人行為發生時自定義行為,提供快速糾正,比如「停止,將手臂向上移動一點」或是指定限制「慢慢向右移動」。

圖片

此外,實時語言可以使人和機器人更容易在復雜的長期任務中進行協作,人們可以迭代和交互式地指導機器人操作,偶爾會有語言反饋。

目前的相關工作大體可以分為以下三部分:

1、機器人本體需要存在于現實世界;

2、能夠響應大量且豐富的自然語言命令;

3、能夠執行交互式的(interactive)語言命令,即機器人需要在任務執行的過程中接受新的自然語言指令。

對于第三點來說,目前機器人領域在交互式方面的發展速度仍然非常緩慢,也讓機器人缺乏「生命感」。

最近Google發表了一篇論文,提出了一個全新的框架,可以生產真實世界的、實時交互的、執行自然語言指令的機器人,并且相關數據集、環境、基準測試和策略都已開放使用。

圖片

論文鏈接:https://arxiv.org/pdf/2210.06407.pdf

項目主頁:https://interactive-language.github.io/

通過對幾十萬個語言標注軌跡的數據集進行行為克隆訓練,產生的策略可以熟練地執行比以前的工作實現了多一個數量級的命令。在現實世界中,研究人員估計該方法在87000個不同的自然語言字符串上有93.5%的成功率。

圖片

并且同樣的策略能夠被人類通過自然語言進行實時引導,以解決廣泛的精確的長距離重新排列目標,例如 「用積木做一個笑臉」等。

隨論文共同發布的數據集包括近60萬個語言標記的軌跡,比之前的可用數據集也要大一個數量級。

交互式語言:與機器人實時對話

想要讓機器人融入現實世界中,最重要是能夠處理開放式的自然語言指令,但從機器學習的角度來看,讓機器人學習開放詞匯表語言是一個巨大的挑戰。

開放代表模型需要執行大量任務,包括小的糾正指令等。現有的多任務學習設置利用精心設計的模仿學習數據集或復雜的強化學習獎勵功能來驅動每個任務的學習,通過這種方式設計的預定義集合注定不會很大。

因此,在開放詞匯表任務中一個關鍵的問題是: 應該如何擴展機器人數據的收集過程,使其能夠涵蓋真實環境中成千上萬的行動,以及如何將所有這些行為與最終用戶可能實際提供的自然語言指令聯系起來?

在交互式語言中,Google提出的大規模仿真學習框架關鍵是創建大型、多語言條件的機器人演示數據集的可伸縮性。

和以前設置中需要定義所有的技能,然后收集每個技能策劃的示范不同的是,研究人員不斷在跨多個機器人在無場景重置(scene resets)或低級別技能分割(low level skill segmentation)的情況下收集數據。

所有的數據,包括失敗的數據(如把塊從桌子上敲下來 knocking blocks off a table),都要經過一個hindsight language relabeling的過程才能與文本配對。

在這個過程中,標注人員需要觀看長長的機器人視頻來識別盡可能多的行為,標記每個行為的開始和結束時間,并使用無限制形式的自然語言來描述每個片段。

最重要的是,與之前設置的引導相比,所有用于訓練的技能都是從數據本身自下而上顯示出來的,而非由研究人員預先確定的。

圖片

研究人員有意將學習方法和架構盡可能簡化,機器人策略網絡是一個交叉注意力Transformer,將5赫茲的視頻和文本映射到5赫茲的機器人動作,在沒有輔助損失(auxiliary losses)的情況下使用標準的監督式學習行為克隆目標。

在測試時,新的自然語言命令可以通過speech-to-text以高達5赫茲的速率發送到策略網絡中。

開源基準

在標注過程中,研究人員收集了一個Language-Table數據集,其中包含超過44萬實際和18萬模擬的機器人執行自然語言命令的演示,以及機器人在演示過程中采取的動作順序。

圖片

這也是當下最大的基于語言條件的機器人演示(language-conditioned robot demonstration)數據集,直接提升了一個數量級。

Language-Table 推出了一個模擬仿真學習基準,可以用它來進行模型選擇,或者用來評估不同方法訓練得到的機器人執行指令的能力。

實時語言行為學習

在實驗中,研究人員發現,當機器人能夠跟隨實時輸入的自然語言指令時,機器人的能力就會顯得特別強大。

在項目網站中,研究人員展示了用戶可以僅使用自然語言就能引導機器人通過復雜的長視野序列(long-horizon sequences)來解決需要較長時間才能精確協調控制的目標。

圖片

比如在桌子上有許多blcoks,命令可以是「用綠眼睛做一個笑臉」或者「把所有的放在一條垂直線上」等。

因為機器人被訓練去跟隨開放的詞匯語言,所以在實驗中能夠看到機器人可以對一系列不同的口頭修正做出反應,如「輕輕地向右移動紅色的星星」。

最后,研究人員探索了實時語言的優勢,例如可以讓機器人數據采集變得更加高效,一個人類操作員可以同時使用口頭語言控制四個機器人,有可能在未來擴大機器人數據收集的規模,而不需要為每個機器人配備一個標注員。

結論

雖然該項目目前僅限于桌面上的一套固定的物體,但交互式語言的實驗結果可以初步表明,大規模模仿學習確實可以生產出實時交互式機器人,能夠遵循自由形式的終端用戶命令。

為了推動物理機器人實時語言控制技術的進步,研究人員開源了Language-Table,也是目前最大的基于語言條件下的真實世界機器人演示數據集,也可以作為相關的模擬基準。

研究人員認為,這個數據集的作用可能不僅僅局限于機器人控制領域,而且可能為研究語言和動作條件視頻預測、機器人視頻條件語言建模,或者在更廣泛的機器學習環境中研究其他許多有趣的活躍問題提供一個新起點。

責任編輯:張燕妮 來源: 新智元
相關推薦

2017-12-06 08:06:47

IBMGPU機器學習

2021-12-15 18:45:10

AI 數據人工智能

2014-05-07 17:07:28

高橋智隆機器人GMIC

2023-02-23 07:02:16

人工智能聊天機器人

2023-09-07 11:29:36

API開發

2025-05-26 00:02:00

TypeScriptGo 語言前端

2023-06-03 20:41:26

Discord機器人開源

2023-05-11 06:59:40

谷歌AI 聊天機器人

2012-12-04 15:47:45

2010-02-05 10:31:46

谷歌機器人

2019-03-27 09:27:06

機器人人工智能系統

2022-08-28 16:18:43

物聯網漫游IOT

2017-09-26 14:56:57

MongoDBLBS服務性能

2024-06-27 11:22:34

2023-02-06 07:17:22

2018-10-18 11:41:33

華為

2024-01-05 19:44:48

谷歌機器人憲法AI

2022-02-07 15:05:07

模型AI訓練

2023-03-21 23:50:16

人工智能機器人ChatGPT

2025-05-07 13:48:48

AIGC生成機器人
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产欧美日韩二区 | 精品欧美一区免费观看α√ | 久久国产亚洲 | 99久久久国产精品 | 亚州国产 | 亚洲三级视频 | 美女精品一区 | 99成人在线视频 | 日本精品一区二区三区在线观看视频 | 国产精品一区二区三区在线 | 日本成人在线播放 | 97视频在线观看免费 | 日韩av一二三区 | 日韩中文字幕网 | 精品久久电影 | 亚洲欧美日韩在线一区二区 | 精品乱人伦一区二区三区 | 国产亚洲成av人片在线观看桃 | 日日干日日操 | m豆传媒在线链接观看 | 亚洲www啪成人一区二区 | 特黄色一级毛片 | 综合自拍| 亚洲一区在线播放 | 久久在线视频 | 精品美女视频在线观看免费软件 | 欧美8一10sex性hd | 91精品国产欧美一区二区 | 瑟瑟激情 | 黄色大片免费播放 | 日韩精品成人 | 99热欧美| 亚洲精品免费视频 | 国产日韩精品一区 | 日韩欧美国产精品综合嫩v 一区中文字幕 | 免费色网址 | 国产精品欧美一区喷水 | 国产视频观看 | 精品欧美色视频网站在线观看 | 日本成人福利视频 | 伊人二区 |