成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeurIPS 2024 | 機器人操縱世界模型來了,成功率超過谷歌RT-1 26.6%

人工智能 新聞
PIVOT-R 通過引入原語動作驅動的路徑點感知,顯著提升了機器人在復雜操控任務中的性能。

對于人類而言,一旦掌握了 “打開瓶蓋” 的動作,面對 “擰緊螺絲” 這樣的任務通常也能游刃有余,因為這兩者依賴于相似的手部動作。然而,對于機器人來說,即使是這樣看似簡單的任務轉換依然充滿挑戰(zhàn)。例如,換成另一種類型的瓶蓋,機器人可能無法成功打開。這表明,目前的機器人方法尚未充分讓模型學習到任務的內在執(zhí)行邏輯,而只是單純的依賴于數據擬合。

針對該問題,來自中山大學和華為諾亞等單位的研究團隊提出了一種全新的原語驅動的路徑點感知世界模型,借助 VLMs 作為機器人的大腦,理解任務之間的動作關聯性,并通過 “世界模型” 獲取對未來動作的表征,從而更好地幫助機器人學習和決策。該方法顯著提升了機器人的學習能力,并保持良好的泛化性。

圖片


  • 論文地址:https://arxiv.org/abs/2410.10394
  • 項目主頁:https://abliao.github.io/PIVOT-R/

研究動機

圖片

當前,現有機器人操作任務有兩個關鍵問題:

  1. 機器人模型在開放世界中表現差且不穩(wěn)定:許多機器人操作模型雖然能夠處理復雜任務,但往往直接將用戶指令和視覺感知映射到低層次的可執(zhí)行動作上,而忽略了操作任務中關鍵狀態(tài)(路徑點)的建模。這種方式容易使模型記住表面數據模式,導致模型在開放環(huán)境中表現脆弱。模型缺乏對關鍵路徑點的預測,使得每個動作的隨機性可能逐步放大,降低了任務的執(zhí)行成功率。
  2. 計算效率低:隨著模型的增大(例如 RT-2, RT-H),運行速率隨之降低,無法滿足機器人任務實時性的需求。

為了解決上述問題,研究團隊提出了 PIVOT-R,一種原語驅動的路徑點感知世界模型。如上圖所示,對比左圖現有的方法,右圖展示了 PIVOT-R 通過關注與任務相關的路徑點預測,提升機器人操作的準確性,并設計了一個異步分層執(zhí)行器,降低計算冗余,提升模型的執(zhí)行效率。

這樣做有幾個好處:

  1. 它使得模型可以更好的學習任務與動作之間的內在關聯性,減少其他干擾因素的影響,并更好地捕捉不同任務之間的相似性(例如,擰瓶蓋和擰螺絲的動作是相似的,拿杯子和搭積木都有一個抓住物體的過程),從而使得模型可以在多任務數據下學習到可遷移的知識。
  2. 通過世界模型建模的方式獲得對未來關鍵動作的表征,避免了文本語言帶來的模糊性、不確定性。
  3. 通過異步執(zhí)行的方式,確保各模塊獨立運行、互不阻塞,從而有效避免了大模型導致的低速率問題。

研究方法 

圖片

原語動作解析

PIVOT-R 的第一個核心步驟是原語動作解析,這一步通過預訓練的視覺 - 語言模型(VLM)來解析用戶的語言指令。VLM 可以將復雜的自然語言指令轉換為一組簡單的原語動作,例如 “靠近”、“抓取”、“移動” 等。這些原語動作為機器人提供了操作任務的粗略路徑。

具體流程如下:

  1. 用戶輸入的語言指令(例如 “請給我那個杯子”)首先被輸入到 VLM 中,VLM 會將其解析為與任務相關的原語動作(如 “靠近杯子”、“抓取杯子”)。
  2. 原語動作作為提示,指導機器人在接下來的步驟中專注于特定的操作軌跡點。這種方式確保機器人不會被復雜的環(huán)境因素干擾,而是明確知道每個動作的目的。

路徑點預測

在原語動作解析后,PIVOT-R 的下一步是路徑點預測。路徑點代表了機器人操控過程中一些關鍵的中間狀態(tài),例如靠近物體、抓取物體、移動物體等。通過預測路徑點,PIVOT-R 能夠在機器人執(zhí)行任務時提供明確的操作指導。具體來說,通過一個 Transformer 架構的模型,預測路徑點對應的視覺特征,為后續(xù)的動作預測模塊提供指引。

動作預測模塊

動作預測模塊負責根據預測的路徑點生成具體的低層次機器人動作。它以路徑點為提示,結合機器人歷史狀態(tài)(如位置、姿態(tài)等),計算下一步應該執(zhí)行的動作。該模塊使用輕量級的 Transformer 架構進行動作預測,確保計算效率和性能的平衡。這一模塊的設計重點在于低延遲和高精度執(zhí)行操控任務。

異步分層執(zhí)行器

此外,PIVOT-R 還引入了一個關鍵的執(zhí)行機制,即異步分層執(zhí)行器。與以往的機器人模型不同,PIVOT-R 并不對所有模塊在每一步都進行同步更新,而是為不同模塊設置了不同的執(zhí)行頻率,以多線程的方式進行異步更新,從而提升執(zhí)行速度。

實驗

作者在具有復雜指令的 SeaWave 仿真環(huán)境和真實環(huán)境下進行實驗。

圖片

圖片

如 Table 1 和 Table 2 所示,PIVOT-R 在仿真環(huán)境和真實環(huán)境都取得了最優(yōu)的效果,同時,模型的速度和 RT-1 等方法速度相近,沒有因為使用大模型而導致速度變慢。

圖片

作者也在 SeaWave 上做了泛化性測試,在三種泛化性測試場景下,PIVOT-R 仍保持遠高于其他模型的成功率。

研究總結

PIVOT-R 通過引入原語動作驅動的路徑點感知,顯著提升了機器人在復雜操控任務中的性能。該模型不僅在執(zhí)行效率上具備優(yōu)勢,還能夠更好地應對復雜、多變的環(huán)境。該方法在仿真環(huán)境和真實環(huán)境操縱下表現優(yōu)異,為機器人學習提供了一個新范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-16 15:46:09

機器人模型

2024-10-16 16:20:00

AI機器人

2021-04-21 15:22:40

機器人人工智能系統(tǒng)

2025-03-11 09:10:00

2023-08-23 12:33:51

機器人

2020-03-05 20:37:08

工業(yè)4.0機器人工業(yè)物聯網

2023-07-29 13:43:26

機器人模型

2020-03-20 10:30:38

AI 行業(yè) 人工智能

2015-05-20 14:20:32

大數據如何表白成功率高

2010-02-05 10:31:46

谷歌機器人

2019-03-27 09:27:06

機器人人工智能系統(tǒng)

2023-07-31 16:19:47

機器人人工智能

2023-09-02 11:22:50

模型訓練

2024-09-18 13:30:00

2024-04-08 00:01:00

機器人任務特斯拉

2012-10-23 14:27:55

無奈大裁員濾鏡拍照

2023-08-08 10:12:17

谷歌機器人

2023-09-21 10:29:01

AI模型

2025-05-21 08:52:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日日操夜夜操视频 | 夜夜爽99久久国产综合精品女不卡 | 免费v片| 啪一啪 | 视频在线亚洲 | 91在线一区 | 九九99九九精彩46 | 精品欧美一区二区三区 | 成人一区二 | 欧美一级欧美三级在线观看 | 暴草美女 | 日韩成人免费视频 | 国产精品久久国产愉拍 | 黄色三级在线播放 | 二区三区视频 | 久久久综合网 | 男女网站视频 | 亚洲每日更新 | 欧美日韩中文在线观看 | 超碰人人艹 | 亚洲不卡在线观看 | 国产高清一区二区三区 | 性色视频在线观看 | 亚洲精品视频在线观看视频 | 在线观看免费av网站 | 日本一级淫片免费啪啪3 | 欧美中文| 国产人成精品一区二区三 | 久草视频观看 | 粉嫩一区二区三区四区公司1 | 日韩精品免费视频 | 91伊人网| 日韩有码一区 | 日韩在线视频观看 | 亚洲电影一区二区三区 | 人人射人人草 | 亚洲精品日本 | 伊人在线 | 国产一伦一伦一伦 | 欧美一区二区免费视频 | 亚洲精品99 |