成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

首個無師自通、泛化使用各種家具家電的具身三維圖文大模型系統

人工智能 新聞
SAGE 這一研究成果來自斯坦福大學 Leonidas Guibas 教授實驗室、北京大學王鶴教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。

這幾天,家務活都被機器人搶著干了。

前腳來自斯坦福的會用鍋的機器人剛剛登場,后腳又來了個會用咖啡機的機器人 Figure-01 。

圖片

只需給它觀看示范視頻,加上10個小時的訓練,Figure-01 就能學會使用咖啡機,放咖啡膠囊到按下啟動鍵,一氣呵成。

但是想要讓機器人無師自通,第一次見到各式各樣的家具家電,就能在沒有示范視頻的情況下熟練使用。這是個難以解決的問題,不僅需要機器人擁有強大的視覺感知、決策規劃能力,更需要精確的操縱技能。

現在,一個三維具身圖文大模型系統為以上難題提供了新思路。該系統將基于三維視覺的精準幾何感知模型與擅長規劃的二維圖文大模型結合了起來,無需樣本數據,即可解決與家具家電有關的復雜長程任務。

這項研究由斯坦福大學的 Leonidas Guibas 教授、北京大學的王鶴教授團隊,與智源人工智能研究院合作完成。

論文鏈接:https://arxiv.org/abs/2312.01307

項目主頁:https://geometry.stanford.edu/projects/sage/

代碼:https://github.com/geng-haoran/SAGE

研究問題概述

圖片

圖 1:根據人類指令,機械臂能夠無師自通地使用各種家用電器。

近日,PaLM-E 和 GPT-4V 帶動了圖文大模型在機器人任務規劃中的應用,視覺語言引導下的泛化機器人操控成為了熱門研究領域。

以往的常見方法是建立一個兩層的系統,上層的圖文大模型做規劃和技能調度,下層的操控技能策略模型負責物理地執行動作。但當機器人在家務活中面對各種各樣從未見過并且需要多步操作的家用電器時,現有方法中的上下兩層都將束手無策。

以目前最先進的圖文大模型 GPT-4V 為例,雖然它可以對單張圖片進行文字描述,但涉及可操作零部件檢測、計數、定位及狀態估計時,它仍然錯誤百出。圖二中的紅色高亮部分是 GPT-4V 在描述抽屜柜、烤箱和立柜的圖片時出現的各種錯誤。基于錯誤的描述,機器人再進行技能調度,顯然不太可靠。

圖片

圖 2:GPT-4V 不能很好處理計數,檢測,定位,狀態估計等泛化操控所關注的任務。

下層的操控技能策略模型負責在各種各樣的實際情況中執行上層圖文大模型給出的任務。現有的研究成果大部分是基于規則生硬地對一些已知物體的抓取點位和操作方式進行了編碼,無法泛應對沒見過的新物體類別。而基于端到端的操作模型(如 RT-1,RT-2 等)只使用了 RGB 模態,缺乏對距離的準確感知,對新環境中如高度等變化的泛化性較差。

受王鶴教授團隊之前的 CVPR Highlight 工作 GAPartNet [1] 啟迪,研究團隊將重點放在了各種類別的家用電器中的通用零部件(GAPart)之上。雖然家用電器千變萬化,但總有幾樣零件不可或缺,每個家電和這些通用的零件之間存在相似的幾何和交互模式。

由此,研究團隊在 GAPartNet [1] 這篇論文中引入了 GAPart 這一概念。GAPart 指可泛化可交互的零部件。GAPart 出現在不同類別的鉸接物體上,例如,在保險箱,衣柜,冰箱中都能找到鉸接門這種零件。如圖 3,GAPartNet [1] 在各類物體上標注了 GAPart 的語義和位姿。

圖片

圖3:GAPart:可泛化可交互的零部件[1]。

在之前研究的基礎上,研究團隊創造性地將基于三維視覺的 GAPart 引入了機器人的物體操控系統 SAGE 。SAGE 將通過可泛化的三維零件檢測 (part detection),精確的位姿估計 (pose estimation) 為 VLM 和 LLM 提供信息。新方法在決策層解決了二維圖文模型精細計算和推理能力不足的問題;在執行層,新方法通過基于 GAPart 位姿的魯棒物理操作 API 實現了對各個零件的泛化性操作。

SAGE 構成了首個三維具身圖文大模型系統,為機器人從感知、物理交互再到反饋的全鏈路提供了新思路,為機器人能夠智能、通用地操控家具家電等復雜物體探尋了一條可行的道路。

系統介紹

圖 4 展示了 SAGE 的基本流程。首先,一個能夠解讀上下文的指令解釋模塊將解析輸入機器人的指令和其觀察結果,將這些解析轉化為下一步機器人動作程序以及與其相關的語義部分。接下來,SAGE 將語義部分(如容器 container)與需要進行操作部分(如滑動按鈕 slider button)對應起來,并生成動作(如按鈕的 「按壓 press」 動作)來完成任務。

圖 4:方法概覽。

為了方便大家理解整個系統流程,一起來看看在無需樣本的情況下,讓機械臂使用操作一款沒見過的微波爐的例子。

指令解析:從視覺和指令輸入到可執行的技能指令

輸入指令和 RGBD 圖像觀測后,解釋器首先使用 VLM 和 GAPartNet [1] 生成了場景描述。隨后,LLM(GPT-4)將指令和場景描述作為輸入,生成語義零件和動作程序。或者也可以在這個環節輸入一個特定的用戶手冊。LLM 將基于輸入生成一個可操作零件的目標。

圖片

圖 5:場景描述的生成(以 zero-shot 使用微波爐為例)。

為了更好地協助動作生成,場景描述包含物體信息、零件信息以及一些與互動相關的信息。在生成場景描述之前,SAGE 還將采用專家級 GAPart 模型 [1] 為 VLM 生成專家描述作為提示。這種兼收了兩種模型的優點的方法效果良好。

圖 6:指令理解和運動規劃(以 zero-shot 使用微波爐為例)。

零件交互信息的理解與感知

圖片

圖 7:零件理解。

在輸入觀察結果的過程中,SAGE 綜合了來自 GroundedSAM 的二維(2D)提示和來自 GAPartNet 的三維(3D)提示,然后這些提示被用作可操作零件的具體定位。研究團隊利用 ScoreNet、非極大值抑制(NMS)和 PoseNet 等展示了新方法的感知結果。

其中:(1)對于零件感知評估基準,文章直接采用了 SAM [2]。然而,在操作流程中,文章使用了 GroundedSAM,它也考慮到了作為輸入的語義零件。(2)如果大型語言模型(LLM)直接輸出了一個可操作零件的目標,那么定位過程將被繞過。

圖片

圖 8:零件理解(以 zero-shot 使用微波爐為例)。

動作生成

一旦將語義零件定位到可操作零件之上,SAGE 將在這個零件上生成可執行的操作動作。首先,SAGE 將估計零件的姿態,根據鉸接類型(平移或旋轉)計算鉸接狀態(零件軸線和位置)和可能的運動方向。然后,它再根據以上估算生成機器人操作零件的動作。

在啟動微波爐這個任務中,SAGE 首先預測機械臂應該以一個初始夾爪姿態作為主要動作。再根據 GAPartNet [1] 中定義的預定策略產生動作。這個策略是根據零件姿態和鉸接狀態確定的。例如,為了打開一個帶有旋轉鉸接的門,起始位置可以在門的邊緣或把手上,其軌跡是沿著門鉸鏈定向的圓弧。

交互反饋

到目前為止,研究團隊只使用了一個初始觀測來生成開環交互。這時,他們引入了一種機制,可以進一步利用在互動過程中獲得的觀測結果,更新感知結果并相應調整操作。為了實現這一目標,研究團隊為互動過程中引入了一個兩部分的反饋機制。

應當注意,在首次觀測的感知過程中可能出現遮擋和估算錯誤。

圖 9:直接開門不能打開,該輪交互失敗(以 zero-shot 使用微波爐為例)。

為了解決這些問題,研究者們進而提出了一個模型,利用交互式觀測 (Interactive Perception) 來增強操作。在整個互動過程中,目標夾持器和零件狀態的跟蹤得以保持。如果出現顯著的偏差,規劃器可以自行選擇以下四種狀態之一:「繼續」、「轉移到下一步」、「停止并重新規劃」或 「成功」。

例如,如果設置夾持器沿著一個關節旋轉 60 度,但門只打開了 15 度,大型語言模型(LLM)規劃器會選擇 「停止并重新規劃」。這種互動跟蹤模型確保 LLM 在互動過程中能夠具體問題具體分析,在微波爐啟動失敗的挫折中也能重新「站起來」。

圖片

圖 10:通過交互反饋和重新規劃,機器人意識到按鈕打開的方法并成功。

實驗結果

研究團隊首先搭建了一個大規模語言指導的鉸接物體交互的測試基準。

圖片

圖 11:SAPIEN 模擬實驗。

他們使用了 SAPIEN 環境 [4] 進行了模擬實驗,并設計了 12 項語言引導的鉸接物體操作任務。對于微波爐、儲物家具和櫥柜的每個類別,各設計了 3 個任務,包括在不同初始狀態下的開啟狀態和關閉狀態。其他任務為「打開鍋蓋」、「按下遙控器的按鈕」和「啟動攪拌器」。實驗結果顯示,在幾乎所有任務中 SAGE 都表現卓越。

圖 12:真機演示。

研究團隊同時也進行了大規模真實世界實驗,他們使用 UFACTORY xArm 6 和多種不同的鉸接物體進行操作。上圖的左上部分展示了一個啟動攪拌器的案例。攪拌器的頂部被感知為一個用于裝果汁的容器,但其實際功能需要按下一個按鈕來開啟。SAGE 的框架有效地連接了其語義和動作理解,并成功執行了任務。

上圖右上部分展示了機器人,需要按下(下壓)緊急停止按鈕來停止操作,旋轉(向上)來重啟。借助用戶手冊的輔助輸入,在 SAGE 指導下的機械臂完成了這兩個任務。上圖底部的圖片展示了開啟微波爐任務中的更多細節。

圖片

圖 13:更多真機演示和指令解讀示例。

總結

SAGE是首個能夠生成通用的家具家電等復雜鉸接物體操控指令的三維視覺語言模型框架。它通過在零件級別上連接物體語義和可操作性理解,將語言指令的動作轉化為可執行的操控。

此外,文章還研究了將通用的大型視覺 / 語言模型與領域專家模型相結合的方法,以增強網絡預測的全面性和正確性,更好地處理這些任務并實現最先進的性能。實驗結果表明,該框架具有強大的泛化能力,可以在不同物體類別和任務上展示出優越的性能。此外,文章還為語言指導的鉸接物體操作提供了一個新的基準測試。

團隊介紹

SAGE 這一研究成果來自斯坦福大學 Leonidas Guibas 教授實驗室、北京大學王鶴教授具身感知和交互(EPIC Lab)以及智源人工智能研究院。論文的作者為北京大學學生、斯坦福大學訪問學者耿浩然(共同一作)、北京大學博士生魏松林(共同一作)、斯坦福大學博士生鄧叢悅,沈博魁,指導老師為 Leonidas Guibas 教授和王鶴教授。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-06 15:31:55

智能模型AI

2025-03-31 09:10:00

開源模型智能體

2024-07-22 15:34:21

2024-06-04 09:25:51

2024-09-05 13:11:49

2024-09-27 09:48:28

2009-11-10 12:48:17

VB.NET三維模型

2025-04-25 02:30:00

機械臂大模型多模態

2009-11-10 12:55:26

VB.NET三維模型

2011-05-25 19:16:35

2025-01-09 12:39:27

2024-06-17 12:33:34

2023-08-01 14:14:14

2023-12-23 23:16:36

機器人模型

2022-09-09 15:40:57

Blender開源三維圖形

2024-08-02 10:00:00

2010-10-25 10:11:29

系統運維管理虛擬化
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品小短片 | 黄色av免费网站 | 欧美色999 | 亚洲人免费视频 | 国产一区二区久久 | 亚洲三区在线 | 国内自拍第一页 | 免费国产黄网站在线观看视频 | 一区二区精品视频 | 国产精品久久久99 | 在线观看国产h | 超碰一区二区 | 天天干天天操天天射 | 日韩欧美在线视频观看 | 青娱乐自拍 | 国产毛片久久久久久久久春天 | 欧美亚洲第一区 | 午夜一区二区三区在线观看 | 欧美成人精品激情在线观看 | 综合网伊人 | 欧美激情综合色综合啪啪五月 | 欧美精品tv | 欧美伊人影院 | 精品国产乱码一区二区三区 | 亚洲国产成人精品久久久国产成人一区 | 精品国产一区二区三区av片 | 亚洲黄色在线 | 国产视频福利一区 | 国产在线精品一区二区三区 | 黑人精品 | 国内自拍偷拍视频 | 日韩一区二区免费视频 | 真人一级毛片 | av网站免费 | 久久久女女女女999久久 | 成人免费片 | 国精产品一品二品国精在线观看 | 久久久精品黄色 | 高清黄色 | 亚洲免费视频一区二区 | 中文字幕日韩一区 |