成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

化解機器人的「幻覺」:北大發(fā)布OmniManip,VLM結(jié)合雙閉環(huán)系統(tǒng),3D理解能力大幅提升

人工智能 新聞
北?攜?智元機器?團(tuán)隊提出了 OmniManip 架構(gòu),基于以對象為中?的 3D 交互基元,將 VLM 的高層次推理能力轉(zhuǎn)化為機器?的低層次高精度動作。

本文的作者均來自北京大學(xué)與智元機器人聯(lián)合實驗室,通訊作者為北京大學(xué)計算機學(xué)院助理教授董豪。目前團(tuán)隊研究方向覆蓋智能機器人的泛化操縱、具身導(dǎo)航和感知自主決策。團(tuán)隊持續(xù)開放聯(lián)合實習(xí)生崗位,提供充足的機器人本體和計算資源。

近年來視覺語?基礎(chǔ)模型(Vision  Language  Models,  VLMs)在多模態(tài)理解和?層次常識推理上?放異彩,如何將其應(yīng)?于機器?以實現(xiàn)通?操作是具身智能領(lǐng)域的?個核?問題。這??標(biāo)的實現(xiàn)受兩?關(guān)鍵挑戰(zhàn)制約:

1. VLM 缺少精確的 3D 理解能?:通過對?學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限;

2. ?法輸出低層次動作:將 VLM 在機器?數(shù)據(jù)上進(jìn)?微調(diào)以得到視覺 - 語? - 動作(VLA)模型是?種有前景的解決?案,但?前仍受到數(shù)據(jù)收集成本和泛化能?的限制。

針對上述難題,北?攜?智元機器?團(tuán)隊提出了 OmniManip 架構(gòu),基于以對象為中?的 3D 交互基元,將 VLM 的高層次推理能力轉(zhuǎn)化為機器?的低層次高精度動作。

針對?模型幻覺問題和真實環(huán)境操作的不確定性,OmniManip 創(chuàng)新性地引?了 VLM 規(guī)劃和機器?執(zhí)?的雙閉環(huán)系統(tǒng)設(shè)計,實現(xiàn)了操作性能的顯著突破。

實驗結(jié)果表明,OmniManip 作為?種免訓(xùn)練的開放詞匯操作?法,在各種機器?操作任務(wù)中具備強?的零樣本泛化能?。

項?主?與論?已上線,代碼與測試平臺即將開源。

圖片

  • 主?地址:https://omnimanip.github.io
  • 論?地址:https://arxiv.org/abs/2501.03841

技術(shù)?案解析

?法概述

OmniManip 的關(guān)鍵設(shè)計包括:

  • 基于 VLM 的任務(wù)解析:利? VLM 強?的常識推理能?,將任務(wù)分解為多個結(jié)構(gòu)化階段(Stages),每個階段明確指定了主動物體(Active)、被動物體(Passive)和動作類型(Action)。
  • 以物體為中?的交互基元作為空間約束:通過 3D 基座模型?成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間(canonical space),使 VLM 能夠直接在該空間中采樣 3D 交互基元,作為 Action 的空間約束,從?優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的?標(biāo)交互姿態(tài)。
  • 閉環(huán) VLM 規(guī)劃:將?標(biāo)交互姿態(tài)下的 Active/Passive 物體渲染成圖像,由 VLM 評估與重采樣,實現(xiàn) VLM 對?身規(guī)劃結(jié)果的閉環(huán)調(diào)整。
  • 閉環(huán)機器?執(zhí)?:通過物體 6D 姿態(tài)跟蹤器實時更新 Active/Passive 物體的位姿,轉(zhuǎn)換為機械臂末端執(zhí)?器的操作軌跡,實現(xiàn)閉環(huán)執(zhí)?。


圖片

以物體為中?的交互基元

圖片

物體的交互基元通過其在標(biāo)準(zhǔn)空間中的交互點和?向來表征。交互點 p∈R3 表示物體上關(guān)鍵的交互位置,?交互?向 v∈R3 代表與任務(wù)相關(guān)的主要軸。這兩者共同構(gòu)成交互基元 O={p,v},封裝了滿?任務(wù)約束所需的基本?何和功能屬性。這些標(biāo)準(zhǔn)交互基元相對于其標(biāo)準(zhǔn)空間定義,能夠在不同場景中保持?致,實現(xiàn)更通?和可重?的操作策略。

對于通?物體的交互點提取,OmniManip 利?視覺語?模型(VLM)在原圖(當(dāng)部件可?且實體存在時)或在正交視圖中渲染的 3D ?格(當(dāng)部件不可?或?qū)嶓w不存在時)上進(jìn)?定位。

與 CoPa 和 ReKep 等?法不同,OmniManip 直接讓 VLM 進(jìn)? grounding,不會受限于不穩(wěn)定的 part 分割或聚類結(jié)果。

在交互?向的采樣??,由于物體的規(guī)范化空間通過 Omni6DPose 錨定,軸的?向與語義對?,該團(tuán)隊讓 VLM 直接對物體標(biāo)準(zhǔn)空間的軸進(jìn)?語義描述,并根據(jù)操作任務(wù)進(jìn)?匹配度排序,以獲得交互?向的候選。

雙閉環(huán)系統(tǒng)設(shè)計

李??團(tuán)隊的?作 ReKep 通過關(guān)鍵點跟蹤巧妙地實現(xiàn)了機械臂的閉環(huán)執(zhí)?,但其 VLM 規(guī)劃過程是開環(huán)的。OmniManip 則更進(jìn)?步,得益于以物體為中?的設(shè)計理念,?次在 VLM 規(guī)劃和機械臂執(zhí)?層?實現(xiàn)了雙閉環(huán)系統(tǒng):

閉環(huán)規(guī)劃:在實驗中,VLM 推理很容易出現(xiàn)幻覺,導(dǎo)致錯誤的規(guī)劃結(jié)果(尤其是在涉及 3D 旋轉(zhuǎn)的任務(wù)中,如倒?、插筆)。OmniManip 賦予 VLM 閉環(huán)規(guī)劃能?,通過渲染物體的三維模型,幫助 VLM 「腦補」出規(guī)劃結(jié)果后的物體樣貌,再判斷其合理性。

這?功能賦予了 VLM 空間反思能?,使其能夠在測試時進(jìn)?推理,類似于 OpenAI 的 O1,??提?了操作成功率。為了保持框架的簡潔性,研究團(tuán)隊沒有設(shè)計復(fù)雜的測試時推理流程,僅作?輪校驗就已明顯提?了 VLM 的規(guī)劃準(zhǔn)確率。

閉環(huán)執(zhí)?:OmniManip 提取的交互基元位于物體的規(guī)范空間中,只需引??個 6D 位姿跟蹤器即可輕松實現(xiàn)閉環(huán)操作。與 ReKep 使?的關(guān)鍵點跟蹤器相?,基于物體的 6D 位姿跟蹤?式更為穩(wěn)定,并對遮擋具有更強的魯棒性。(缺點則是不如關(guān)鍵點靈活、?法建模柔性物體操作。)

實驗結(jié)果

強?的開放詞匯操作性能

在 12 個真機短程任務(wù)上,OmniManip 均展現(xiàn)出卓越的性能。

圖片

雙閉環(huán)系統(tǒng)設(shè)計為 OmniManip 帶來了約 17% 的性能提升,這證明了 RRC 在有效減少?模型幻覺影響??的作?。

交互基元的魯棒性

VLM 需要基于交互基元對機器?操作進(jìn)?規(guī)劃,如果交互基元本身存在問題,VLM 就會陷?「巧婦難為??之炊」的困境。因此,可靠的交互基元?關(guān)重要。以往的?法通常是讓 VLM 直接在相機拍攝的 2D 圖像上采樣交互基元,然后通過相機的內(nèi)外參數(shù)轉(zhuǎn)換到 3D 空間。

然?,由于 2D 圖像存在空間歧義,采樣效果對相機視?、圖像紋理和部件形狀等因素極為敏感(例如,當(dāng)相機平視杯?時,之前的?法只能對準(zhǔn)杯?的側(cè)壁、?不是開?)。? OmniManip 則是在物體的 3D 規(guī)范空間中進(jìn)?采樣,能夠輕松克服 2D 圖像的局限性,實現(xiàn)可靠的 3D 交互基元提取。

圖片

強?的拓展性與潛?

OmniManip 能夠與 high-level 任務(wù)規(guī)劃器結(jié)合,實現(xiàn)?程任務(wù)操作

作為?種以物體為中?的算法,OmniManip 與機械臂本體解耦,能夠零成本遷移?不同形態(tài)的本體(例如雙臂?形機器?)。

OmniManip 具有強?的通?泛化能?,不受特定場景和物體限制。團(tuán)隊已將其應(yīng)?于數(shù)字資產(chǎn)?動標(biāo)注 / 合成管道,實現(xiàn)?規(guī)模的機器?軌跡?動采集。該研究團(tuán)隊即將開源?質(zhì)量的泛化操作?規(guī)模數(shù)據(jù)集和對應(yīng)的仿真評測基準(zhǔn),敬請期待!


責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-01-12 13:38:54

業(yè)務(wù)購物ToC

2012-12-12 14:01:58

惠普打印

2012-12-10 11:32:12

打印機

2021-01-12 14:50:55

機器學(xué)習(xí)人工智能計算機

2016-12-20 09:35:52

微軟開源數(shù)據(jù)集

2023-08-08 10:06:25

微軟大語言模型

2024-12-10 09:40:00

AI3D模型

2019-01-10 13:50:04

開發(fā)工具 AI

2025-03-11 09:10:00

2024-03-25 08:00:00

3DAI

2014-01-21 15:05:22

3D打印智能機器人供應(yīng)鏈

2015-01-22 09:56:45

2019-09-05 14:23:16

機器人人工智能系統(tǒng)

2020-05-15 09:28:42

機器學(xué)習(xí)人工智能計算機

2017-05-15 15:40:41

機器人3D打印皮膚

2018-09-29 16:16:43

微軟機器人Windows

2023-09-27 07:39:57

大型語言模型MiniGPT-4

2019-08-26 12:56:44

機器人麥肯錫用戶體驗

2024-01-05 13:27:00

AI訓(xùn)練
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 精品在线一区二区三区 | 亚洲人成在线播放 | 午夜大片| 欧美福利 | 国产精品自产拍在线观看蜜 | 午夜天堂精品久久久久 | 天天躁日日躁狠狠很躁 | 国产美女视频黄a视频免费 国产精品福利视频 | 尤物视频在线免费观看 | 成人精品鲁一区一区二区 | 鲁一鲁资源影视 | 中文字幕一区在线观看视频 | 成人二区| 一级黄色片免费在线观看 | 久久久久亚洲精品 | 一区二区久久电影 | 伊人欧美视频 | h在线播放 | 亚洲精品日韩综合观看成人91 | 欧美日韩视频在线第一区 | 成人在线| 免费黄篇 | 国产激情精品一区二区三区 | 国内精品视频免费观看 | 农村妇女毛片精品久久久 | 国产资源在线观看 | 91色视频在线观看 | 亚洲免费视频在线观看 | 中文天堂在线一区 | 另类一区 | 亚洲九九精品 | 欧美日韩国产高清 | 免费视频一区二区 | 日韩欧美操 | 亚洲精品一区二区三区在线 | 男人av在线播放 | 粉嫩国产精品一区二区在线观看 | 综合久久av | 精品欧美一区二区三区 | 中国美女一级黄色片 | 国产98色在线 | 日韩 |