成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

空間智能新進展:教機器人組裝宜家家具,首次實現操作步驟與真實視頻對齊

人工智能 機器人
IKEA Video Manuals數據集中,涵蓋了6大類36種IKEA家具,從簡單的凳子到復雜的柜子,呈現了不同難度的組裝任務。

斯坦福吳佳俊團隊,給機器人設計了一套組裝宜家家具的視頻教程!

具體來說,團隊提出了用于機器人的大型多模態數據集IKEA Video Manuals,已入選NeurIPS。

圖片圖片

數據集涵蓋了6大類IKEA家具,每種家具都包含完整的3D模型、組裝說明書和實際組裝視頻。

而且劃分精細,拆解出的安裝子步驟多達1000多個。

圖片圖片

作者介紹,該數據集首次實現了組裝指令在真實場景中的4D對齊,為研究這一復雜問題提供了重要基準。

知名科技博主、前微軟策略研究者Robert Scoble說,有了這個數據集,機器人將可以學會自己組裝家具。

圖片圖片

團隊成員、斯坦福訪問學者李曼玲(Manling Li)表示,這是空間智能領域的一項重要工作:

這項工作將組裝規劃從2D推進到3D空間,通過理解底層視覺細節,解決了空間智能研究中的一個主要瓶頸。

圖片圖片

1120個子步驟詳述組裝過程

IKEA Video Manuals數據集中,涵蓋了6大類36種IKEA家具,從簡單的凳子到復雜的柜子,呈現了不同難度的組裝任務。

圖片圖片

每一款家具,都包括以下三種模態:

  • 安裝說明書,提供了任務的整體分解和關鍵步驟;
  • 真實組裝視頻,展示了詳細的組裝過程;
  • 3D模型,定義了部件之間的精確空間關系。

并且這三種模態并非簡單地堆砌在一起,作者通過對視頻和操作步驟的拆解,將三種模態進行了精細的對齊。

圖片圖片

舉個例子,在這樣一條關于長凳的數據當中,包含了其基本概況、視頻信息、關鍵幀信息,以及安裝步驟。

從下圖中可以看出,安裝步驟當中有主要步驟和子步驟的劃分,還標注了對應的視頻位置。

圖片圖片

整個數據集中,共包含了137個手冊步驟,根據安裝視頻被細分為了1120個具體子步驟,捕捉了完整的組裝過程。

并且通過6D Pose追蹤,每個部件的空間軌跡都被精確記錄,最終在視頻幀、家具組裝說明書和3D模型之間建立了密集的對應關系。

時空信息精細標注

IKEA Video Manuals數據集是在IKEA-Manual和IKEA Assembly in the Wild(IAW)兩個數據集的基礎上建立的。

其中,IKEA-Manual數據集提供了模型及其對應說明書,IAW則包含了大量用戶組裝宜家家具的視頻片段。

這些視頻來自90多個不同的環境,包括室內外場景、不同光照條件,真實反映了家具組裝的多樣性。

圖片圖片

與在實驗室環境下采集的數據相比,這些真實視頻帶來了更豐富的挑戰:

  • 部件經常被手或其他物體遮擋;
  • 相似部件識別(如四條一模一樣的桌子腿);
  • 攝像機頻繁移動、變焦,帶來參數估計的困難;
  • 室內外場景、不同光照條件下的多樣性。

圖片圖片


為了獲得高質量的標注,應對真實視頻帶來的挑戰,研究團隊建立了一套可靠的標注系統:

  • 識別并標注相機參數變化的關鍵幀,確保片段內的一致性;
  • 結合2D-3D對應點和RANSAC算法進行相機參數估計;
  • 通過多視角驗證和時序約束保證標注質量。

圖片圖片

首先,研究者們首先定義了一套層次化的裝配過程描述框架,將整個裝配過程分為步驟、子步驟和視頻幀等多個層級。

作者首先從IAW數據集中提取每個手動步驟的視頻片段,并將每個視頻片段分解為更小的間隔(子步驟)。

對于每個子步驟,作者以1FPS的速度采樣視頻幀,并在每個子步驟的第一幀中標注出家具部件。

圖片圖片

為了在整個組裝視頻中對家具部件進行跟蹤,作者還在采樣幀中為3D部件注釋了2D圖像分割掩碼。

為了促進注釋過程,研究團隊開發了一個顯示輔助2D和3D信息的Web界面,同時該界面還可基于Segment Anything Model(SAM)模型進行交互式掩碼注釋。

圖片圖片

標注過程中,標注人員會在3D模型上選中零件,然后在2D視頻幀上指示其大致位置,并將其輸入到SAM模型中以實時生成2D分割掩碼。

為了解決SAM在提取具有相似紋理的部分之間或低光區域的邊界方面的固有局限,作者還允許標注人員使用畫筆和橡皮擦工具進行手動調整。

此外,作者還要估計視頻中的相機參數,為此研究者們首先人工標記出視頻幀中可能出現相機運動(如焦距變化、切換視角等)的位置,然后標注出視頻幀和3D模型之間的2D-3D對應關鍵點。

最后,結合這兩類標注信息,研究者們使用PnP (Perspective-n-Point)算法估計出每段視頻的相機內參數,得到相機參數的初始估計后,利用交互式工具來細化每個視頻幀中零件的6D姿態。

空間模型能力評估

基于IKEA Video Manuals數據集,團隊設計了多個核心任務來評估當前AI系統在理解和執行家具組裝,以及空間推理(spatial reasoning)方面的能力。

首先是基于3D模型的分割(Segmentation)姿態估計 (Pose Estimation)。

此類任務輸入3D模型和視頻幀,要求AI準確分割出特定部件區域,并估計其在視頻中的6自由度姿態。

圖片圖片

△上:基于3D模型的分割,下:基于3D模型的姿態估計

實驗測試了最新的分割模型(CNOS, SAM-6D)和姿態估計模型(MegaPose)

分析發現,它們在以下場景表現不佳:

  • 遮擋問題:手部遮擋、近距離拍攝導致部分可見、遮擋引起的深度估計誤差;
  • 特征缺失:缺乏紋理的部件難以分割、對稱部件的方向難以判斷;
  • 特殊拍攝角度(如俯視)導致的尺度誤判。

圖片圖片

△上:遮擋問題,左下:特征缺失,右下:特殊角度

第二類任務是視頻目標分割,作者對比測試了兩個最新的視頻追蹤模型SAM2和Cutie。

結果顯示,在真實組裝場景中,這些模型同樣面臨著三大挑戰。

一是相機的運動,可能導致目標丟失。

圖片圖片

二是難以區分外觀相似的部件(如多個相同的桌腿)。

圖片圖片

最后,保持長時間追蹤的準確度也存在一定難度。

第三類任務,是基于視頻的形狀組裝。

團隊提出了一個創新的組裝系統,包含關鍵幀檢測、部件識別、姿態估計和迭代組裝四個步驟。

實驗采用兩種設置:

  • 使用GPT-4V自動檢測關鍵幀:結果不理想,Chamfer Distance達0.55,且1/3的測試視頻未能完成組裝;
  • 使用人工標注的關鍵幀:由于姿態估計模型的局限性,最終Chamfer Distance仍達0.33。

圖片圖片

這些實驗結果揭示了當前AI模型的兩個關鍵局限:

  • 視頻理解能力不足:當前的視頻模型對時序信息的分析仍然較弱,往往停留在單幀圖像分析的層面;
  • 空間推理受限:在真實場景的復雜條件下(如光照變化、視角改變、部件遮擋等),現有模型的空間推理能力仍顯不足。

作者簡介

本項目第一作者,是斯坦福大學計算機科學碩士生劉雨濃(Yunong Liu)目前在斯坦福SVL實驗室(Vision and Learning Lab),由吳佳俊教授指導。

圖片圖片

她本科畢業于愛丁堡大學電子與計算機科學專業(榮譽學位),曾在德克薩斯大學奧斯汀分校從事研究實習。

斯坦福大學助理教授、清華姚班校友吳佳俊,是本項目的指導教授。

圖片圖片

另據論文信息顯示,斯坦福大學博士后研究員劉蔚宇(Weiyu Liu),與吳佳俊具有同等貢獻。

圖片圖片

此外,Salesforce AI Research研究主任Juan Carlos Niebles,西北大學計算機科學系助理教授、斯坦福訪問學者李曼玲(Manling Li)等人亦參與了此項目。

圖片圖片

圖片圖片


其他作者情況如下:

圖片圖片

項目主頁:https://yunongliu1.github.io/ikea-video-manual/論文地址:https://arxiv.org/abs/2411.11409

責任編輯:武曉燕 來源: 量子位
相關推薦

2012-02-09 09:49:48

2020-11-20 12:46:14

機器狗騰訊自行車

2024-12-03 10:30:00

AI模型

2023-07-17 10:21:25

TC39JavaScript

2019-11-15 10:11:03

人工智能埃博拉技術

2023-04-19 20:30:49

Rust商標政策

2023-09-25 13:12:41

Optimus機器人

2018-03-28 09:28:16

CITE機器人智能系統館

2009-09-25 09:27:33

Ubuntu 2010最新進展Lucid Lynx

2024-06-27 11:02:44

2023-04-17 19:12:19

2012-11-19 10:37:57

思杰OpenStack

2012-11-19 10:50:39

思杰CloudStack開源

2015-11-12 09:27:13

C++最新進展

2022-10-21 17:30:26

機器人

2021-09-14 10:03:35

RustLinux開發工作

2020-07-02 16:00:53

?Flutter桌面應用代碼

2023-01-09 13:06:21

AI

2024-01-05 19:44:48

谷歌機器人憲法AI

2021-11-12 20:59:21

數字人民幣數字貨幣區塊鏈
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美一级毛片久久99精品蜜桃 | 美女人人操 | 一区二区福利视频 | 密色视频 | 成人免费在线播放 | 精品日韩一区 | 日本免费视频在线观看 | 国产伦精品一区二区三区照片91 | 中文字幕亚洲精品 | 成人精品视频 | 一区二区三区视频在线观看 | 久久国内| 精品国产乱码久久久久久蜜退臀 | 免费看片在线播放 | 色婷婷九月 | 久久免费视频在线 | 精品福利一区二区三区 | 午夜久久久久 | 99久久精品免费看国产免费软件 | 中文字幕一区二区在线观看 | 免费观看a级毛片在线播放 黄网站免费入口 | 国产精品日韩在线观看一区二区 | 国产三级国产精品 | 日韩欧美亚洲 | 狠狠操婷婷 | 色成人免费网站 | 一级高清免费毛片 | 欧美日韩国产精品一区二区 | 日本亚洲精品成人欧美一区 | 欧美精品一区三区 | 久久精品久久久久久 | 91久久综合 | 91精品国产综合久久国产大片 | 国产美女网站 | 欧美一级黄色免费看 | 亚洲久久一区 | 日日天天| 一级黄色片免费在线观看 | 综合国产在线 | 一级黄色在线 | 一二三在线视频 |