僅看視頻就能copy人類動作，宇樹G1分分鐘掌握100+，UC伯克利提出機(jī)器人訓(xùn)練新方式

2025-05-09 08:50:00

人工智能新聞

UC伯克利團(tuán)隊研發(fā)出了一套新的機(jī)器人訓(xùn)練系統(tǒng)，可將視頻動作遷移到真實機(jī)器人。

不用動作捕捉，只用一段視頻就能教會機(jī)器人學(xué)會人類動作，效果be like：

UC伯克利團(tuán)隊研發(fā)出了一套新的機(jī)器人訓(xùn)練系統(tǒng)，可將視頻動作遷移到真實機(jī)器人。

這個名為VideoMimic的新系統(tǒng)，已經(jīng)讓宇樹G1機(jī)器人成功模仿了100多段人類動作。

VideoMimic的核心原理是從視頻當(dāng)中提取姿態(tài)和點云數(shù)據(jù)，然后在模擬環(huán)境中訓(xùn)練并最終遷移到實體機(jī)器人。

這項成果引起了網(wǎng)友們的一片哇聲，還有人聯(lián)想到了《加勒比海盜》中的杰克·斯帕羅，表示簡直就像裝上了一個Jack的API一樣。

適應(yīng)各種地形，還會爬臺階

為了訓(xùn)練機(jī)器人策略，研究團(tuán)隊收集了一個包含123個視頻片段的數(shù)據(jù)集。

這些視頻由手持設(shè)備在日常環(huán)境中拍攝，涵蓋了不同的人體運動技能和場景。

在VideoMimic的訓(xùn)練下，宇樹Go1已經(jīng)學(xué)會了適應(yīng)各種地形：

學(xué)會了跨越路肩：

而且學(xué)會了爬臺階，過程中還表演出了花式走位：

既然會上，當(dāng)然也就能下：

并且在下樓梯的過程中，作者發(fā)現(xiàn)即使機(jī)器人的腳底發(fā)生較大滑動，訓(xùn)練得到的策略也能夠快速做出反應(yīng)并恢復(fù)平衡，從而避免跌倒。

除了以上各種行進(jìn)動作之外，也會站起和坐下：

總之，作者的一系列實驗，證明了VideoMimic方法，能夠有效地通過視頻訓(xùn)練機(jī)器人模仿人類動作。

那么，VideoMimic具體是如何工作的呢？

一段視頻訓(xùn)練機(jī)器人

VideoMimic的核心是從單目視頻中重建人體運動和場景幾何，將其轉(zhuǎn)換為仿真環(huán)境中的參考運動，并通過強(qiáng)化學(xué)習(xí)訓(xùn)練出一個單一的策略，使人形機(jī)器人能夠根據(jù)環(huán)境和指令執(zhí)行對應(yīng)的技能。

其工作流程主要包括視頻到仿真環(huán)境的轉(zhuǎn)換、仿真中的機(jī)器人控制策略訓(xùn)練以及在真實機(jī)器人上的策略部署驗證三大步驟。

從視頻中構(gòu)建仿真環(huán)境

第一步中，VideoMimic利用現(xiàn)有的人體姿態(tài)估計和場景重建方法，從輸入的單目RGB視頻中獲取每一幀的人體三維姿態(tài)（通過SMPL人體模型表示）和稠密場景點云。

為了解決人體軌跡與場景不完全一致的問題，VideoMimic還提出了一個聯(lián)合優(yōu)化過程，同時優(yōu)化人體軌跡、局部姿態(tài)以及場景點云尺度，最終在得到準(zhǔn)確對齊的人體運動和場景幾何。

接下來，為使重建的場景能夠在物理仿真環(huán)境中使用，VideoMimic需要進(jìn)一步處理場景點云，將原始的稠密點云轉(zhuǎn)換為具有一定拓?fù)浣Y(jié)構(gòu)的輕量級三角網(wǎng)格模型，以提高碰撞檢測和渲染效率。

最后是將視頻中的人體運動重定向到機(jī)器人模型：VideoMimic考慮了機(jī)器人的運動學(xué)結(jié)構(gòu)差異，通過優(yōu)化人形機(jī)器人各關(guān)節(jié)的旋轉(zhuǎn)角度，將人體運動中的末端位置映射到對應(yīng)的機(jī)器人關(guān)節(jié)位置。

在仿真環(huán)境中訓(xùn)練策略

在獲得視頻對應(yīng)的參考運動軌跡和環(huán)境網(wǎng)格模型后，VideoMimic進(jìn)入了機(jī)器人控制策略的仿真訓(xùn)練階段。

這個階段的目標(biāo)是訓(xùn)練出一個單一的策略網(wǎng)絡(luò)，使其能夠克服視頻重建中的噪聲，根據(jù)環(huán)境感知做出對應(yīng)的運動控制。

整個訓(xùn)練過程分為四個漸進(jìn)的階段：

第一階段是在大規(guī)模數(shù)據(jù)上進(jìn)行策略預(yù)訓(xùn)練，以掌握基本的運動控制能力，該階段只需要根據(jù)參考的關(guān)節(jié)角度、軀干朝向和位置等運動學(xué)信息進(jìn)行控制；
第二階段引入從重建場景中采樣得到的高度圖作為策略的觀察輸入，使得策略能夠感知環(huán)境地形，根據(jù)當(dāng)前環(huán)境做出決策；
第三階段使用Dataset Aggregation方法對策略進(jìn)行蒸餾，得到一個不依賴完整參考運動，只依賴機(jī)器人軀干位置指令的新策略；
在第四個階段，VideoMimic在蒸餾后的策略基礎(chǔ)上進(jìn)一步應(yīng)用強(qiáng)化學(xué)習(xí)算法進(jìn)行微調(diào)，使策略可以更好地適應(yīng)觀察和環(huán)境的噪聲，提高其魯棒性。

經(jīng)過上述四個階段的訓(xùn)練，VideoMimic最終得到了一個泛化能力較強(qiáng)的控制策略。

這個策略只需要機(jī)器人自身的本體感受信息（如關(guān)節(jié)角度、角速度等）、局部高度圖以及期望軀干運動方向作為輸入，就可以輸出連續(xù)的低層控制指令。

這些指令驅(qū)動機(jī)器人執(zhí)行行走、爬樓梯、坐下、站立等各種動作，為實際機(jī)器人部署做好了準(zhǔn)備。

將策略遷移到實體機(jī)器人

VideoMimic選擇了宇樹Go1作為實物測試平臺，Go1是全身擁有12個自由度，其關(guān)節(jié)配置與仿真環(huán)境中的機(jī)器人模型相似。

同時，Go1還搭載了用于感知環(huán)境的深度相機(jī)和慣性測量單元（IMU）等傳感器，可以為控制策略提供必要的觀察信息。

在部署到實物機(jī)器人之前，研究團(tuán)隊首先對Go1進(jìn)行了一些基本設(shè)置。他們參考了MuJoCo仿真器中的機(jī)器人模型參數(shù)，對Go1的底層PD控制器進(jìn)行了配置，使其與仿真環(huán)境保持一致。

在真實環(huán)境中，VideoMimic利用Go1自帶的深度相機(jī)獲取環(huán)境的三維幾何信息，結(jié)合彩色圖像SLAM算法，實時重建出以機(jī)器人為中心的局部環(huán)境三維點云。

最終，VideoMimic得到了一個覆蓋機(jī)器人周圍4平方米區(qū)域、分辨率為2.5厘米的高度圖，作為策略模型的環(huán)境觀察輸入。

除了環(huán)境信息外，Go1的關(guān)節(jié)編碼器和IMU也以200Hz的頻率提供了機(jī)器人關(guān)節(jié)角度、角速度、線加速度等本體感受信息。

VideoMimic直接將這些數(shù)據(jù)作為策略模型的輸入，用于估計機(jī)器人當(dāng)前的姿態(tài)和運動狀態(tài)。

Go1搭載的嵌入式計算平臺，讓VideoMimic可以將訓(xùn)練好的策略模型直接部署到機(jī)器人上進(jìn)行實時推理。

研究團(tuán)隊基于ROS機(jī)器人操作系統(tǒng)，利用C++實現(xiàn)了策略模型的前向推理和與機(jī)器人底層控制的通信。

策略模型以50Hz的頻率運行，與機(jī)器人控制的周期相匹配。在每個控制周期內(nèi)，策略模型讀取當(dāng)前的環(huán)境高度圖和機(jī)器人本體感受信息，輸出預(yù)測的機(jī)器人關(guān)節(jié)角度。

這些關(guān)節(jié)角度經(jīng)過必要的平滑和限幅處理后，直接作為PD控制器的目標(biāo)值，驅(qū)動機(jī)器人運動。

作者簡介

本項目論文的共同一作共有四位，均為UC伯克利博士生，其中包括一位華人。

Arthur Allshire，導(dǎo)師是強(qiáng)化學(xué)習(xí)大牛、吳恩達(dá)帶的第一屆博士Pieter Abbee，以及被李飛飛尊稱為“學(xué)術(shù)祖父”的Jitendra Malik。

Arthur的研究興趣為“智能軟件系統(tǒng)與物理世界的交互”，主攻機(jī)器人、計算機(jī)視覺和機(jī)器學(xué)習(xí)。

他本科畢業(yè)于多倫多大學(xué)，其間曾到蘇黎世聯(lián)邦理工學(xué)院訪學(xué)，以及在英偉達(dá)實習(xí)。

Hongsuk Choi，同樣是Jitendra Malik的學(xué)生，另一名導(dǎo)師是伯克利助理教授Angjoo Kanazawa。

Angjoo此前在伯克利從事博士后研究，期間的合作導(dǎo)師也包括Jitendra。

Hongsuk的研究興趣是生成先驗、3D計算機(jī)視覺和機(jī)器人技術(shù)。

他本科和碩士均畢業(yè)于首爾大學(xué)，2022年畢業(yè)后先后到NAVER和三星公司工作，去年開始到伯克利讀博。

華人作者章俊一（Junyi Zhang），導(dǎo)師是伯克利AI實驗室（BAIR）的聯(lián)合創(chuàng)始人Trevor Darrel教授。

章俊一的研究興趣為計算機(jī)視覺、深度生成模型和表示學(xué)習(xí)，現(xiàn)階段重點關(guān)注擴(kuò)散模型的應(yīng)用。

他去年本科畢業(yè)于上海交大，其間曾到微軟實習(xí)，并以本科生研究員身份與李永露助理教授合作研究，導(dǎo)師是盧策吾教授。

2023年起，章俊一還成為了DeepMind的合作研究者，至今仍與DeepMind的楊明玄（Ming-Hsuan Yang）、Deqing Sun等人保持合作。

David McAllister，研究興趣是計算機(jī)視覺、成像和數(shù)字創(chuàng)意有，導(dǎo)師為Angjoo Kanazawa。

David本科和碩士同樣就讀于UC伯克利，并且碩士期間的導(dǎo)師也是Angjoo。

去年夏天，David曾到英偉達(dá)投資的AI初創(chuàng)公司Luma實習(xí)，Luma推出了與公司同名的視頻生成模型。

除了四位共同一作和他們的導(dǎo)師之外，UC伯克利碩士生Anthony Zhang和博士生Chung Min Kim也參與了這一項目。

項目主頁：
https://www.videomimic.net/
論文地址：
https://arxiv.org/abs/2505.03729

責(zé)任編輯：張燕妮來源：量子位

機(jī)器人訓(xùn)練 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看