僅看視頻就能copy人類動作,宇樹G1分分鐘掌握100+,UC伯克利提出機(jī)器人訓(xùn)練新方式
不用動作捕捉,只用一段視頻就能教會機(jī)器人學(xué)會人類動作,效果be like:
UC伯克利團(tuán)隊研發(fā)出了一套新的機(jī)器人訓(xùn)練系統(tǒng),可將視頻動作遷移到真實機(jī)器人。
這個名為VideoMimic的新系統(tǒng),已經(jīng)讓宇樹G1機(jī)器人成功模仿了100多段人類動作。
VideoMimic的核心原理是從視頻當(dāng)中提取姿態(tài)和點云數(shù)據(jù),然后在模擬環(huán)境中訓(xùn)練并最終遷移到實體機(jī)器人。
這項成果引起了網(wǎng)友們的一片哇聲,還有人聯(lián)想到了《加勒比海盜》中的杰克·斯帕羅,表示簡直就像裝上了一個Jack的API一樣。
適應(yīng)各種地形,還會爬臺階
為了訓(xùn)練機(jī)器人策略,研究團(tuán)隊收集了一個包含123個視頻片段的數(shù)據(jù)集。
這些視頻由手持設(shè)備在日常環(huán)境中拍攝,涵蓋了不同的人體運動技能和場景。
在VideoMimic的訓(xùn)練下,宇樹Go1已經(jīng)學(xué)會了適應(yīng)各種地形:
學(xué)會了跨越路肩:
而且學(xué)會了爬臺階,過程中還表演出了花式走位:
既然會上,當(dāng)然也就能下:
并且在下樓梯的過程中,作者發(fā)現(xiàn)即使機(jī)器人的腳底發(fā)生較大滑動,訓(xùn)練得到的策略也能夠快速做出反應(yīng)并恢復(fù)平衡,從而避免跌倒。
除了以上各種行進(jìn)動作之外,也會站起和坐下:
總之,作者的一系列實驗,證明了VideoMimic方法,能夠有效地通過視頻訓(xùn)練機(jī)器人模仿人類動作。
那么,VideoMimic具體是如何工作的呢?
一段視頻訓(xùn)練機(jī)器人
VideoMimic的核心是從單目視頻中重建人體運動和場景幾何,將其轉(zhuǎn)換為仿真環(huán)境中的參考運動,并通過強(qiáng)化學(xué)習(xí)訓(xùn)練出一個單一的策略,使人形機(jī)器人能夠根據(jù)環(huán)境和指令執(zhí)行對應(yīng)的技能。
其工作流程主要包括視頻到仿真環(huán)境的轉(zhuǎn)換、仿真中的機(jī)器人控制策略訓(xùn)練以及在真實機(jī)器人上的策略部署驗證三大步驟。
從視頻中構(gòu)建仿真環(huán)境
第一步中,VideoMimic利用現(xiàn)有的人體姿態(tài)估計和場景重建方法,從輸入的單目RGB視頻中獲取每一幀的人體三維姿態(tài)(通過SMPL人體模型表示)和稠密場景點云。
為了解決人體軌跡與場景不完全一致的問題,VideoMimic還提出了一個聯(lián)合優(yōu)化過程,同時優(yōu)化人體軌跡、局部姿態(tài)以及場景點云尺度,最終在得到準(zhǔn)確對齊的人體運動和場景幾何。
接下來,為使重建的場景能夠在物理仿真環(huán)境中使用,VideoMimic需要進(jìn)一步處理場景點云,將原始的稠密點云轉(zhuǎn)換為具有一定拓?fù)浣Y(jié)構(gòu)的輕量級三角網(wǎng)格模型,以提高碰撞檢測和渲染效率。
最后是將視頻中的人體運動重定向到機(jī)器人模型:VideoMimic考慮了機(jī)器人的運動學(xué)結(jié)構(gòu)差異,通過優(yōu)化人形機(jī)器人各關(guān)節(jié)的旋轉(zhuǎn)角度,將人體運動中的末端位置映射到對應(yīng)的機(jī)器人關(guān)節(jié)位置。
在仿真環(huán)境中訓(xùn)練策略
在獲得視頻對應(yīng)的參考運動軌跡和環(huán)境網(wǎng)格模型后,VideoMimic進(jìn)入了機(jī)器人控制策略的仿真訓(xùn)練階段。
這個階段的目標(biāo)是訓(xùn)練出一個單一的策略網(wǎng)絡(luò),使其能夠克服視頻重建中的噪聲,根據(jù)環(huán)境感知做出對應(yīng)的運動控制。
整個訓(xùn)練過程分為四個漸進(jìn)的階段:
- 第一階段是在大規(guī)模數(shù)據(jù)上進(jìn)行策略預(yù)訓(xùn)練,以掌握基本的運動控制能力,該階段只需要根據(jù)參考的關(guān)節(jié)角度、軀干朝向和位置等運動學(xué)信息進(jìn)行控制;
- 第二階段引入從重建場景中采樣得到的高度圖作為策略的觀察輸入,使得策略能夠感知環(huán)境地形,根據(jù)當(dāng)前環(huán)境做出決策;
- 第三階段使用Dataset Aggregation方法對策略進(jìn)行蒸餾,得到一個不依賴完整參考運動,只依賴機(jī)器人軀干位置指令的新策略;
- 在第四個階段,VideoMimic在蒸餾后的策略基礎(chǔ)上進(jìn)一步應(yīng)用強(qiáng)化學(xué)習(xí)算法進(jìn)行微調(diào),使策略可以更好地適應(yīng)觀察和環(huán)境的噪聲,提高其魯棒性。
經(jīng)過上述四個階段的訓(xùn)練,VideoMimic最終得到了一個泛化能力較強(qiáng)的控制策略。
這個策略只需要機(jī)器人自身的本體感受信息(如關(guān)節(jié)角度、角速度等)、局部高度圖以及期望軀干運動方向作為輸入,就可以輸出連續(xù)的低層控制指令。
這些指令驅(qū)動機(jī)器人執(zhí)行行走、爬樓梯、坐下、站立等各種動作,為實際機(jī)器人部署做好了準(zhǔn)備。
將策略遷移到實體機(jī)器人
VideoMimic選擇了宇樹Go1作為實物測試平臺,Go1是全身擁有12個自由度,其關(guān)節(jié)配置與仿真環(huán)境中的機(jī)器人模型相似。
同時,Go1還搭載了用于感知環(huán)境的深度相機(jī)和慣性測量單元(IMU)等傳感器,可以為控制策略提供必要的觀察信息。
在部署到實物機(jī)器人之前,研究團(tuán)隊首先對Go1進(jìn)行了一些基本設(shè)置。他們參考了MuJoCo仿真器中的機(jī)器人模型參數(shù),對Go1的底層PD控制器進(jìn)行了配置,使其與仿真環(huán)境保持一致。
在真實環(huán)境中,VideoMimic利用Go1自帶的深度相機(jī)獲取環(huán)境的三維幾何信息,結(jié)合彩色圖像SLAM算法,實時重建出以機(jī)器人為中心的局部環(huán)境三維點云。
最終,VideoMimic得到了一個覆蓋機(jī)器人周圍4平方米區(qū)域、分辨率為2.5厘米的高度圖,作為策略模型的環(huán)境觀察輸入。
除了環(huán)境信息外,Go1的關(guān)節(jié)編碼器和IMU也以200Hz的頻率提供了機(jī)器人關(guān)節(jié)角度、角速度、線加速度等本體感受信息。
VideoMimic直接將這些數(shù)據(jù)作為策略模型的輸入,用于估計機(jī)器人當(dāng)前的姿態(tài)和運動狀態(tài)。
Go1搭載的嵌入式計算平臺,讓VideoMimic可以將訓(xùn)練好的策略模型直接部署到機(jī)器人上進(jìn)行實時推理。
研究團(tuán)隊基于ROS機(jī)器人操作系統(tǒng),利用C++實現(xiàn)了策略模型的前向推理和與機(jī)器人底層控制的通信。
策略模型以50Hz的頻率運行,與機(jī)器人控制的周期相匹配。在每個控制周期內(nèi),策略模型讀取當(dāng)前的環(huán)境高度圖和機(jī)器人本體感受信息,輸出預(yù)測的機(jī)器人關(guān)節(jié)角度。
這些關(guān)節(jié)角度經(jīng)過必要的平滑和限幅處理后,直接作為PD控制器的目標(biāo)值,驅(qū)動機(jī)器人運動。
作者簡介
本項目論文的共同一作共有四位,均為UC伯克利博士生,其中包括一位華人。
Arthur Allshire,導(dǎo)師是強(qiáng)化學(xué)習(xí)大牛、吳恩達(dá)帶的第一屆博士Pieter Abbee,以及被李飛飛尊稱為“學(xué)術(shù)祖父”的Jitendra Malik。
Arthur的研究興趣為“智能軟件系統(tǒng)與物理世界的交互”,主攻機(jī)器人、計算機(jī)視覺和機(jī)器學(xué)習(xí)。
他本科畢業(yè)于多倫多大學(xué),其間曾到蘇黎世聯(lián)邦理工學(xué)院訪學(xué),以及在英偉達(dá)實習(xí)。
Hongsuk Choi,同樣是Jitendra Malik的學(xué)生,另一名導(dǎo)師是伯克利助理教授Angjoo Kanazawa。
Angjoo此前在伯克利從事博士后研究,期間的合作導(dǎo)師也包括Jitendra。
Hongsuk的研究興趣是生成先驗、3D計算機(jī)視覺和機(jī)器人技術(shù)。
他本科和碩士均畢業(yè)于首爾大學(xué),2022年畢業(yè)后先后到NAVER和三星公司工作,去年開始到伯克利讀博。
華人作者章俊一(Junyi Zhang),導(dǎo)師是伯克利AI實驗室(BAIR)的聯(lián)合創(chuàng)始人Trevor Darrel教授。
章俊一的研究興趣為計算機(jī)視覺、深度生成模型和表示學(xué)習(xí),現(xiàn)階段重點關(guān)注擴(kuò)散模型的應(yīng)用。
他去年本科畢業(yè)于上海交大,其間曾到微軟實習(xí),并以本科生研究員身份與李永露助理教授合作研究,導(dǎo)師是盧策吾教授。
2023年起,章俊一還成為了DeepMind的合作研究者,至今仍與DeepMind的楊明玄(Ming-Hsuan Yang)、Deqing Sun等人保持合作。
David McAllister,研究興趣是計算機(jī)視覺、成像和數(shù)字創(chuàng)意有,導(dǎo)師為Angjoo Kanazawa。
David本科和碩士同樣就讀于UC伯克利,并且碩士期間的導(dǎo)師也是Angjoo。
去年夏天,David曾到英偉達(dá)投資的AI初創(chuàng)公司Luma實習(xí),Luma推出了與公司同名的視頻生成模型。
除了四位共同一作和他們的導(dǎo)師之外,UC伯克利碩士生Anthony Zhang和博士生Chung Min Kim也參與了這一項目。
項目主頁:
https://www.videomimic.net/
論文地址:
https://arxiv.org/abs/2505.03729