成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)

發(fā)布于 2025-2-11 11:59
瀏覽
0收藏

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

論文鏈接:https://arxiv.org/pdf/2502.03206
項(xiàng)目鏈接:https://hugwbc.github.io/

亮點(diǎn)直擊

  • 一個擴(kuò)展的通用指令空間,結(jié)合高級訓(xùn)練技術(shù),以實(shí)現(xiàn)細(xì)粒度的人形機(jī)器人步態(tài)控制。
  • 在單一策略下(除單腳跳步態(tài)外),可精準(zhǔn)跟蹤四種不同步態(tài)下的八種不同指令
  • 一個基礎(chǔ)的人形機(jī)器人控制器,支持外部上半身干預(yù),并能夠執(zhí)行更廣泛的運(yùn)動-操作一體化(loco-manipulation)任務(wù)。

總結(jié)速覽

解決的問題

當(dāng)前的人形機(jī)器人行走系統(tǒng)單一、被動,缺乏可擴(kuò)展性,難以實(shí)現(xiàn)如人類般的多樣化運(yùn)動(如奔跑、跳躍、單腳跳等),也無法對步態(tài)參數(shù)(步頻、步幅、腳擺高度等)進(jìn)行細(xì)粒度調(diào)整。此外,現(xiàn)有方法在執(zhí)行運(yùn)動任務(wù)時,缺乏對上半身控制的實(shí)時干預(yù)能力,限制了機(jī)器人在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

提出的方案

提出 HUGWBC(Humanoid’s Unified and General Whole-Body Control),一個統(tǒng)一的全身控制策略,支持機(jī)器人生成細(xì)粒度可控的多種步態(tài),包括行走、奔跑、跳躍、單腳跳等,并可調(diào)整步態(tài)參數(shù)(步頻、腳擺高度)姿態(tài)參數(shù)(身體高度、腰部旋轉(zhuǎn)、身體俯仰)。此外,HUGWBC 允許上半身接受外部控制(如遙操作),實(shí)現(xiàn)運(yùn)動-操作一體化(loco-manipulation)

應(yīng)用的技術(shù)

  • 通用指令空間設(shè)計(jì):在任務(wù)和行為層面定義統(tǒng)一的控制指令,使步態(tài)調(diào)整靈活且易擴(kuò)展。
  • 對稱性損失(Symmetrical Loss):在學(xué)習(xí)過程中引入對稱性約束,提升步態(tài)穩(wěn)定性和可控性。
  • 干預(yù)訓(xùn)練(Intervention Training):在訓(xùn)練中模擬外部干預(yù),增強(qiáng)機(jī)器人在實(shí)時控制下的魯棒性和適應(yīng)性。
  • 強(qiáng)化學(xué)習(xí)訓(xùn)練:在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)優(yōu)化單一策略,使機(jī)器人能夠直接適應(yīng)現(xiàn)實(shí)環(huán)境,減少現(xiàn)實(shí)訓(xùn)練成本。

達(dá)到的效果

  • 機(jī)器人可在單一控制策略下執(zhí)行多種步態(tài)(行走、奔跑、跳躍、單腳跳等)。
  • 支持步態(tài)參數(shù)姿態(tài)參數(shù)的實(shí)時調(diào)整,實(shí)現(xiàn)細(xì)粒度控制
  • 允許上半身遙操作,在運(yùn)動過程中保持高精度操作能力。
  • 經(jīng)過實(shí)驗(yàn)驗(yàn)證,HUGWBC 在跟蹤精度、穩(wěn)定性、魯棒性方面均表現(xiàn)優(yōu)異,并深入分析了不同指令組合對步態(tài)的影響,為優(yōu)化機(jī)器人運(yùn)動控制提供了新思路。

HUGWBC

人形機(jī)器人運(yùn)動的一般指令空間

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

HUGWBC 通過訓(xùn)練單一策略來適配站立、行走和跳躍步態(tài),而單腳跳躍步態(tài)則采用了獨(dú)立的策略。

詳細(xì)觀察

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

如果沒有外部上半身控制信號,機(jī)器人上半身關(guān)節(jié)將默認(rèn)由我們開發(fā)的全身控制器控制,使手臂自然擺動。

策略學(xué)習(xí)的獎勵設(shè)計(jì)

具身全身控制器是通過非對稱的行為者-評論家訓(xùn)練范式通過強(qiáng)化學(xué)習(xí) (RL) 獲得的。為了學(xué)習(xí)具有一般性和多樣性行為的政策,我們設(shè)計(jì)了一組獎勵函數(shù),主要由任務(wù)獎勵、行為獎勵和規(guī)范化獎勵三部分組成。獎勵的細(xì)節(jié)在表1中總結(jié)。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

任務(wù)獎勵意味著跟蹤任何任務(wù)命令 k,在這項(xiàng)工作中,它是目標(biāo)速度 v,包括線性和角速度。正規(guī)化獎勵考慮到物理硬件的性能,并對運(yùn)動的平穩(wěn)性和安全性施加限制。這些在以前的工作中經(jīng)常使用 [39]。

在這項(xiàng)工作中,由于我們想建立一個通用的全身控制器,以支持細(xì)粒度的運(yùn)動行為的人形機(jī)器人,引入了一套行為獎勵,以鼓勵機(jī)器人跟蹤任何行為命令 b,如下所示。對于大多數(shù)行為指令,包括身高 h、身高 p 和腰圍旋轉(zhuǎn) w,簡單地用均方差 (MSE) 來制定獎勵:

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

一個理想的足部軌跡通常需要滿足三個關(guān)鍵標(biāo)準(zhǔn):

  1. 在支撐階段,足部速度和加速度為零;
  2. 在擺動階段末尾,足部速度和加速度為零;
  3. 在兩個階段之間的過渡過程中,足部的速度和加速度要連續(xù)。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

鏡像功能與對稱損失

自然且對稱的運(yùn)動行為是人類通過學(xué)習(xí)逐漸掌握的,因?yàn)樗谧钚』芰肯姆矫婢哂泄逃械膬?yōu)雅和效率。類人機(jī)器人具有高度仿生的機(jī)制,也具有對稱的結(jié)構(gòu)特征。然而,缺乏先驗(yàn)知識,使得政策難以探索對稱形態(tài)信息,尤其是在生成多樣化行為的策略中。這使得初期探索變得更加困難,政策容易陷入局部最優(yōu)解,導(dǎo)致不自然的運(yùn)動。為了利用這種形態(tài)對稱性并受到[49]的啟發(fā),提出了鏡像函數(shù)F(.) ,以鼓勵政策生成對稱且自然的運(yùn)動。在這樣的對稱結(jié)構(gòu)下,理想情況下,政策輸出應(yīng)滿足:

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

整體訓(xùn)練目標(biāo)。HUGWBC 采用非對稱演員-評論家框架 ,以 PPO 作為 RL 算法來訓(xùn)練全身控制策略。因此,總體訓(xùn)練目標(biāo)可以寫作:

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

外部上肢干預(yù)訓(xùn)練

到目前為止,已經(jīng)學(xué)習(xí)了一個全身控制器,它共同控制上下肢。然而,本工作的目標(biāo)不是專門為 locomotion 任務(wù)設(shè)計(jì)的控制器,而是構(gòu)建一個統(tǒng)一且通用的人形控制器,作為 loco-manipulation 任務(wù)的基礎(chǔ)支持。換句話說,控制器還應(yīng)支持靈活且精確的上肢(手臂和手)控制。與一些以前的工作通過上肢命令(例如,手臂關(guān)節(jié)位置)擴(kuò)展命令空間不同,考慮將上肢控制解耦為外部控制干預(yù),通過遠(yuǎn)程操作信號或重新定向的運(yùn)動關(guān)節(jié),同時不影響下肢步態(tài),因?yàn)橄轮哂泻芨叩目刂凭取=鉀Q方案是在訓(xùn)練過程中采樣替代動作來替換全身策略產(chǎn)生的上肢動作,使得策略對任何干預(yù)都具有魯棒性。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

獎勵掩蔽
當(dāng)干預(yù)介入時,在訓(xùn)練過程中掩蔽上肢的正則化獎勵,以消除策略輸出試圖接管上肢的潛在沖突。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

課程學(xué)習(xí)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)在仿真和現(xiàn)實(shí)世界的機(jī)器人上進(jìn)行全面實(shí)驗(yàn),以回答以下問題:

  • Q1(仿真):HUGWBC策略在不同命令下的跟蹤表現(xiàn)如何?
  • Q2(仿真):如何合理地結(jié)合一般命令空間中的各種命令?
  • Q3(仿真):大規(guī)模噪聲干預(yù)訓(xùn)練如何幫助策略的魯棒性?
  • Q4(現(xiàn)實(shí)):HUGWBC在現(xiàn)實(shí)世界中的表現(xiàn)如何?

機(jī)器人與仿真器
本文的主要實(shí)驗(yàn)是在Unitree H1機(jī)器人上進(jìn)行的,該機(jī)器人共有19個自由度(DOF),包括兩個3自由度的肩關(guān)節(jié)、兩個肘關(guān)節(jié)、一個腰關(guān)節(jié)、兩個3自由度的髖關(guān)節(jié)、兩個膝關(guān)節(jié)和兩個踝關(guān)節(jié)。仿真訓(xùn)練基于NVIDIA IsaacGym仿真器。

命令分析原理與度量
本文的一大貢獻(xiàn)是擴(kuò)展并普及了人形機(jī)器人通用的命令空間。重點(diǎn)關(guān)注命令分析(涉及Q1和Q2)。這包括單一命令跟蹤誤差的分析,以及在不同步態(tài)下不同命令的組合分析。為了進(jìn)行分析,我們評估了平均的單集命令跟蹤誤差(記作Ecmd),該誤差衡量實(shí)際機(jī)器人狀態(tài)與命令空間之間的偏差,使用一階范數(shù)。所有命令都在預(yù)定義的命令范圍內(nèi)均勻采樣,如下表II所示。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

單一命令跟蹤

首先分析每個命令單獨(dú)的跟蹤效果,同時保持其他命令的默認(rèn)值。結(jié)果見下表III。可以明顯看到,行走和站立的跟蹤誤差顯著低于跳躍和跳躍的誤差,且跳躍的誤差最大。對于跳躍步態(tài),機(jī)器人可能在跟蹤特定命令時發(fā)生跌倒,比如高速跟蹤、身體俯仰和腰部偏航控制。這可以歸因于跳躍需要較高的穩(wěn)定性。此外,復(fù)雜的姿勢和運(yùn)動進(jìn)一步加劇了不穩(wěn)定的風(fēng)險(xiǎn)。因此,策略優(yōu)先學(xué)習(xí)保持平衡,在一定程度上犧牲了命令跟蹤的準(zhǔn)確性。

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

命令組合分析

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

跳躍
跳躍步態(tài)引入了更多的不穩(wěn)定性,機(jī)器人的控制系統(tǒng)必須更加關(guān)注保持平衡,這使得同時處理復(fù)雜的多維命令變得困難。

站立
在站立步態(tài)中,我們測試了與姿勢相關(guān)的命令跟蹤誤差。結(jié)果表明,這些跟蹤誤差與行走過程中零速度的跟蹤誤差類似。

  • 腰部偏航w命令幾乎與其他兩個命令正交。
  • 隨著命令范圍的增加,身體高度h與身體俯仰p之間的正交性減少。這是因?yàn)镠1機(jī)器人在腰部只有一個自由度,限制了姿勢調(diào)整的范圍,僅能通過髖部俯仰關(guān)節(jié)進(jìn)行。
  • 相對于默認(rèn)高度,身體高度0.3米的下降幾乎將髖部俯仰關(guān)節(jié)的運(yùn)動范圍減少到零,阻礙了精確的身體俯仰跟蹤。

得出結(jié)論,步態(tài)頻率f在過高或過低時會顯著影響運(yùn)動命令的跟蹤準(zhǔn)確性;姿勢命令尤其在接近范圍極限時,可以顯著影響其他命令的跟蹤誤差。對于不同步態(tài),命令之間的正交性范圍在行走步態(tài)中最大,而在跳躍步態(tài)中最小。

干預(yù)訓(xùn)練策略的消融研究

為了驗(yàn)證干預(yù)訓(xùn)練策略在外部上半身干預(yù)下對策略魯棒性的有效性,我們比較了使用不同策略訓(xùn)練的策略,包括噪聲課程(HUGWBC)、過濾后的AMASS數(shù)據(jù)和無干預(yù)的策略。測試了在兩種不同干預(yù)任務(wù)下的跟蹤誤差,即均勻噪聲、AAMAS數(shù)據(jù)集,以及無干預(yù)設(shè)置。行走步態(tài)下的結(jié)果顯示在表IV中,其他步態(tài)的結(jié)果見附錄C-B。顯然,HUGWBC的噪聲課程策略在幾乎所有測試案例下都表現(xiàn)最佳,除了在無干預(yù)情況下與姿勢相關(guān)的跟蹤。在具體分析中,HUGWBC在各種干預(yù)下的跟蹤準(zhǔn)確性下降較少,表明我們的噪聲課程干預(yù)策略使控制策略能夠應(yīng)對大范圍的手臂運(yùn)動,非常適用于和支持運(yùn)動操作任務(wù)。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略在均勻噪聲干預(yù)下,因訓(xùn)練數(shù)據(jù)中運(yùn)動的局限性,跟蹤準(zhǔn)確性顯著下降。而沒有任何干預(yù)的策略僅在沒有外部上半身控制時表現(xiàn)良好。


值得注意的是,當(dāng)涉及干預(yù)訓(xùn)練時,與腳部和運(yùn)動相關(guān)的跟蹤誤差也比沒有干預(yù)訓(xùn)練的策略更好,而HUGWBC提供了最準(zhǔn)確的跟蹤。這表明干預(yù)訓(xùn)練也有助于提高策略的魯棒性。在我們的真實(shí)機(jī)器人實(shí)驗(yàn)中,我們進(jìn)一步觀察到,當(dāng)機(jī)器人與地面接觸時,它表現(xiàn)出更大的接觸力,這表明當(dāng)涉及干預(yù)時,運(yùn)動規(guī)則化和跟蹤準(zhǔn)確性之間可能存在一定的權(quán)衡。

站立步態(tài)下的穩(wěn)定性
在站立狀態(tài)下調(diào)整姿勢引入了額外的穩(wěn)定性要求,因?yàn)闄C(jī)器人保持平衡的步態(tài)可能會增加完成需要靜止站立的操作任務(wù)的難度。為了研究噪聲課程對操作任務(wù)的必要性,我們進(jìn)一步測量了在站立步態(tài)下的平均腳部位移(以米為單位),該值計(jì)算了機(jī)器人在一次循環(huán)(20秒)中雙腳的總運(yùn)動量,同時跟蹤姿勢行為命令。表V中的結(jié)果顯示,HUGWBC展現(xiàn)了最小的腳部位移。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略則需要頻繁的小步調(diào)整姿勢并維持穩(wěn)定,以應(yīng)對噪聲干預(yù)。沒有干預(yù)訓(xùn)練的策略在涉及干預(yù)時,機(jī)器人容易傾斜,導(dǎo)致整個任務(wù)失敗。

外部干擾的魯棒性
最后,測試了干預(yù)訓(xùn)練和噪聲課程對外部干擾魯棒性的貢獻(xiàn)。特別是,我們評估了機(jī)器人在八個方向上的最大容忍外部干擾力,并與未經(jīng)過干預(yù)訓(xùn)練的策略進(jìn)行了比較。圖6中的結(jié)果表明,HUGWBC在大多數(shù)方向上的推擠和加載場景中,都表現(xiàn)出了更強(qiáng)的外部干擾容忍力。這背后的原因是干預(yù)使得機(jī)器人暴露于來自上半身的各種干擾,從而通過動態(tài)調(diào)整腿部力量來增強(qiáng)整體穩(wěn)定性。

真實(shí)世界實(shí)驗(yàn)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)-AI.x社區(qū)

結(jié)論與局限性

本文提出了一種統(tǒng)一且通用的人形全身控制器HUGWBC。通過擴(kuò)展命令空間和干預(yù)訓(xùn)練,HUGWBC能夠?qū)崿F(xiàn)精細(xì)的步態(tài)控制,同時支持外部上半身控制,這使其成為廣泛的運(yùn)動操作任務(wù)的基礎(chǔ)控制器。未來的工作可以采用HUGWBC來控制各種人形機(jī)器人,或?qū)UGWBC訓(xùn)練出的策略作為統(tǒng)一的低級控制器,構(gòu)建一個高級規(guī)劃器來實(shí)現(xiàn)復(fù)雜任務(wù)。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/J2pyZ-tPQ-45frS9NJOubg??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 999久久久| 日韩手机视频 | 91久久久久久 | 天天天堂 | 日韩一二三区视频 | 久久av在线播放 | 91精品国产乱码久久久久久久久 | 97伦理影院 | 久久亚洲欧美日韩精品专区 | 日韩电影免费在线观看中文字幕 | 色一级| 久久91av| 国产乱码精品一区二区三区中文 | 亚洲国产aⅴ成人精品无吗 国产精品永久在线观看 | 99亚洲精品 | 一级a性色生活片久久毛片波多野 | 精品自拍视频 | 91xh98hx 在线 国产 | 国产成人精品久久二区二区91 | 一区二区三区四区五区在线视频 | 91人人澡人人爽 | 在线一区二区国产 | 日韩精品a在线观看图片 | 国产精品99久 | av资源中文在线天堂 | 国产精品久久久亚洲 | 精品亚洲一区二区三区四区五区 | 国产成人免费网站 | 欧美一区二区在线 | 日韩欧美精品在线 | 99视频精品 | 亚洲成av人影片在线观看 | 日本精品免费 | 一二三区av| 国产激情视频在线 | 中文字幕精品一区 | 999久久久国产精品 欧美成人h版在线观看 | 夜久久| 亚洲 欧美 另类 综合 偷拍 | 午夜私人影院在线观看 | 国产美女黄色片 |