人形機(jī)器人全能運(yùn)動革命:HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控(上交&上海AI lab)
論文鏈接:https://arxiv.org/pdf/2502.03206
項(xiàng)目鏈接:https://hugwbc.github.io/
亮點(diǎn)直擊
- 一個擴(kuò)展的通用指令空間,結(jié)合高級訓(xùn)練技術(shù),以實(shí)現(xiàn)細(xì)粒度的人形機(jī)器人步態(tài)控制。
- 在單一策略下(除單腳跳步態(tài)外),可精準(zhǔn)跟蹤四種不同步態(tài)下的八種不同指令。
- 一個基礎(chǔ)的人形機(jī)器人控制器,支持外部上半身干預(yù),并能夠執(zhí)行更廣泛的運(yùn)動-操作一體化(loco-manipulation)任務(wù)。
總結(jié)速覽
解決的問題
當(dāng)前的人形機(jī)器人行走系統(tǒng)單一、被動,缺乏可擴(kuò)展性,難以實(shí)現(xiàn)如人類般的多樣化運(yùn)動(如奔跑、跳躍、單腳跳等),也無法對步態(tài)參數(shù)(步頻、步幅、腳擺高度等)進(jìn)行細(xì)粒度調(diào)整。此外,現(xiàn)有方法在執(zhí)行運(yùn)動任務(wù)時,缺乏對上半身控制的實(shí)時干預(yù)能力,限制了機(jī)器人在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。
提出的方案
提出 HUGWBC(Humanoid’s Unified and General Whole-Body Control),一個統(tǒng)一的全身控制策略,支持機(jī)器人生成細(xì)粒度可控的多種步態(tài),包括行走、奔跑、跳躍、單腳跳等,并可調(diào)整步態(tài)參數(shù)(步頻、腳擺高度)和姿態(tài)參數(shù)(身體高度、腰部旋轉(zhuǎn)、身體俯仰)。此外,HUGWBC 允許上半身接受外部控制(如遙操作),實(shí)現(xiàn)運(yùn)動-操作一體化(loco-manipulation)。
應(yīng)用的技術(shù)
- 通用指令空間設(shè)計(jì):在任務(wù)和行為層面定義統(tǒng)一的控制指令,使步態(tài)調(diào)整靈活且易擴(kuò)展。
- 對稱性損失(Symmetrical Loss):在學(xué)習(xí)過程中引入對稱性約束,提升步態(tài)穩(wěn)定性和可控性。
- 干預(yù)訓(xùn)練(Intervention Training):在訓(xùn)練中模擬外部干預(yù),增強(qiáng)機(jī)器人在實(shí)時控制下的魯棒性和適應(yīng)性。
- 強(qiáng)化學(xué)習(xí)訓(xùn)練:在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)優(yōu)化單一策略,使機(jī)器人能夠直接適應(yīng)現(xiàn)實(shí)環(huán)境,減少現(xiàn)實(shí)訓(xùn)練成本。
達(dá)到的效果
- 機(jī)器人可在單一控制策略下執(zhí)行多種步態(tài)(行走、奔跑、跳躍、單腳跳等)。
- 支持步態(tài)參數(shù)和姿態(tài)參數(shù)的實(shí)時調(diào)整,實(shí)現(xiàn)細(xì)粒度控制。
- 允許上半身遙操作,在運(yùn)動過程中保持高精度操作能力。
- 經(jīng)過實(shí)驗(yàn)驗(yàn)證,HUGWBC 在跟蹤精度、穩(wěn)定性、魯棒性方面均表現(xiàn)優(yōu)異,并深入分析了不同指令組合對步態(tài)的影響,為優(yōu)化機(jī)器人運(yùn)動控制提供了新思路。
HUGWBC
人形機(jī)器人運(yùn)動的一般指令空間
HUGWBC 通過訓(xùn)練單一策略來適配站立、行走和跳躍步態(tài),而單腳跳躍步態(tài)則采用了獨(dú)立的策略。
詳細(xì)觀察
如果沒有外部上半身控制信號,機(jī)器人上半身關(guān)節(jié)將默認(rèn)由我們開發(fā)的全身控制器控制,使手臂自然擺動。
策略學(xué)習(xí)的獎勵設(shè)計(jì)
具身全身控制器是通過非對稱的行為者-評論家訓(xùn)練范式通過強(qiáng)化學(xué)習(xí) (RL) 獲得的。為了學(xué)習(xí)具有一般性和多樣性行為的政策,我們設(shè)計(jì)了一組獎勵函數(shù),主要由任務(wù)獎勵、行為獎勵和規(guī)范化獎勵三部分組成。獎勵的細(xì)節(jié)在表1中總結(jié)。
任務(wù)獎勵意味著跟蹤任何任務(wù)命令 k,在這項(xiàng)工作中,它是目標(biāo)速度 v,包括線性和角速度。正規(guī)化獎勵考慮到物理硬件的性能,并對運(yùn)動的平穩(wěn)性和安全性施加限制。這些在以前的工作中經(jīng)常使用 [39]。
在這項(xiàng)工作中,由于我們想建立一個通用的全身控制器,以支持細(xì)粒度的運(yùn)動行為的人形機(jī)器人,引入了一套行為獎勵,以鼓勵機(jī)器人跟蹤任何行為命令 b,如下所示。對于大多數(shù)行為指令,包括身高 h、身高 p 和腰圍旋轉(zhuǎn) w,簡單地用均方差 (MSE) 來制定獎勵:
一個理想的足部軌跡通常需要滿足三個關(guān)鍵標(biāo)準(zhǔn):
- 在支撐階段,足部速度和加速度為零;
- 在擺動階段末尾,足部速度和加速度為零;
- 在兩個階段之間的過渡過程中,足部的速度和加速度要連續(xù)。
鏡像功能與對稱損失
自然且對稱的運(yùn)動行為是人類通過學(xué)習(xí)逐漸掌握的,因?yàn)樗谧钚』芰肯姆矫婢哂泄逃械膬?yōu)雅和效率。類人機(jī)器人具有高度仿生的機(jī)制,也具有對稱的結(jié)構(gòu)特征。然而,缺乏先驗(yàn)知識,使得政策難以探索對稱形態(tài)信息,尤其是在生成多樣化行為的策略中。這使得初期探索變得更加困難,政策容易陷入局部最優(yōu)解,導(dǎo)致不自然的運(yùn)動。為了利用這種形態(tài)對稱性并受到[49]的啟發(fā),提出了鏡像函數(shù)F(.) ,以鼓勵政策生成對稱且自然的運(yùn)動。在這樣的對稱結(jié)構(gòu)下,理想情況下,政策輸出應(yīng)滿足:
整體訓(xùn)練目標(biāo)。HUGWBC 采用非對稱演員-評論家框架 ,以 PPO 作為 RL 算法來訓(xùn)練全身控制策略。因此,總體訓(xùn)練目標(biāo)可以寫作:
外部上肢干預(yù)訓(xùn)練
到目前為止,已經(jīng)學(xué)習(xí)了一個全身控制器,它共同控制上下肢。然而,本工作的目標(biāo)不是專門為 locomotion 任務(wù)設(shè)計(jì)的控制器,而是構(gòu)建一個統(tǒng)一且通用的人形控制器,作為 loco-manipulation 任務(wù)的基礎(chǔ)支持。換句話說,控制器還應(yīng)支持靈活且精確的上肢(手臂和手)控制。與一些以前的工作通過上肢命令(例如,手臂關(guān)節(jié)位置)擴(kuò)展命令空間不同,考慮將上肢控制解耦為外部控制干預(yù),通過遠(yuǎn)程操作信號或重新定向的運(yùn)動關(guān)節(jié),同時不影響下肢步態(tài),因?yàn)橄轮哂泻芨叩目刂凭取=鉀Q方案是在訓(xùn)練過程中采樣替代動作來替換全身策略產(chǎn)生的上肢動作,使得策略對任何干預(yù)都具有魯棒性。
獎勵掩蔽
當(dāng)干預(yù)介入時,在訓(xùn)練過程中掩蔽上肢的正則化獎勵,以消除策略輸出試圖接管上肢的潛在沖突。
課程學(xué)習(xí)
實(shí)驗(yàn)
本節(jié)在仿真和現(xiàn)實(shí)世界的機(jī)器人上進(jìn)行全面實(shí)驗(yàn),以回答以下問題:
- Q1(仿真):HUGWBC策略在不同命令下的跟蹤表現(xiàn)如何?
- Q2(仿真):如何合理地結(jié)合一般命令空間中的各種命令?
- Q3(仿真):大規(guī)模噪聲干預(yù)訓(xùn)練如何幫助策略的魯棒性?
- Q4(現(xiàn)實(shí)):HUGWBC在現(xiàn)實(shí)世界中的表現(xiàn)如何?
機(jī)器人與仿真器
本文的主要實(shí)驗(yàn)是在Unitree H1機(jī)器人上進(jìn)行的,該機(jī)器人共有19個自由度(DOF),包括兩個3自由度的肩關(guān)節(jié)、兩個肘關(guān)節(jié)、一個腰關(guān)節(jié)、兩個3自由度的髖關(guān)節(jié)、兩個膝關(guān)節(jié)和兩個踝關(guān)節(jié)。仿真訓(xùn)練基于NVIDIA IsaacGym仿真器。
命令分析原理與度量
本文的一大貢獻(xiàn)是擴(kuò)展并普及了人形機(jī)器人通用的命令空間。重點(diǎn)關(guān)注命令分析(涉及Q1和Q2)。這包括單一命令跟蹤誤差的分析,以及在不同步態(tài)下不同命令的組合分析。為了進(jìn)行分析,我們評估了平均的單集命令跟蹤誤差(記作Ecmd),該誤差衡量實(shí)際機(jī)器人狀態(tài)與命令空間之間的偏差,使用一階范數(shù)。所有命令都在預(yù)定義的命令范圍內(nèi)均勻采樣,如下表II所示。
單一命令跟蹤
首先分析每個命令單獨(dú)的跟蹤效果,同時保持其他命令的默認(rèn)值。結(jié)果見下表III。可以明顯看到,行走和站立的跟蹤誤差顯著低于跳躍和跳躍的誤差,且跳躍的誤差最大。對于跳躍步態(tài),機(jī)器人可能在跟蹤特定命令時發(fā)生跌倒,比如高速跟蹤、身體俯仰和腰部偏航控制。這可以歸因于跳躍需要較高的穩(wěn)定性。此外,復(fù)雜的姿勢和運(yùn)動進(jìn)一步加劇了不穩(wěn)定的風(fēng)險(xiǎn)。因此,策略優(yōu)先學(xué)習(xí)保持平衡,在一定程度上犧牲了命令跟蹤的準(zhǔn)確性。
命令組合分析
跳躍
跳躍步態(tài)引入了更多的不穩(wěn)定性,機(jī)器人的控制系統(tǒng)必須更加關(guān)注保持平衡,這使得同時處理復(fù)雜的多維命令變得困難。
站立
在站立步態(tài)中,我們測試了與姿勢相關(guān)的命令跟蹤誤差。結(jié)果表明,這些跟蹤誤差與行走過程中零速度的跟蹤誤差類似。
- 腰部偏航w命令幾乎與其他兩個命令正交。
- 隨著命令范圍的增加,身體高度h與身體俯仰p之間的正交性減少。這是因?yàn)镠1機(jī)器人在腰部只有一個自由度,限制了姿勢調(diào)整的范圍,僅能通過髖部俯仰關(guān)節(jié)進(jìn)行。
- 相對于默認(rèn)高度,身體高度0.3米的下降幾乎將髖部俯仰關(guān)節(jié)的運(yùn)動范圍減少到零,阻礙了精確的身體俯仰跟蹤。
得出結(jié)論,步態(tài)頻率f在過高或過低時會顯著影響運(yùn)動命令的跟蹤準(zhǔn)確性;姿勢命令尤其在接近范圍極限時,可以顯著影響其他命令的跟蹤誤差。對于不同步態(tài),命令之間的正交性范圍在行走步態(tài)中最大,而在跳躍步態(tài)中最小。
干預(yù)訓(xùn)練策略的消融研究
為了驗(yàn)證干預(yù)訓(xùn)練策略在外部上半身干預(yù)下對策略魯棒性的有效性,我們比較了使用不同策略訓(xùn)練的策略,包括噪聲課程(HUGWBC)、過濾后的AMASS數(shù)據(jù)和無干預(yù)的策略。測試了在兩種不同干預(yù)任務(wù)下的跟蹤誤差,即均勻噪聲、AAMAS數(shù)據(jù)集,以及無干預(yù)設(shè)置。行走步態(tài)下的結(jié)果顯示在表IV中,其他步態(tài)的結(jié)果見附錄C-B。顯然,HUGWBC的噪聲課程策略在幾乎所有測試案例下都表現(xiàn)最佳,除了在無干預(yù)情況下與姿勢相關(guān)的跟蹤。在具體分析中,HUGWBC在各種干預(yù)下的跟蹤準(zhǔn)確性下降較少,表明我們的噪聲課程干預(yù)策略使控制策略能夠應(yīng)對大范圍的手臂運(yùn)動,非常適用于和支持運(yùn)動操作任務(wù)。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略在均勻噪聲干預(yù)下,因訓(xùn)練數(shù)據(jù)中運(yùn)動的局限性,跟蹤準(zhǔn)確性顯著下降。而沒有任何干預(yù)的策略僅在沒有外部上半身控制時表現(xiàn)良好。
值得注意的是,當(dāng)涉及干預(yù)訓(xùn)練時,與腳部和運(yùn)動相關(guān)的跟蹤誤差也比沒有干預(yù)訓(xùn)練的策略更好,而HUGWBC提供了最準(zhǔn)確的跟蹤。這表明干預(yù)訓(xùn)練也有助于提高策略的魯棒性。在我們的真實(shí)機(jī)器人實(shí)驗(yàn)中,我們進(jìn)一步觀察到,當(dāng)機(jī)器人與地面接觸時,它表現(xiàn)出更大的接觸力,這表明當(dāng)涉及干預(yù)時,運(yùn)動規(guī)則化和跟蹤準(zhǔn)確性之間可能存在一定的權(quán)衡。
站立步態(tài)下的穩(wěn)定性
在站立狀態(tài)下調(diào)整姿勢引入了額外的穩(wěn)定性要求,因?yàn)闄C(jī)器人保持平衡的步態(tài)可能會增加完成需要靜止站立的操作任務(wù)的難度。為了研究噪聲課程對操作任務(wù)的必要性,我們進(jìn)一步測量了在站立步態(tài)下的平均腳部位移(以米為單位),該值計(jì)算了機(jī)器人在一次循環(huán)(20秒)中雙腳的總運(yùn)動量,同時跟蹤姿勢行為命令。表V中的結(jié)果顯示,HUGWBC展現(xiàn)了最小的腳部位移。相比之下,使用AMASS數(shù)據(jù)訓(xùn)練的策略則需要頻繁的小步調(diào)整姿勢并維持穩(wěn)定,以應(yīng)對噪聲干預(yù)。沒有干預(yù)訓(xùn)練的策略在涉及干預(yù)時,機(jī)器人容易傾斜,導(dǎo)致整個任務(wù)失敗。
外部干擾的魯棒性
最后,測試了干預(yù)訓(xùn)練和噪聲課程對外部干擾魯棒性的貢獻(xiàn)。特別是,我們評估了機(jī)器人在八個方向上的最大容忍外部干擾力,并與未經(jīng)過干預(yù)訓(xùn)練的策略進(jìn)行了比較。圖6中的結(jié)果表明,HUGWBC在大多數(shù)方向上的推擠和加載場景中,都表現(xiàn)出了更強(qiáng)的外部干擾容忍力。這背后的原因是干預(yù)使得機(jī)器人暴露于來自上半身的各種干擾,從而通過動態(tài)調(diào)整腿部力量來增強(qiáng)整體穩(wěn)定性。
真實(shí)世界實(shí)驗(yàn)
結(jié)論與局限性
本文提出了一種統(tǒng)一且通用的人形全身控制器HUGWBC。通過擴(kuò)展命令空間和干預(yù)訓(xùn)練,HUGWBC能夠?qū)崿F(xiàn)精細(xì)的步態(tài)控制,同時支持外部上半身控制,這使其成為廣泛的運(yùn)動操作任務(wù)的基礎(chǔ)控制器。未來的工作可以采用HUGWBC來控制各種人形機(jī)器人,或?qū)UGWBC訓(xùn)練出的策略作為統(tǒng)一的低級控制器,構(gòu)建一個高級規(guī)劃器來實(shí)現(xiàn)復(fù)雜任務(wù)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來
