人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）

angel

發(fā)布于 2025-2-11 11:59

瀏覽

0收藏

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.03206
項(xiàng)目鏈接：https://hugwbc.github.io/

亮點(diǎn)直擊

一個擴(kuò)展的通用指令空間，結(jié)合高級訓(xùn)練技術(shù)，以實(shí)現(xiàn)細(xì)粒度的人形機(jī)器人步態(tài)控制。
在單一策略下（除單腳跳步態(tài)外），可精準(zhǔn)跟蹤四種不同步態(tài)下的八種不同指令。
一個基礎(chǔ)的人形機(jī)器人控制器，支持外部上半身干預(yù)，并能夠執(zhí)行更廣泛的運(yùn)動-操作一體化（loco-manipulation）任務(wù)。

總結(jié)速覽

解決的問題

當(dāng)前的人形機(jī)器人行走系統(tǒng)單一、被動，缺乏可擴(kuò)展性，難以實(shí)現(xiàn)如人類般的多樣化運(yùn)動（如奔跑、跳躍、單腳跳等），也無法對步態(tài)參數(shù)（步頻、步幅、腳擺高度等）進(jìn)行細(xì)粒度調(diào)整。此外，現(xiàn)有方法在執(zhí)行運(yùn)動任務(wù)時，缺乏對上半身控制的實(shí)時干預(yù)能力，限制了機(jī)器人在復(fù)雜任務(wù)中的適應(yīng)性和靈活性。

提出的方案

提出 HUGWBC（Humanoid’s Unified and General Whole-Body Control），一個統(tǒng)一的全身控制策略，支持機(jī)器人生成細(xì)粒度可控的多種步態(tài)，包括行走、奔跑、跳躍、單腳跳等，并可調(diào)整步態(tài)參數(shù)（步頻、腳擺高度）和姿態(tài)參數(shù)（身體高度、腰部旋轉(zhuǎn)、身體俯仰）。此外，HUGWBC 允許上半身接受外部控制（如遙操作），實(shí)現(xiàn)運(yùn)動-操作一體化（loco-manipulation）。

應(yīng)用的技術(shù)

通用指令空間設(shè)計(jì)：在任務(wù)和行為層面定義統(tǒng)一的控制指令，使步態(tài)調(diào)整靈活且易擴(kuò)展。
對稱性損失（Symmetrical Loss）：在學(xué)習(xí)過程中引入對稱性約束，提升步態(tài)穩(wěn)定性和可控性。
干預(yù)訓(xùn)練（Intervention Training）：在訓(xùn)練中模擬外部干預(yù)，增強(qiáng)機(jī)器人在實(shí)時控制下的魯棒性和適應(yīng)性。
強(qiáng)化學(xué)習(xí)訓(xùn)練：在仿真環(huán)境中通過強(qiáng)化學(xué)習(xí)優(yōu)化單一策略，使機(jī)器人能夠直接適應(yīng)現(xiàn)實(shí)環(huán)境，減少現(xiàn)實(shí)訓(xùn)練成本。

達(dá)到的效果

機(jī)器人可在單一控制策略下執(zhí)行多種步態(tài)（行走、奔跑、跳躍、單腳跳等）。
支持步態(tài)參數(shù)和姿態(tài)參數(shù)的實(shí)時調(diào)整，實(shí)現(xiàn)細(xì)粒度控制。
允許上半身遙操作，在運(yùn)動過程中保持高精度操作能力。
經(jīng)過實(shí)驗(yàn)驗(yàn)證，HUGWBC 在跟蹤精度、穩(wěn)定性、魯棒性方面均表現(xiàn)優(yōu)異，并深入分析了不同指令組合對步態(tài)的影響，為優(yōu)化機(jī)器人運(yùn)動控制提供了新思路。

HUGWBC

人形機(jī)器人運(yùn)動的一般指令空間

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

HUGWBC 通過訓(xùn)練單一策略來適配站立、行走和跳躍步態(tài)，而單腳跳躍步態(tài)則采用了獨(dú)立的策略。

詳細(xì)觀察

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

如果沒有外部上半身控制信號，機(jī)器人上半身關(guān)節(jié)將默認(rèn)由我們開發(fā)的全身控制器控制，使手臂自然擺動。

策略學(xué)習(xí)的獎勵設(shè)計(jì)

具身全身控制器是通過非對稱的行為者-評論家訓(xùn)練范式通過強(qiáng)化學(xué)習(xí) (RL) 獲得的。為了學(xué)習(xí)具有一般性和多樣性行為的政策，我們設(shè)計(jì)了一組獎勵函數(shù)，主要由任務(wù)獎勵、行為獎勵和規(guī)范化獎勵三部分組成。獎勵的細(xì)節(jié)在表1中總結(jié)。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

任務(wù)獎勵意味著跟蹤任何任務(wù)命令 k，在這項(xiàng)工作中，它是目標(biāo)速度 v，包括線性和角速度。正規(guī)化獎勵考慮到物理硬件的性能，并對運(yùn)動的平穩(wěn)性和安全性施加限制。這些在以前的工作中經(jīng)常使用 [39]。

在這項(xiàng)工作中，由于我們想建立一個通用的全身控制器，以支持細(xì)粒度的運(yùn)動行為的人形機(jī)器人，引入了一套行為獎勵，以鼓勵機(jī)器人跟蹤任何行為命令 b，如下所示。對于大多數(shù)行為指令，包括身高 h、身高 p 和腰圍旋轉(zhuǎn) w，簡單地用均方差 (MSE) 來制定獎勵：

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

一個理想的足部軌跡通常需要滿足三個關(guān)鍵標(biāo)準(zhǔn)：

在支撐階段，足部速度和加速度為零；
在擺動階段末尾，足部速度和加速度為零；
在兩個階段之間的過渡過程中，足部的速度和加速度要連續(xù)。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

鏡像功能與對稱損失

自然且對稱的運(yùn)動行為是人類通過學(xué)習(xí)逐漸掌握的，因?yàn)樗谧钚』芰肯姆矫婢哂泄逃械膬?yōu)雅和效率。類人機(jī)器人具有高度仿生的機(jī)制，也具有對稱的結(jié)構(gòu)特征。然而，缺乏先驗(yàn)知識，使得政策難以探索對稱形態(tài)信息，尤其是在生成多樣化行為的策略中。這使得初期探索變得更加困難，政策容易陷入局部最優(yōu)解，導(dǎo)致不自然的運(yùn)動。為了利用這種形態(tài)對稱性并受到[49]的啟發(fā)，提出了鏡像函數(shù)F(.) ，以鼓勵政策生成對稱且自然的運(yùn)動。在這樣的對稱結(jié)構(gòu)下，理想情況下，政策輸出應(yīng)滿足：

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

整體訓(xùn)練目標(biāo)。HUGWBC 采用非對稱演員-評論家框架，以 PPO 作為 RL 算法來訓(xùn)練全身控制策略。因此，總體訓(xùn)練目標(biāo)可以寫作：

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

外部上肢干預(yù)訓(xùn)練

到目前為止，已經(jīng)學(xué)習(xí)了一個全身控制器，它共同控制上下肢。然而，本工作的目標(biāo)不是專門為 locomotion 任務(wù)設(shè)計(jì)的控制器，而是構(gòu)建一個統(tǒng)一且通用的人形控制器，作為 loco-manipulation 任務(wù)的基礎(chǔ)支持。換句話說，控制器還應(yīng)支持靈活且精確的上肢（手臂和手）控制。與一些以前的工作通過上肢命令（例如，手臂關(guān)節(jié)位置）擴(kuò)展命令空間不同，考慮將上肢控制解耦為外部控制干預(yù)，通過遠(yuǎn)程操作信號或重新定向的運(yùn)動關(guān)節(jié)，同時不影響下肢步態(tài)，因?yàn)橄轮哂泻芨叩目刂凭取＝鉀Q方案是在訓(xùn)練過程中采樣替代動作來替換全身策略產(chǎn)生的上肢動作，使得策略對任何干預(yù)都具有魯棒性。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

獎勵掩蔽
當(dāng)干預(yù)介入時，在訓(xùn)練過程中掩蔽上肢的正則化獎勵，以消除策略輸出試圖接管上肢的潛在沖突。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

課程學(xué)習(xí)

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

實(shí)驗(yàn)

本節(jié)在仿真和現(xiàn)實(shí)世界的機(jī)器人上進(jìn)行全面實(shí)驗(yàn)，以回答以下問題：

Q1（仿真）：HUGWBC策略在不同命令下的跟蹤表現(xiàn)如何？
Q2（仿真）：如何合理地結(jié)合一般命令空間中的各種命令？
Q3（仿真）：大規(guī)模噪聲干預(yù)訓(xùn)練如何幫助策略的魯棒性？
Q4（現(xiàn)實(shí)）：HUGWBC在現(xiàn)實(shí)世界中的表現(xiàn)如何？

機(jī)器人與仿真器
本文的主要實(shí)驗(yàn)是在Unitree H1機(jī)器人上進(jìn)行的，該機(jī)器人共有19個自由度（DOF），包括兩個3自由度的肩關(guān)節(jié)、兩個肘關(guān)節(jié)、一個腰關(guān)節(jié)、兩個3自由度的髖關(guān)節(jié)、兩個膝關(guān)節(jié)和兩個踝關(guān)節(jié)。仿真訓(xùn)練基于NVIDIA IsaacGym仿真器。

命令分析原理與度量
本文的一大貢獻(xiàn)是擴(kuò)展并普及了人形機(jī)器人通用的命令空間。重點(diǎn)關(guān)注命令分析（涉及Q1和Q2）。這包括單一命令跟蹤誤差的分析，以及在不同步態(tài)下不同命令的組合分析。為了進(jìn)行分析，我們評估了平均的單集命令跟蹤誤差（記作Ecmd），該誤差衡量實(shí)際機(jī)器人狀態(tài)與命令空間之間的偏差，使用一階范數(shù)。所有命令都在預(yù)定義的命令范圍內(nèi)均勻采樣，如下表II所示。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

單一命令跟蹤

首先分析每個命令單獨(dú)的跟蹤效果，同時保持其他命令的默認(rèn)值。結(jié)果見下表III。可以明顯看到，行走和站立的跟蹤誤差顯著低于跳躍和跳躍的誤差，且跳躍的誤差最大。對于跳躍步態(tài)，機(jī)器人可能在跟蹤特定命令時發(fā)生跌倒，比如高速跟蹤、身體俯仰和腰部偏航控制。這可以歸因于跳躍需要較高的穩(wěn)定性。此外，復(fù)雜的姿勢和運(yùn)動進(jìn)一步加劇了不穩(wěn)定的風(fēng)險(xiǎn)。因此，策略優(yōu)先學(xué)習(xí)保持平衡，在一定程度上犧牲了命令跟蹤的準(zhǔn)確性。

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

命令組合分析

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

跳躍
跳躍步態(tài)引入了更多的不穩(wěn)定性，機(jī)器人的控制系統(tǒng)必須更加關(guān)注保持平衡，這使得同時處理復(fù)雜的多維命令變得困難。

站立
在站立步態(tài)中，我們測試了與姿勢相關(guān)的命令跟蹤誤差。結(jié)果表明，這些跟蹤誤差與行走過程中零速度的跟蹤誤差類似。

腰部偏航w命令幾乎與其他兩個命令正交。
隨著命令范圍的增加，身體高度h與身體俯仰p之間的正交性減少。這是因?yàn)镠1機(jī)器人在腰部只有一個自由度，限制了姿勢調(diào)整的范圍，僅能通過髖部俯仰關(guān)節(jié)進(jìn)行。
相對于默認(rèn)高度，身體高度0.3米的下降幾乎將髖部俯仰關(guān)節(jié)的運(yùn)動范圍減少到零，阻礙了精確的身體俯仰跟蹤。

得出結(jié)論，步態(tài)頻率f在過高或過低時會顯著影響運(yùn)動命令的跟蹤準(zhǔn)確性；姿勢命令尤其在接近范圍極限時，可以顯著影響其他命令的跟蹤誤差。對于不同步態(tài)，命令之間的正交性范圍在行走步態(tài)中最大，而在跳躍步態(tài)中最小。

干預(yù)訓(xùn)練策略的消融研究

為了驗(yàn)證干預(yù)訓(xùn)練策略在外部上半身干預(yù)下對策略魯棒性的有效性，我們比較了使用不同策略訓(xùn)練的策略，包括噪聲課程（HUGWBC）、過濾后的AMASS數(shù)據(jù)和無干預(yù)的策略。測試了在兩種不同干預(yù)任務(wù)下的跟蹤誤差，即均勻噪聲、AAMAS數(shù)據(jù)集，以及無干預(yù)設(shè)置。行走步態(tài)下的結(jié)果顯示在表IV中，其他步態(tài)的結(jié)果見附錄C-B。顯然，HUGWBC的噪聲課程策略在幾乎所有測試案例下都表現(xiàn)最佳，除了在無干預(yù)情況下與姿勢相關(guān)的跟蹤。在具體分析中，HUGWBC在各種干預(yù)下的跟蹤準(zhǔn)確性下降較少，表明我們的噪聲課程干預(yù)策略使控制策略能夠應(yīng)對大范圍的手臂運(yùn)動，非常適用于和支持運(yùn)動操作任務(wù)。相比之下，使用AMASS數(shù)據(jù)訓(xùn)練的策略在均勻噪聲干預(yù)下，因訓(xùn)練數(shù)據(jù)中運(yùn)動的局限性，跟蹤準(zhǔn)確性顯著下降。而沒有任何干預(yù)的策略僅在沒有外部上半身控制時表現(xiàn)良好。

值得注意的是，當(dāng)涉及干預(yù)訓(xùn)練時，與腳部和運(yùn)動相關(guān)的跟蹤誤差也比沒有干預(yù)訓(xùn)練的策略更好，而HUGWBC提供了最準(zhǔn)確的跟蹤。這表明干預(yù)訓(xùn)練也有助于提高策略的魯棒性。在我們的真實(shí)機(jī)器人實(shí)驗(yàn)中，我們進(jìn)一步觀察到，當(dāng)機(jī)器人與地面接觸時，它表現(xiàn)出更大的接觸力，這表明當(dāng)涉及干預(yù)時，運(yùn)動規(guī)則化和跟蹤準(zhǔn)確性之間可能存在一定的權(quán)衡。

站立步態(tài)下的穩(wěn)定性
在站立狀態(tài)下調(diào)整姿勢引入了額外的穩(wěn)定性要求，因?yàn)闄C(jī)器人保持平衡的步態(tài)可能會增加完成需要靜止站立的操作任務(wù)的難度。為了研究噪聲課程對操作任務(wù)的必要性，我們進(jìn)一步測量了在站立步態(tài)下的平均腳部位移（以米為單位），該值計(jì)算了機(jī)器人在一次循環(huán)（20秒）中雙腳的總運(yùn)動量，同時跟蹤姿勢行為命令。表V中的結(jié)果顯示，HUGWBC展現(xiàn)了最小的腳部位移。相比之下，使用AMASS數(shù)據(jù)訓(xùn)練的策略則需要頻繁的小步調(diào)整姿勢并維持穩(wěn)定，以應(yīng)對噪聲干預(yù)。沒有干預(yù)訓(xùn)練的策略在涉及干預(yù)時，機(jī)器人容易傾斜，導(dǎo)致整個任務(wù)失敗。

外部干擾的魯棒性
最后，測試了干預(yù)訓(xùn)練和噪聲課程對外部干擾魯棒性的貢獻(xiàn)。特別是，我們評估了機(jī)器人在八個方向上的最大容忍外部干擾力，并與未經(jīng)過干預(yù)訓(xùn)練的策略進(jìn)行了比較。圖6中的結(jié)果表明，HUGWBC在大多數(shù)方向上的推擠和加載場景中，都表現(xiàn)出了更強(qiáng)的外部干擾容忍力。這背后的原因是干預(yù)使得機(jī)器人暴露于來自上半身的各種干擾，從而通過動態(tài)調(diào)整腿部力量來增強(qiáng)整體穩(wěn)定性。

真實(shí)世界實(shí)驗(yàn)

人形機(jī)器人全能運(yùn)動革命：HUGWBC實(shí)現(xiàn)多模態(tài)步態(tài)精細(xì)調(diào)控與實(shí)時操控（上交&上海AI lab）-AI.x社區(qū)

結(jié)論與局限性

本文提出了一種統(tǒng)一且通用的人形全身控制器HUGWBC。通過擴(kuò)展命令空間和干預(yù)訓(xùn)練，HUGWBC能夠?qū)崿F(xiàn)精細(xì)的步態(tài)控制，同時支持外部上半身控制，這使其成為廣泛的運(yùn)動操作任務(wù)的基礎(chǔ)控制器。未來的工作可以采用HUGWBC來控制各種人形機(jī)器人，或?qū)UGWBC訓(xùn)練出的策略作為統(tǒng)一的低級控制器，構(gòu)建一個高級規(guī)劃器來實(shí)現(xiàn)復(fù)雜任務(wù)。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/J2pyZ-tPQ-45frS9NJOubg??

標(biāo)簽

機(jī)器人

訓(xùn)練

贊

回復(fù)