宇樹機(jī)器人強(qiáng)化學(xué)習(xí)代碼全面開源,還有訓(xùn)練到仿真和實(shí)操手把手教學(xué)
9.9萬元起,還能夠大規(guī)模量產(chǎn)的國(guó)產(chǎn)人形機(jī)器人,表現(xiàn)得實(shí)在是太6了:
而且還走上了開源路線,就在剛剛,宇樹機(jī)器人開源的強(qiáng)化學(xué)習(xí)代碼又更新了!
更新之后不再是只能訓(xùn)練——不僅能夠仿真運(yùn)行,還能部署到實(shí)體機(jī)器,整個(gè)過程所有代碼全部開放。
一開始,宇樹開源的是英偉達(dá)Issac Gym平臺(tái)上的訓(xùn)練代碼,這次新增了對(duì)MuJoCo模擬仿真的支持。
而且還能遷移到實(shí)體機(jī)器人上運(yùn)行,目前支持宇樹的H1、H1-2和G1三款機(jī)器人。
這下從訓(xùn)練到模擬再到真機(jī)運(yùn)行,整個(gè)RL套件的開源體系終于完整了。
看到這個(gè)消息,有網(wǎng)友激動(dòng)地表示,訓(xùn)練機(jī)器人靈魂的方法終于公開了!
全過程代碼公開,還有詳細(xì)教程
宇樹給這個(gè)項(xiàng)目取名叫RL GYM,可能和一開始專門提供基于Issac Gym的訓(xùn)練代碼有關(guān)。
現(xiàn)在RL GYM又支持了MuJoCo,可以在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)行仿真模擬了。
訓(xùn)練階段的Issac Gym需要CUDA,也就是需要N卡,仿真階段的MuJoCo則支持各種GPU,甚至CPU和TPU也能運(yùn)行。
從環(huán)境的安裝配置,到訓(xùn)練和模擬,以及最后的真機(jī)遷移,不僅有代碼,還有非常詳細(xì)的手把手教程。
以最新款的G1為例,在Issac Gym里訓(xùn)練完之后的效果是這樣的:
放到MuJoCo里模擬,就有了開頭看到在這段DEMO:
最后遷移到G1真機(jī),就能看到訓(xùn)練的效果了(并且真機(jī)遷移的部分還有中文教程):
H1和H1-2也與此類似,另外通過RL GYM還可以在Issac Gym里訓(xùn)練機(jī)器狗Go2:
還有更多開源項(xiàng)目
在宇樹的整個(gè)開源體系當(dāng)中,RL GYM只是其中一環(huán),在宇樹所有的GitHub倉(cāng)庫(kù)中星標(biāo)數(shù)排第三。
排第一的是針對(duì)開源機(jī)器人系統(tǒng)R(obot)OS推出的模擬包,包含了宇樹系列機(jī)器人的質(zhì)量、慣量、力矩等參數(shù)。
星標(biāo)數(shù)第二的則是使用蘋果Vision Pro對(duì)G1進(jìn)行遙操作控制的倉(cāng)庫(kù),可以用于數(shù)據(jù)采集。
采集到的數(shù)據(jù)是JSON形式,而訓(xùn)練通過LeRobot實(shí)現(xiàn),因此宇樹還提供了將JSON格式數(shù)據(jù)轉(zhuǎn)為L(zhǎng)eRobot所需格式的教程。
其中包含遙操作控制的代碼教程,以及硬件配置圖、物料清單和安裝說明:
除了GitHub上發(fā)布的這些工具,宇樹還在HuggingFace上公開了訓(xùn)練數(shù)據(jù)集,與數(shù)據(jù)采集工具同期發(fā)布。
數(shù)據(jù)集包含五種操作,使用配備有三指靈巧手的宇樹G1人形機(jī)器人收集,每張圖分辨率為640x480,每個(gè)手臂和靈巧手的狀態(tài)和動(dòng)作維度為7。
比如,利用這套數(shù)據(jù)集可以讓機(jī)器人學(xué)習(xí)擰瓶蓋倒水:
將三色積木疊放到一起:
此外還包括將攝像頭放入相應(yīng)包裝盒、收集物品并存儲(chǔ)、雙臂抓取紅色木塊并將其放入一個(gè)黑色長(zhǎng)方形容器中這些操作。
最后,宇樹開源的也不只是和機(jī)器人相關(guān)的項(xiàng)目。
上個(gè)月宇樹發(fā)布了售價(jià)419美元的激光雷達(dá), 在產(chǎn)品上線的同時(shí)就將其采用的Point-LIO算法進(jìn)行了開源。
項(xiàng)目倉(cāng)庫(kù):https://github.com/unitreerobotics/unitree_rl_gym