鵝廠機器狗搶起真狗「飯碗」!會撒歡兒做游戲,遛人也賊6
本文經AI新媒體量子位(公眾號ID:QbitAI)授權轉載,轉載請聯系出處。
讓機器狗學完真狗子的運動數據,真有二哈那感覺了!
它輕松跨個欄,后面“主人”差點沒跟上:
鉆個“狗洞”倒是輕車熟路:
還能兩只狗一起撒歡兒,它追、它逃……
這就是鵝廠機器狗的最新進展。
利用預訓練模型喂給機器狗真狗子的運動數據、并通過強化學習,機器狗Max不僅在行為上更靈動,而且還能根據已經掌握的技能“舉一反三”,去適應更加復雜的環境。
總結來說,就是里里外外都“更狗”了一些。
有策略地追逐撒歡兒
這次機器狗學習的新技能里,最強的一項還是玩游戲。
機器狗不僅能遵守規則,還能自己想出策略贏比賽,可能比真狗子還要聰明些。
具體來看,這是一個障礙追逐比賽,受到“World Chase Tag”啟發,規則如下:
研究人員設置了不同游戲難度,最簡單的就是空曠場地:
玩游戲過程里,機器狗很明顯是有策略的。
比如,一般等到躲避者離棋旗子較遠時,追擊者才會發起猛攻,把它逼到死角,游戲結束。
如果追擊者發現躲避者離旗子很近,自己根本沒機會追上它時,它會先放棄追逐,等待下一個旗子出現:
有障礙物干擾也沒關系,倆狗子一樣玩得很6:
而能夠有如此表現,并不是機器狗從一開始就拿這個游戲訓練。
它其實是基于自己已經學到的一些動作、知識和技能,來應對這個游戲場景。
具體怎么實現?往下看。
學了真·狗的數據
研究一共分為三個階段。
- 學習動物運動姿態
- 將運動姿態和外界感知聯系起來
- 附加網絡獲取和復雜任務有關信息
第一階段,是通過游戲中常用的動作捕捉系統,通過收集真狗的姿態數據,包括走、跑、跳、站立等動作,在仿真器中構建一個模仿學習任務。
然后將這些數據中的信息抽象并壓縮到深度神經網絡模型中,使其在涵蓋運動姿態信息的同時,還具有一定可解釋性。
騰訊RoboticsX機器人實驗室和騰訊游戲合作,用游戲技術提高了仿真引擎的準確性和高效性,同時游戲制作和研發過程中積累了多元的動捕素材。
這些技術以及數據對基于物理仿真的智能體訓練以及真實世界機器人策略部署也起到了一定的輔助作用。
再下一步,模型引入周邊環境的感知數據,例如通過其他傳感器“看到”的腳下的障礙物。
第二階段,通過額外的網絡參數,將第一階段掌握的動物姿態和外界感知聯系在一起。
這樣機器狗就能通過已經學會的動作,來應對外界環境。
當機器人能夠適應多種復雜的環境后,這些將動物姿態與外界感知聯系在一起的知識也會被固化下來,存在神經網絡結構中。
然后機器狗就能自如上樓梯了。
或者在不連續、不平整地面上奔跑:
然后就到了最后一階段,讓機器狗根據上面學會的技能,去解決實際問題
也就是上面提到的做游戲環節。
據介紹,游戲中機器狗的所有控制策略都是神經網絡策略。
在仿真中進行學習并通過zero-shot transfer(零調整遷移),讓神經網絡模擬人類的推理方式,來識別從未見過的新事物,并把這些知識部署到真實機器人上。
比如在預訓練模型中學會了躲避障礙物的知識,那么在游戲里設置障礙,機器狗也能輕松應對。
本次研究新進展由騰訊Robotics X機器人實驗室帶來。
該實驗成立于2018年,目前推出的機器人項目包括機器狗Max一代/二代、機器狗Jamoca、輪式機器人Ollie、自平衡自動駕駛摩托車等。
One More Thing
值得一提的是,之前UC伯克利的學者也將一種“真狗子”的訓練方法,用在了機器狗上。
吳恩達開山大弟子Pieter Abbeel等,讓機器狗自己在地上打滾一個小時,學會了走路。
而去年騰訊發布機器狗Max二代時,一段小花絮里,這狗會“撲腳”、“撒歡跑”,確實有家里毛孩子那味兒。
(當然,如果想讓它成為一只聽主人話的狗, 通過指令即可對其發號施令。)
咱就是說,現在機器狗的發展方向,不朝著翻跟頭卷,反倒是要和真狗子“搶飯碗”了嗎?