紐大具身智能新進展：靠視覺反饋學會開罐頭，任務成功率提高135%，LeCun點贊

2023-10-04 08:03:53

這個機器人的背后，是紐約大學聯合Meta AI實驗室推出的最新具身智能成果。研究人員提出了一種名為TAVI的新訓練方法，將視覺與觸覺相結合，把機器人執行任務的效果提高一倍以上。目前，研究團隊的論文已經公開發表，相關代碼也已經開源。

注意看，這個機器人用手中的鉗子輕松剪斷了一根金屬絲。

蓋上的鐵盒子，也三下五除二就打開了。

除此之外，物體抓取等任務更是能輕松完成。

這個機器人的背后，是紐約大學聯合Meta AI實驗室推出的最新具身智能成果。

研究人員提出了一種名為TAVI的新訓練方法，將視覺與觸覺相結合，把機器人執行任務的效果提高一倍以上。

目前，研究團隊的論文已經公開發表，相關代碼也已經開源。

看到這個機器人的表現，Meta首席科學家LeCun也不禁感嘆這是一項驚人的進展。

那么用這種方法訓練出的機器人，還能做些什么呢？

取物置物易如反掌

它可以把摞在一起的兩只碗分開，然后拿取上面的一個。

仔細觀察可以發現，在分開的過程當中，機器人的手部做出了攆的動作，讓黃色的碗沿著綠色碗的內壁滑動。

這個機器人不僅能“分”，還能“合”。

將紅色的物塊拿起之后，機器人將它精準地放入了紫色的蓋子當中。

或者，給橡皮翻個身。

只見它將一大塊橡皮拿起，然后利用下面的盒子調整角度。

雖然不知道為什么不多用幾根手指，但畢竟也是學會了借助工具。

總之，用TAVI方式訓練出的具身智能機器人，動作已經和人類有了幾分相似。

數據上，TAVI方式在6項典型任務中明顯優于只用觸覺或視覺反饋的方法。

和不使用觸覺信息的AVI方式相比，TAVI的平均成功率提高了135%，和圖像+觸覺獎勵模型的方式相比也翻了倍。

而同樣采用視覺觸覺混合模式的T-DEX訓練方式，成功率還不到TAVI的四分之一。

TAVI訓練的機器人還有很強的泛化能力——對于未曾見過的物體，機器人也可以完成任務。

在“拿碗”和“裝盒”兩項任務中，機器人面對未知物體的成功率均超過了半數。

此外，TAVI方法訓練出的機器人不僅能出色完成各項任務，還能按順序依次執行多項子任務。

魯棒性方面，研究團隊通過調整相機角度進行了測試，結果機器人依舊保持了高成功率。

那么，TAVI方法是如何實現這樣的效果的呢？

TAVI的核心是使用視覺上的反饋來訓練機器人，工作主要分為三個步驟。

首先是從視覺和觸覺兩個維度收集人類給出的演示信息。

收集到的視覺信息會被用于建立獎勵函數，以供后續學習過程中使用。

這一過程中，系統通過對比學習的方式來獲取對完成任務有用的視覺特征，對機器人動作完成度進行評價。

然后結合觸覺信息和視覺反饋，通過強化學習方式進行訓練，讓機器人反復嘗試，直到獲得較高的完成度評分。

而TAVI的學習是一個循序漸進的過程，隨著學習步驟的增加，獎勵函數越來越完善，機器人的動作也越來越精準。

而為了提高TAVI的靈活性，研究團隊還引入了一種殘差策略。

遇到與基礎策略出現差別時，只需要對有差別的部分進行學習，而不必從頭開始。

消融實驗結果表明，如果沒有殘差策略，而是每次都從頭學起，機器人完成任務的成功率將有所降低。

如果對具身智能有興趣，可以閱讀研究團隊的論文了解更多詳情。

論文地址：https://arxiv.org/abs/2309.12300GitHub。

項目頁：https://github.com/irmakguzey/see-to-touch。

責任編輯：姜華來源：量子位