僅用7500條軌跡數據訓練，CMU、Meta就讓機器人「上得廳堂、下得廚房」

作者：機器之心 2023-08-22 14:41:00

創造一個能夠在各種情境中展現多種技能的機器人，似乎是一個遙不可及的目標，而 RoboAgent 的出現或許將這個目標拉近了一步。

僅在 7500 條軌跡數據上進行訓練，能夠在 38 個任務中展示 12 種多樣的操作技能，不僅限于拾取 / 推動，還包括關節對象操縱和物體重新定位，并能將這些技能推廣應用于數百個不同的未知情境（未知物體、未知任務，甚至完全未知的廚房環境），這樣的機器人夠不夠酷？

幾十年來，創造一個能夠在不同環境中操縱任意物體的機器人一直是一個遙不可及的目標。一部分原因是，缺乏多樣化的機器人數據集，無法訓練這樣的智能體，同時也缺乏能夠生成此類數據集的通用智能體。

為了突破這一困境，來自 CMU、Meta AI 的作者歷時兩年開發了一個通用的 RoboAgent。他們將重點放在開發一種高效的范例上，能夠在實際數據有限的情況下訓練一個能夠獲得多種技能的通用智能體，并將這些技能推廣應用于多樣的未知情境。

RoboAgent 由以下模塊化構成：

RoboPen - 一個采用通用硬件構建的分布式機器人基礎設施，能夠長期不間斷運行；
RoboHive - 一個統一的框架，用于在模擬和真實世界操作中進行機器人學習；
RoboSet - 一個高質量的數據集，代表了各種場景中使用日常物品的多種技能；
MT-ACT - 一種高效的語言條件多任務離線模仿學習框架，通過在現有機器人經驗的基礎上創建多樣的語義增強集合，從而擴大了離線數據集，并采用了一種新穎的策略架構和高效的動作表示方法，在有限的數據預算下恢復出性能良好的策略。

RoboSet：多技能、多任務、多模態數據集

構建一個能夠在許多不同情境下推廣的機器人智能體，首先需要一個具有廣泛覆蓋范圍的數據集。鑒于擴大規模的努力通常會有所幫助（例如，RT-1 展示了約 130,000 條機器人軌跡的結果），因此需要在數據集有限的情況下理解學習系統的效率和泛化原則，低數據情境往往會導致過擬合。因此，作者的主要目標是開發一種強大的范例，可以在低數據情境下學習可推廣的通用策略，同時避免過擬合問題。

機器人學習中的技能與數據全景。

用于訓練 RoboAgent 的數據集 RoboSet（MT-ACT）僅包括 7,500 條軌跡（比 RT-1 的數據少 18 倍）。該數據集提前收集并保持凍結狀態。該數據集由在多個任務和場景中使用商品機器人硬件（Franka-Emika 機器人配備 Robotiq 夾具）進行人類遙操作收集的高質量軌跡組成。RoboSet（MT-ACT）在幾個不同的情境下稀疏地涵蓋了 12 種獨特技能。數據通過將日常廚房活動（如泡茶、烘焙）分為不同的子任務來收集，每個子任務代表一個獨特的技能。數據集包括常見的拾取 - 放置技能，還包括接觸豐富的技能，如擦拭、蓋蓋子，以及涉及關節物體的技能。

MT-ACT：多任務動作分塊 Transformer

RoboAgent 基于兩個關鍵洞察在低數據情境下學習通用策略。它利用基礎模型的世界先驗知識以避免模式崩潰，并采用了一種新穎的高效策略表示，能夠攝取高度多模態的數據。

1、語義增強：RoboAgent 通過對 RoboSet（MT-ACT）進行語義增強，將來自現有基礎模型的世界先驗知識注入其中。由此產生的數據集將機器人的經驗與世界先驗知識相結合，而無需額外的人力 / 機器人成本。使用 SAM 對目標物體進行分割，并在形狀、顏色、紋理變化方面對其進行語義增強。

2、高效策略表示：由此產生的數據集是嚴重多模態的，包含豐富多樣的技能、任務和情景。將動作分塊方法適應于多任務設置，開發了 MT-ACT 一種新穎的高效策略表示，能夠在低數據量情境中攝取高度多模態的數據集，同時避免過擬合問題。

實驗結果

RoboAgent 比現有方法更具樣本效率

下圖比較了作者提出的 MT-ACT 策略表示與幾種模仿學習架構。作者僅使用了包括物體姿態變化和部分光照變化的環境變化。與之前的研究相似，作者將此歸于 L1 泛化。從 RoboAgent 的結果，可以清楚地看到，使用動作分塊來建模子軌跡明顯優于所有基準方法，從而更證明了作者提出的策略表示在樣本效率學習方面的有效性。

RoboAgent 在多個泛化層面上表現出色

上圖展示了作者在不同泛化層次上測試方法的結果。并且可視化了泛化級別，L1 表示物體姿態變化，L2 表示多樣的桌面背景和干擾因素，L3 表示新穎的技能 - 物體組合。接下來，作者展示了每種方法在這些泛化層次上的表現。在嚴格的評估研究中，MT-ACT 比其他方法中表現顯著優異，特別是在更困難的泛化層次（L3）上。