模仿學習:無需編程,機器人也能聽懂自然語言了!
?用人類日常交流所說的自然語言指令去命令機械臂執行任務是一個很大的挑戰。一個來自亞利桑那州立大學、英特爾人工智能實驗室和俄勒岡州立大學的研究團隊在操縱任務中將語言作為模仿學習(Imitation Learning)的靈活目標,為人類專家和機器人提供了溝通的橋梁。在訓練過程中,模型學會了相互聯系和捕捉語言、視覺和運動控制之間的相關性,從而產生以語言為條件的控制策略。然后這些策略為人類用戶提供了一個簡單直觀的,可以發出非結構化命令的界面。
在未來,將非結構化的自然語言融入到模仿學習中可以減少自主機器人對編程的需求,實現人與機器人之間的自然交互。這項創新可能會讓自動化機器人在醫療保健、零售、制造和食品等行業的使用更上一層樓。消除機器人對特定句子結構、完美的語法或特定領域語言的需要后,人類就可以更容易地指導機器人執行任務,如從零售倉庫挑選和包裝貨物,或命令機器人手臂在餐館準備飯菜。在醫療保健領域,人類還可以使用語音指令來驅動自動輪椅,藥店也可以使用機器人手臂來包裝藥物。
1 模仿學習與溝通渠道
該研究團隊與亞利桑那州立大學的研究人員Simon Stepputtis、Joseph Campbell、Chitta Baral和Heni Ben Amor以及俄勒岡州立大學的研究人員Stefan Lee合作,在2020年NeurIPS大會的重點展示會上發表了論文《機器人操作任務中以語言為條件的模仿學習(Language-Conditioned Imitation Learning for Robot Manipulation Tasks)》。
圖注:論文《機器人操作任務中以語言為條件的模仿學習》
論文鏈接:https://arxiv.org/abs/2010.12083
模仿學習用一種簡單的方式向機器人傳授新技能。在不需要編程的情況下,人們只需要提供一組可以轉換為函數式或概率表示的演示就好。然而,這種方法的局限性在于必須仔細設計狀態表示來確保所有必要信息是可用的。神經方法通過讓機器人學習特定于任務的特征表示,從而將模仿學習擴展到高維空間。然而,這些方法缺乏一個通信通道,這種通信通道可以讓用戶在幾乎沒有額外成本的情況下提供有關預期任務的進一步信息。因此,程序員和用戶都必須求助于數字方法來定義目標。
為了克服這些挑戰,該研究團隊開發了一個端到端的、受語言限制的控制策略用來處理由高級語義模塊和低級控制器組成的操作任務,將語言、視覺和控制集成在一個框架中。
策略的生成可以看作是一個從語言到視覺的翻譯過程。當使用端到端方法時,這種方法在概念上被分為了兩部分:語義模型和控制模型。語義模型從語言和視覺角度創建了獨特的任務表示。控制模型在考慮機器人當前狀態的同時,將任務表示轉換為特定于任務的控制策略。
2 評價:采摘和傾倒任務
該團隊在一個桌面設置的模擬機器人任務中評估了這種新方法。在這項任務中,一名專家教一個七自由度機器人操作手如何執行一系列采摘和傾倒的動作。在訓練時,專家負責提供任務的動覺演示,以及語言描述如“倒一點到紅碗里”。桌上可能有幾個不同形狀、大小和顏色的對象,這常常導致自然語言描述產生歧義。機器人必須學會如何有效地從可用的原始數據源中提取關鍵信息,從而決定去做什么、如何做以及移動到哪里。
1
圖注:執行傾倒任務的機械臂
為了生成訓練和測試數據,五位專家利用同義詞替換方法提供了200個口頭任務描述模板。模仿學習需要大量的演示,因此團隊使用這種自動方法,通過為任務創建相同句子的各種變體來生成演示。該模型在40,000個綜合生成的場景上進行訓練。
3 語言限制操作任務的結果
這個模型的整體任務描述了杯子第一次被舉起,然后成功地倒入正確碗中的百分比。這一系列步驟在在84%的新環境中成功得到執行。僅做采摘動作的成功率達98%,傾倒成功率達85%。這些結果表明,該模型成功地將訓練的行為概括為物體位置、語言命令或知覺輸入的變化。該團隊的成果為成功集成語言、視覺和控制設置了基準。
該團隊利用輔助損耗來補充產生的機器人控制信號。引導對象檢測注意和策略生成都提高了傾倒任務的性能。團隊還讓5個新的參與人發出命令以此評估這個模型,并將其與合成語言進行比較。總的來說,這個模型對來自新參與者的新自然語言命令反應良好。
由此看來,自然語言指令可以在未來為機器學習和機器人開辟新的應用。?