耗時兩年,谷歌用強化學習打造23個機器人幫助垃圾分類
強化學習(RL)可以讓機器人通過反復試錯進行交互,進而學會復雜行為,并隨著時間的推移變得越來越好。之前谷歌的一些工作探索了 RL 如何使機器人掌握復雜的技能,例如抓取、多任務學習,甚至是打乒乓球。雖然機器人強化學習已經取得了長足進步,但我們仍然沒有在日常環境中看到有強化學習加持的機器人。因為現實世界是復雜多樣的,并且隨著時間的推移不斷變化,這為機器人系統帶來巨大挑戰。然而,強化學習應該是應對這些挑戰的優秀工具:通過不斷練習、不斷進步和在工作中學習,機器人應該能夠適應不斷變化的世界。
在谷歌的論文《 Deep RL at Scale: Sorting Waste in Office Buildings with a Fleet of Mobile Manipulators 》中,研究人員探討了如何通過最新的大規模實驗解決這個問題,他們在兩年內部署了一支由 23 個支持 RL 的機器人組成的群組,用于在谷歌辦公樓中進行垃圾分類和回收。使用的機器人系統將來自真實世界數據的可擴展深度強化學習與來自模擬訓練的引導和輔助對象感知輸入相結合,以提高泛化能力,同時保留端到端訓練優勢,通過對 240 個垃圾站進行 4800 次評估試驗來驗證。
論文地址:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
問題設置
如果人們沒有正確分類垃圾,成批的可回收物品可能會受到污染,堆肥可能會被不當丟棄到垃圾填埋場。在谷歌的實驗中,機器人在辦公樓周圍漫游,尋找 “垃圾站”(可回收垃圾箱、堆肥垃圾箱和其它垃圾箱)。機器人的任務是到達每個垃圾站進行垃圾分類,在不同垃圾箱之間運輸物品,以便將所有可回收物品(罐頭、瓶子)放入可回收垃圾箱,將所有可堆肥物品(紙板容器、紙杯)放入堆肥垃圾箱,其他所有東西都放在其它垃圾箱里。
其實這項任務并不像看起來那么容易。僅僅是撿起人們扔進垃圾箱的不同物品的子任務,就已經是一個巨大的挑戰。機器人還必須為每個物體識別合適的垃圾箱,并盡可能快速有效地對它們進行分類。在現實世界中,機器人會遇到各種獨特的情況,比如以下真實辦公樓的例子:
從不同的經驗中學習
在工作中不斷學習是有幫助的,但在達到這一點之前,需要用一套基本的技能來引導機器人。為此,谷歌使用了四種經驗來源:(1)簡單的手工設計策略,成功率很低,但有助于提供初步經驗;(2)模擬訓練框架,使用模擬 - 真實的遷移來提供一些初步的垃圾分類策略;(3)“robot classrooms”,機器人使用有代表性的垃圾站不斷練習(4)真實的部署環境,機器人在有真實垃圾的辦公樓里練習。
強化學習在該大規模應用中的示意圖。使用腳本生成的數據引導策略的啟動(左上圖)。然后訓練一個從仿真到實際的模型,在仿真環境中生成額外的數據(右上圖)。在每個部署周期中,添加在 “robot classrooms” 中收集的數據(右下圖)。在辦公樓中部署和收集數據(左下圖)。
這里使用的強化學習框架基于 QT-Opt,實驗室環境下的不同垃圾的抓取以及一系列其他技能也是使用該框架。在仿真環境中從簡單的腳本策略開始引導,應用強化學習,并使用基于 CycleGAN 的遷移方法,利用 RetinaGAN 使仿真圖像看起來更加逼真。
到此就開始進入 “robot classrooms”。雖然實際的辦公樓可以提供最真實的體驗,但數據收集的吞吐量是有限的 —— 有些時間會有很多垃圾需要分類,有些時間則不會有那么多。機器人在 “robot classrooms” 中積累了大部分的經驗。在下面展示的 “robot classrooms” 里,有 20 個機器人練習垃圾分類任務:
當這些機器人在 “robot classrooms” 接受訓練時,其它機器人正在 3 座辦公樓中的 30 個垃圾站上同時學習。
分類性能
最終,研究人員從 “robot classrooms” 收集了 54 萬個試驗數據,在實際部署環境收集了 32.5 萬個試驗數據。隨著數據的不斷增加,整個系統的性能得到了改善。研究者在 “robot classrooms” 中對最終系統進行了評估,以便進行受控比較,根據機器人在實際部署中看到的情況設置了場景。最終系統的平均準確率約為 84%,隨著數據的增加,性能穩步提高。在現實世界中,研究人員記錄了 2021 年至 2022 年實際部署的統計數據,發現系統可以按重量將垃圾桶中的污染物減少 40%至 50%。谷歌研究人員在論文提供了有關技術設計、各種設計決策的削弱研究以及實驗的更詳細統計數據的更深入見解。
結論和未來工作展望
實驗結果表明,基于強化學習的系統可以使機器人在真實辦公環境中處理實際任務。離線和在線數據的結合使得機器人能夠適應真實世界中廣泛變化的情況。同時,在更加受控的 “課堂” 環境中學習,包括在仿真環境和實際環境中,可以提供強大的啟動機制,使得強化學習的 “飛輪” 開始轉動,從而實現適應性。
雖然已經取得了重要成果,但還有很多工作需要完成:最終的強化學習策略并不總是成功的,需要更強大的模型來改善其性能,并將其擴展到更廣泛的任務范圍。除此之外,其它經驗來源,包括來自其它任務、其它機器人,甚至是互聯網視頻,也可能會進一步補充從仿真和” 課堂 “中獲得的啟動經驗。這些都是未來需要解決的問題。