橫掃6個SOTA,谷歌行為克隆算法登CoRL頂會,機(jī)器人干活10倍速
谷歌團(tuán)隊(duì)在CoRL 2021上提出了一種隱式行為克隆 (Implicit BC) 算法,該方法在7項(xiàng)測試任務(wù)中的6項(xiàng)上優(yōu)于此前最佳的離線強(qiáng)化學(xué)習(xí)方法(Conservative Q Learning)。Implicit BC在現(xiàn)實(shí)世界中表現(xiàn)也得特別好,比基線的顯式行為克隆(explicit BC)模型好10倍。
盡管過去幾年中,機(jī)器人學(xué)習(xí)取得了相當(dāng)大的進(jìn)步,但在模仿精確或復(fù)雜的行為時,機(jī)器人代理的一些策略仍難以果斷地選擇動作。
要讓機(jī)器人把桌子上的小滑塊精確地滑進(jìn)一個插槽里。解決這個任務(wù)有很多方法,每種方法都需要精確的移動和修正。機(jī)器人只能采取這些策略選項(xiàng)中的一個,還必須在每次滑塊滑得比預(yù)期的更遠(yuǎn)時及時改變策略。
人類可能認(rèn)為這樣的任務(wù)很容易,但對于機(jī)器人來說,情況往往并非如此,它們經(jīng)常會學(xué)習(xí)一些人類專家看來「優(yōu)柔寡斷」或「不精確」的行為。
機(jī)器人需要在桌子上滑動滑塊,然后將其精確插入固定裝置,顯式行為克隆模型表現(xiàn)得很猶豫
為了讓機(jī)器人更加果斷,研究人員經(jīng)常利用離散化的動作空間,迫使機(jī)器人進(jìn)行明確的「二選一」,而不是在選項(xiàng)之間搖擺不定。
比如,離散化是近年來很多游戲agent著名模型的固有特征,比如AlphaGo、AlphaStar 和 OpenAI 打Dota的AI agent。
但離散化有其自身的局限性——對于在空間連續(xù)的現(xiàn)實(shí)世界中運(yùn)行的機(jī)器人來說,離散化至少有兩個缺點(diǎn):
- 精度有限。
- 因計(jì)算維度導(dǎo)致成本過高,許多離散化不同的維度會顯著增加內(nèi)存和計(jì)算需求。在 3D 計(jì)算機(jī)視覺任務(wù)中,近期的許多重要模型都是由連續(xù),而非離散表示來驅(qū)動的。
為了學(xué)習(xí)沒有離散化特征缺陷的決定性策略,谷歌團(tuán)隊(duì)提出了一種隱式行為克隆 (Implicit BC) 的開源算法,這是一種新的、簡單的模仿學(xué)習(xí)方法,已經(jīng)在 CoRL 2021 上展示。
該方法在模擬基準(zhǔn)任務(wù)和需要精確和果斷行為的現(xiàn)實(shí)世界機(jī)器人任務(wù)上都取得了很好的結(jié)果。在7項(xiàng)測試任務(wù)中,隱式 BC 的性能在其中6項(xiàng)上優(yōu)于此前最佳的離線強(qiáng)化學(xué)習(xí)方法(Conservative Q Learning)。
有趣的是,隱式 BC 在不需要任何獎勵信息的情況下實(shí)現(xiàn)了這些結(jié)果,即可以使用相對簡單的監(jiān)督學(xué)習(xí),而不是更復(fù)雜的強(qiáng)化學(xué)習(xí)。
隱式行為克隆(Implicit BC)
這種方法是一種行為克隆,可以說是機(jī)器人從演示中學(xué)習(xí)新技能的最簡單的方法。在行為克隆中,agent會學(xué)習(xí)如何通過標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)模仿專家的行為。傳統(tǒng)的行為克隆一般是訓(xùn)練一個顯式神經(jīng)網(wǎng)絡(luò)(如下圖左所示),接受觀察并輸出專家動作。
而隱式行為克隆背后的關(guān)鍵思想是,訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來接受觀察和動作,并輸出一個數(shù)字,該數(shù)字對專家動作來說很低,對非專家動作來說很高,將行為克隆變成一個基于能量的建模問題。

顯式(左)和隱式(右)策略之間差異的描述。在隱式策略中,「argmin」表示與特定觀察配對時最小化能量函數(shù)值的動作。
訓(xùn)練后,隱式行為克隆策略會查找對給定觀察具有最低能量函數(shù)值的動作輸入,以此生成動作。
為了訓(xùn)練隱式 BC 模型,研究人員使用InfoNCE損失,讓網(wǎng)絡(luò)為數(shù)據(jù)集中的專家動作輸出低能量,為所有其他動作輸出高能量。有趣的是,這種使用同時接受觀察和行動的模型的思想在強(qiáng)化學(xué)習(xí)中很常見,但在有監(jiān)督的策略學(xué)習(xí)中則不然。
上圖所示為隱式模型如何適應(yīng)不連續(xù)性的動畫——在這種情況下,訓(xùn)練隱式模型來適應(yīng)一個步長(Heaviside)函數(shù)。左:擬合黑色訓(xùn)練點(diǎn)的2D圖,顏色代表能量值(藍(lán)色低,棕色高)。中間:訓(xùn)練期間能量模型的3D圖。右圖:訓(xùn)練損失曲線。
一旦經(jīng)過訓(xùn)練,Google AI發(fā)現(xiàn)隱式模型(implicit model)特別擅長精確地建模先前顯式模型(explicit model)難以解決的不連續(xù)性問題,從而產(chǎn)生新的策略,能夠在不同行為之間果斷切換。
為什么傳統(tǒng)的顯式模型(explicit model)在這個問題上表現(xiàn)不佳呢?
現(xiàn)代神經(jīng)網(wǎng)絡(luò)幾乎總是使用連續(xù)激活函數(shù)——例如,Tensorflow、Jax和PyTorch都只提供連續(xù)激活函數(shù)。
在試圖擬合不連續(xù)數(shù)據(jù)時,用這些激活函數(shù)構(gòu)建的顯式網(wǎng)絡(luò)無法準(zhǔn)確表示,因此必須在數(shù)據(jù)點(diǎn)之間繪制連續(xù)曲線。隱式模型(implicit model)的一個關(guān)鍵優(yōu)勢是,即使網(wǎng)絡(luò)本身僅由連續(xù)層組成,也能夠表示出尖銳的不連續(xù)性。

與顯式模型(底部)相比,隱式模型(頂部)擬合不連續(xù)函數(shù)的示例。紅色突出顯示的插圖顯示,隱式模型表示不連續(xù)性(a)和(b),而顯式模型必須在不連續(xù)性之間畫出連續(xù)的線(c)和(d)
Google AI在這個方面建立了理論基礎(chǔ),提出了一個普遍近似的概念,證明了隱式神經(jīng)網(wǎng)絡(luò)可以表示的函數(shù)類別,這將有助于證明和指導(dǎo)未來的研究。
Google AI最初嘗試這種方法時面臨的一個挑戰(zhàn)是「高動作維度」,這意味著機(jī)器人必須決定如何同時協(xié)調(diào)多個電機(jī)。為了擴(kuò)展到高作用維度,Google AI使用自回歸模型或朗之萬動力學(xué)。
全新SOTA
在實(shí)驗(yàn)中,Google AI發(fā)現(xiàn)Implicit BC在現(xiàn)實(shí)世界中表現(xiàn)得特別好,在毫米精度的滑塊滑動及插槽任務(wù)上比基線的顯式行為克隆(explicit BC)模型好10倍。
在此任務(wù)中,隱式模型(implicit model)在將滑塊滑動到位之前會進(jìn)行幾次連續(xù)的精確調(diào)整。
將滑塊精確地插入插槽的示例任務(wù)。這些是隱式策略的自主行為,僅使用圖像(來自所示的攝像機(jī))作為輸入
這項(xiàng)任務(wù)有多種決定性因素:由于塊的對稱性和推動動作的任意順序,有許多不同的可能解決方案。
機(jī)器人需要決定滑塊何時已經(jīng)被推動足夠遠(yuǎn),然后需要切換到向不同方向滑動。這一過程是不連續(xù)的,所以,連續(xù)控制型機(jī)器人在這一任務(wù)上會表現(xiàn)得十分優(yōu)柔寡斷。
完成這項(xiàng)任務(wù)的不同策略。這些是來自隱式策略的自主行為,僅使用圖像作為輸入
在另一個具有挑戰(zhàn)性的任務(wù)中,機(jī)器人需要按顏色對滑塊進(jìn)行篩選,由于挑選順序是很隨意的,這就產(chǎn)生了大量可能的解決方案。
頗具挑戰(zhàn)性的連續(xù)篩選任務(wù)中顯式BC模型的表現(xiàn)(4倍速度)
在這項(xiàng)任務(wù)中,顯式模型(explicit model)還是表現(xiàn)得很拿不準(zhǔn),而隱式模型(implicit model)表現(xiàn)得更好。
頗具挑戰(zhàn)性的連續(xù)篩選任務(wù)中隱式BC模型表現(xiàn)(4倍速度)
而且在Google AI的測試中,Implicit BC在面臨干擾時,盡管模型從未見過人類的手,也依然可以表現(xiàn)出強(qiáng)大的適應(yīng)能力。
機(jī)器人受到干擾時,隱式BC模型的穩(wěn)健行為
總的來說,Google AI發(fā)現(xiàn),與跨多個不同任務(wù)領(lǐng)域的最先進(jìn)的離線強(qiáng)化學(xué)習(xí)方法相比,Implicit BC策略可以獲得更好的結(jié)果。
Implicit BC可以完成很多具有挑戰(zhàn)性的任務(wù),比如演示次數(shù)少(少至19次),基于圖像的觀察具有高觀察維度,還有高達(dá)30維的高動作維度,這就需要機(jī)器人充分利用自身具有的大量致動器。

隱式策略學(xué)習(xí)結(jié)果與跨多個域的基線進(jìn)行了比較
盡管Implicit BC目前還有其局限性,但使用監(jiān)督學(xué)習(xí)的行為克隆仍然是機(jī)器人從人類行為例子中學(xué)習(xí)的最簡單方法之一。
該工作表明,在進(jìn)行行為克隆時,用隱式策略替換顯式策略可以讓機(jī)器人克服「猶猶豫豫」,使它們能夠模仿更加復(fù)雜和精確的行為。
雖然Implicit BC取得的實(shí)驗(yàn)結(jié)果來自機(jī)器人學(xué)習(xí)問題上,但是隱式函數(shù)對尖銳不連續(xù)性和多模態(tài)標(biāo)簽建模的能力可能在機(jī)器學(xué)習(xí)的其他領(lǐng)域也有更廣泛的應(yīng)用。