基于網格環境的模仿學習技術實戰探索原創

發布于 2024-9-29 10:53

瀏覽

0收藏

本文將全面探討在網格環境下，模仿學習中一些著名方法的測試運行與結果對比分析。

簡介

強化學習（RL）是機器學習的一個分支，圍繞通過標量信號（獎勵）的指導進行學習；這與監督學習是不同的，監督學習需要目標變量的完整標簽。

我們可以通過一個直觀的例子來解釋強化學習。比如一所學校有兩個班，連續重復兩種類型的測試。第一個班完成了測試并獲得了完整的正確答案（監督學習：SL）。第二個班也完成了測試，但是只得到每個問題的分數（強化學習：RL）。在第一種情況下，學生似乎更容易學習正確的答案并記住它們。在第二個班上，任務更難，因為他們只能通過反復試驗來學習。然而，他們的學習將更加穩健，因為他們不僅知道什么是正確的，而且知道要避免的所有錯誤答案。

為了有效地使用RL進行學習，應該設計一個準確的獎勵信號（成績），這被認為是一項艱巨的任務，特別是對于現實世界的應用程序而言。例如，人類專家級的司機知道如何駕駛，但不能為“正確駕駛”技能設定獎勵機制，而烹飪或繪畫等領域也是如此。這就產生了對模仿學習方法（IL：imitation learning）的需求。IL是RL的一個新分支，它只關注從專家軌跡中學習，而不知道回報。當前，IL的主要應用領域是機器人和自動駕駛領域。

在下文中，我們將探討本文參考文獻中提出的一些最著名的IL方法，按其提出時間從舊到新進行排序，如下圖所示。

基于網格環境的模仿學習技術實戰探索-AI.x社區

IL方法發明的時間順序表

注意，下文中數學公式將與符號的命名一起顯示。而且，這里給出的理論推導僅保持在最低限度。因此，如果您還需要更深入的了解，可以在末尾的參考文獻部分查找原始參考文獻。在本文隨附的Github倉庫中也提供了重新創建本文介紹方法的所有有關實驗的完整代碼。

接下來，讓我們開始深入學習模仿學習，從行為克隆（BC）到信息最大化生成對抗模仿學習（InfoGAIL）。

試驗環境

本文中使用的試驗環境表示為一個15x15大小的網格。具體的環境狀態定義如下圖所示：

智能體：紅色
初始智能體位置：藍色
墻壁：綠色

基于網格環境的模仿學習技術實戰探索-AI.x社區

智能體的目標是通過三個窗口中的任何一個，以最短的方式到達第一行，并朝向相對于穿過網格中間的垂直軸的初始位置的對稱位置。目標位置不會顯示在狀態網格中。

因此，初始位置只有15種可能性，目標位置也會因此而改變。

動作空間

動作空間A由0到4的離散數組成，表示四個方向的運動和停止動作，如下圖所示：

基于網格環境的模仿學習技術實戰探索-AI.x社區

獎勵函數

這里的真實數據獎勵R（s，a）是一個描述當前狀態和動作的函數，其值等于朝向目標的位移距離：

基于網格環境的模仿學習技術實戰探索-AI.x社區

在上面公式中，p1表示舊位置，p2表示新位置。智能體將始終在最后一行初始化，但每次都在隨機位置。

專家策略

用于本文中所介紹的所有方法（InfoGAIL除外）的專家策略都是為了以最短的路徑實現目標。這涉及三個步驟：

向最近的窗口移動
直接朝著目標前進
在目標位置停止運動

此行為可由下面GIF動畫來演示：

基于網格環境的模仿學習技術實戰探索-AI.x社區

使用專家策略生成其他IL方法使用的演示軌跡（每個軌跡τ都表示為狀態動作元組的有序序列）

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，專家演示集定義為D={τ0，?，τn}

對于每30個情節——每個情節用32步，專家級平均情節回報率為16.33±6。

正向強化學習

首先，我們將使用真實獎勵值來訓練一個模型，以便設置一些基準參數和調整超參數，方便后面與IL方法一起使用。

本文中使用的正向強化學習算法的實現基于Clean RL腳本（參考文獻12），該腳本提供了強化方法的詳細實現細節。

簡介

我們將分別測試近端策略優化（PPO）（參考文獻2）和深度Q網絡（DQN）（參考文獻1），這兩種方法是目前為止最先進的同策略強化方法和眾所周知的異策略強化方法。

以下介紹每種方法的訓練步驟及其特征歸納。

同策略——近端策略優化（PPO）算法

此方法使用正在訓練的當前策略，并在收集每個episode（情景）的推出后更新其參數。PPO算法有兩個主要部分組成：評論家和演員。其中，演員代表策略，而評論家則為每個狀態提供價值估計，并為其更新目標。

異策略——深度Q網絡（DQN）算法

DQN算法通過使用epsilon貪婪探索在重放緩沖區中收集卷展（rollouts）來離線訓練其策略。這意味著，DQN算法并不總是根據每個狀態的當前策略采取最佳動作，而是選擇隨機動作，這使得探索不同的解決方案成為可能。在這種算法中，可以把一個額外的目標網絡與更新頻率較低的策略版本一起使用，以便使學習目標更加穩定。

試驗結果和討論

下圖顯示了上述兩種方法的情景回報曲線。其中，DQN方法使用黑色顯示，而PPO方法顯示為橙色線。

基于網格環境的模仿學習技術實戰探索-AI.x社區

對于這個簡單的例子：

PPO和DQN都收斂，但PPO略有優勢。這兩種方法都沒有達到16.6的專家級水平（PPO方法接近15.26）。
DQN在相互步驟方面似乎收斂較慢；與PPO相比，這被稱為樣本低效。
PPO需要更長的訓練時間，這可能是由于演員-評論家訓練對兩個目標不同的網絡進行更新的緣故。

兩種方法的訓練參數基本相同。如果您想更仔細地了解這些曲線是如何生成的，請查看本文附帶存儲庫中的腳本文件ppo.py和dqn.py。

行為克隆（BC）

行為克隆首次在參考文獻4中提出，是一種直接的模仿學習方法。這種方法中應用了監督學習技術，將每個狀態映射到基于專家演示的動作D。這種方法將目標定義為：

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，π_bc代表訓練好的策略，π_E代表專家策略，l(π_bc(s),π_E(s))表示專家和訓練過的策略在響應相同狀態時的損失函數。

BC和監督學習之間的區別在于將問題定義為一個交互式環境；在這個環境中，BC根據動態的狀態（例如，機器人朝著目標移動）采取動作。相比之下，監督學習則是將輸入映射到輸出，如對圖像進行分類或預測溫度。這種區別在參考文獻8中有所解釋。

在此實現中，智能體的所有初始位置僅包含15種可能性。因此，只有15條軌跡可以學習，BC網絡可以有效地記憶這些軌跡。為了使問題更難解決，我們將訓練數據集D的大小減半（480個“狀態-動作”對中只使用了240個），并對本文中后續的所有模仿學習方法都采取這種處理辦法。

訓練結果

在完成模型訓練后（如bc.py腳本所示），我們得到的平均情景回報率為11.49，標準差為5.24。

這比以前的正向強化方法要少得多。以下GIF動畫顯示了訓練好的BC模型的實際應用情況。

基于網格環境的模仿學習技術實戰探索-AI.x社區

從此GIF中可以明顯看出，近三分之二的軌跡已經學會了穿過墻壁。然而，該模型陷入了最后三分之一的困境，因為它無法從前面的例子中推斷出真正的策略，特別是因為它只得到了15個專家軌跡中的一半來學習。

最大熵逆強化學習（MaxENT）

除了行為克隆（BC）方法之外，MaxEnt（參考文獻3）是另一種單獨訓練獎勵模型的方法（不是迭代）。其主要思想在于基于當前的獎勵函數，對專家軌跡的概率進行最大化計算。這可以表示為：

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，N表示軌跡長度，Z表示給定策略下所有可能軌跡之和的歸一化常數。

該方法基于最大熵定理（參考文獻3）推斷其主要目標；該定理指出，滿足給定條件的最具代表性的策略就是具有最高熵H的策略。因此，MaxEnt需要使用一個額外的目標來最大化策略的熵。這就又產生了下面這樣一個公式：

基于網格環境的模仿學習技術實戰探索-AI.x社區

此公式中使用了導數：

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，SVD表示狀態訪問頻率；在給定當前策略的情況下，可以用動態規劃算法來計算這個值。

在MaxEnt方法的實現中，我們沒有使用新獎勵的訓練，因為動態編程算法會很慢很長。相反，我們選擇通過像前一個過程一樣重新訓練BC模型來測試最大化熵的主要思想，但在損失中增加了推斷動作分布的負熵項。熵應該是負的，因為我們希望通過最小化損失來最大化它。

訓練結果

在將權重為0.5的動作分布的負熵相加后（選擇正確的值很重要；否則，可能會導致學習效果變差），我們看到比之前的BC模型的性能略有改善，現在的平均情景回報率為11.56（+0.07）。之所以訓練結果略有改進是因為我們使用了簡單的環境，此環境包含的狀態數量實在有限。如果狀態空間變大一些的話，熵的重要性預計會更大。

生成對抗模仿學習（GAIL）

生成對抗模仿學習（GAIL）的最初工作（參考文獻5）受到了生成對抗網絡（GANs）概念的啟發，GANs應用對抗訓練的思想來增強主模型的生成能力。同樣，在GAIL中，該概念被應用于匹配訓練策略和專家策略之間的狀態動作分布。

這可以推導為Kullback-Leibler散度，如論文（參考文獻5）所示。這篇論文最終得出這兩種模型（在GAIL中稱為生成器和鑒別器模型）的主要目標為：

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，D_t代表鑒別器，π_θ代表生成器模型（即訓練中的策略），π_e代表專家策略，H（πθ）代表生成器模型的熵。

這里，鑒別器充當二進制分類器，而生成器則對應于正在訓練的實際策略模型。

GAIL的主要優勢

與以前的幾種方法相比，GAIL方法的主要好處（以及它表現更好的原因）在于它的交互式訓練過程。訓練好的策略在鑒別器的獎勵信號的指導下學習和探索不同的狀態。

訓練結果

在對GAIL模型訓練160萬步后，該模型收斂到比BC和MaxEnt模型更高的水平。如果繼續訓練的話，可以取得更好的成績。

具體來說，訓練中我們獲得了平均12.8的情節獎勵，考慮到只有50%的演示沒有任何真正的獎勵，這是值得注意的一點。

下圖顯示了GAIL的訓練曲線（y軸上標有真實情景獎勵值）。值得注意的是，由于GAIL的對抗性訓練性質，來自log（D（s，a））的獎勵計算結果可能會比真實獎勵值更混一些。

基于網格環境的模仿學習技術實戰探索-AI.x社區

對抗反向強化學習（AIRL）

GAIL的一個遺留問題是，訓練好的獎勵模型（鑒別器）實際上并不代表實際獎勵值。相反，鑒別器被訓練為專家和生成器狀態動作對之間的二元分類器，其平均值為0.5。這意味著，鑒別器只能被視為替代獎勵。

為了解決這個問題，參考文獻6中的論文使用以下公式重新表述了鑒別器：

基于網格環境的模仿學習技術實戰探索-AI.x社區

其中，f_ω（s，a）應收斂到實際優勢函數。在這個例子中，這個值表示智能體離不可見目標有多近。注意，通過添加另一個術語以便包含已經成形的獎勵值的方法，有助于找到真實獎勵值；然而，對于這個實驗，我們將僅限于上述優勢函數。

訓練結果

使用與GAIL相同的參數訓練AIRL模型后，我們得到了以下訓練曲線：

基于網格環境的模仿學習技術實戰探索-AI.x社區

值得注意的是，在相同的訓練步驟（160萬步）下，由于訓練鑒別器的復雜性增加，AIRL的收斂速度較慢。然而，現在我們有了一個有意義的優勢函數，盡管只有10.8的情節獎勵，但訓練結果仍然還是相當不錯的。

讓我們比較一下這個優勢函數和真實獎勵值，以便與專家演示結果對應。為了使這些值更具可比性，我們還對學習到的優勢函數f_ω的值進行了歸一化。由此，我們得到了下圖：

基于網格環境的模仿學習技術實戰探索-AI.x社區

在該圖中，有15個脈沖對應于智能體的15個初始狀態。在圖的后半部分，我們可以看到訓練模型中存在更大的誤差，這是由于在訓練中只使用了一半的專家演示。

在圖形的前半部分，我們觀察到當智能體在目標處靜止且獎勵為零時的低狀態，而在訓練模型中計算結果表示為高值。在圖形的后半部分，計算結果表示為較低的值。

總體來看，學習函數大致遵循了真實獎勵值規律，并使用AIRL恢復了有關它的有用信息。

信息最大化GAIL（InfoGAIL）

盡管前面的幾種方法取得了一些進步，但是模仿學習中仍然存在一個重要問題：多模態學習。為了將IL應用于實際問題，有必要學習多種可能的專家策略。例如，在開車或踢足球時，沒有一種“真正”的做事方式；專家們的方法各不相同，IL模型應該能夠始終如一地學習這些變化。

為了解決這個問題，人們又開發了InfoGAIL模型算法（參考文獻7）。受InfoGAN（參考文獻11）的啟發，InfoGAN使用額外的風格向量來調節GAN生成的輸出風格，InfoGAIL在GAIL目標的基礎上增加了另一個標準：對狀態-動作對和新的控制輸入向量z之間的互信息進行最大化處理。這個目標可以推導成如下形式：

基于網格環境的模仿學習技術實戰探索-AI.x社區

Kullback-Leibler散度

其中，估計后驗p（z∣s，a）用一個新的模型Q近似，該模型以（s，a）為輸入，輸出z。

InfoGAIL的最終目標函數可以表示成如下形式：

基于網格環境的模仿學習技術實戰探索-AI.x社區

結果是，策略中包含了一個額外的輸入，即z，如下圖所示：

基于網格環境的模仿學習技術實戰探索-AI.x社區

在我們的實驗中，我們生成了新的多模態專家演示，每個專家只能從一個缺口（墻上的三個缺口中的一個）進入，而不管他們的目標是什么。實驗中，我們使用了完整的演示集，但是沒有標注是哪位專家在做動作。z變量是一個單熱編碼向量，表示成一個具有三個元素的專家類（例如，左門為[1 0 0]）。此時，策略應該是：

學會朝著目標前進。
將隨機生成的z值鏈接到不同模式的專家（從而通過不同的門）。
Q模型應該能夠根據每個狀態下的動作方向來檢測它是哪種模式。

請注意，由于對抗性訓練，鑒別器、Q模型和策略模型訓練結果圖都表現得有些混亂。

幸運的是，我們清楚地學習了這兩種模式。無論是通過策略方法還是Q模型方法都沒有識別出第三種模式。以下三個GIF動畫顯示了在給定不同z值時從InfoGAIL學習到的專家模式情況：

基于網格環境的模仿學習技術實戰探索-AI.x社區

z=[1,0,0]

基于網格環境的模仿學習技術實戰探索-AI.x社區

z=[0,1,0]

基于網格環境的模仿學習技術實戰探索-AI.x社區

z=[0,0,1]

最終，上述策略能夠收斂到經過80萬個訓練步后大約結果為10的情節獎勵。通過增加更多的訓練步驟的話，應該能夠獲得更好的訓練結果，即使本例中使用的專家方案不是最佳的。

歸納

當回顧我們上面做過的所有實驗時，結論很明顯，所有模仿學習方法在情景獎勵標準方面都表現良好。下表總結了它們各自的表現成績：

基于網格環境的模仿學習技術實戰探索-AI.x社區

因為專家演示是基于多模態專家的，所以InfoGAIL的結果不具有可比性

該表顯示，GAIL在我們給定的問題上表現最佳，而AIRL由于其引入了新的獎勵公式而表現得速度較慢，導致回報率較低。另外，InfoGAIL也學得很好，但很難識別所有三種專家模式。

結論

總之，模仿學習成為當下一個具有挑戰性和吸引力的領域。我們在本文中探索的方法適用于網格模擬環境，但可能無法直接轉化為現實世界的應用程序。除了一些行為克隆方法外，模仿學習的實際應用仍處于起步階段。將模擬與現實聯系起來會因其性質的差異而引入新的錯誤。

模仿學習的另一個公開挑戰是多智能體模仿學習。MAIRL（參考文獻9）和MAGAIL（參考文獻10）等人已經對多智能體環境進行了研究實驗，但從多個專家軌跡中學習的一般理論目前仍然是一個懸而未決的問題。

最后，我在GitHub上提供的存儲庫（http://github.com/engyasin/ilsurvey）提供了實現本文中介紹的所有方法的基本代碼實現，可以進行輕松擴展。該代碼將會在未來進行更新。如果您有興趣做出相關貢獻的話，您可以提交一個問題或拉取請求，并附上您的修改結果。

【注】除非另有說明；否則，本文中所有圖片均由作者本人自己提供。

參考文獻

[1] Mnih, V. (2013). Playing atari with deep reinforcement learning. arXiv preprint arXiv:1312.5602.

[2] Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347.

[3] Ziebart, B. D., Maas, A. L., Bagnell, J. A., & Dey, A. K. (2008, July). Maximum entropy inverse reinforcement learning. In Aaai (Vol. 8, pp. 1433–1438).

[4] Bain, M., & Sammut, C. (1995, July). A Framework for Behavioural Cloning. In Machine Intelligence 15 (pp. 103–129).

[5] Ho, J., & Ermon, S. (2016). Generative adversarial imitation learning. Advances in neural information processing systems, 29.

[6] Fu, J., Luo, K., & Levine, S. (2017). Learning robust rewards with adversarial inverse reinforcement learning. arXiv preprint arXiv:1710.11248.

[7] Li, Y., Song, J., & Ermon, S. (2017). Infogail: Interpretable imitation learning from visual demonstrations. Advances in neural information processing systems, 30.

[8] Osa, T., Pajarinen, J., Neumann, G., Bagnell, J. A., Abbeel, P., & Peters, J. (2018). An algorithmic perspective on imitation learning. Foundations and Trends? in Robotics, 7(1–2), 1–179.

[9] Yu, L., Song, J., & Ermon, S. (2019, May). Multi-agent adversarial inverse reinforcement learning. In International Conference on Machine Learning (pp. 7194–7201). PMLR.

[10] Song, J., Ren, H., Sadigh, D., & Ermon, S. (2018). Multi-agent generative adversarial imitation learning. Advances in neural information processing systems, 31.

[11] Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., & Abbeel, P. (2016). Infogan: Interpretable representation learning by information maximizing generative adversarial nets. Advances in neural information processing systems, 29.

[12] Huang, S., Dossa, R. F. J., Ye, C., Braga, J., Chakraborty, D., Mehta, K., & Ara??jo, J. G. (2022). Cleanrl: High-quality single-file implementations of deep reinforcement learning algorithms. Journal of Machine Learning Research, 23(274), 1–18.

譯者介紹

朱先忠，51CTO社區編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。

原文標題：??Hands-On Imitation Learning: From Behavior Cloning to Multi-Modal Imitation Learning??，作者：Yasin Yousif

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

強化學習

機器學習

模仿學習技術

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

基于網格環境的模仿學習技術實戰探索原創

簡介

試驗環境

動作空間

獎勵函數

專家策略

正向強化學習