成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

為什么策略梯度法在協(xié)作性MARL中如此高效?

譯文 精選
開發(fā) 架構
為什么PG方法可以如此有效?在本文中,我們將展開具體的分析以表明在某些場景中,例如在具有高度多模式獎勵景觀的環(huán)境中,虛擬現(xiàn)實可能存在的問題并導致不期望的結果。

?譯者 | 朱先忠

審校 | 孫淑娟

在協(xié)作性多智能體強化學習(multi-agentreinforcement learning:MARL)中,由于其基于策略的性質(zhì),通常認為策略梯度(policy gradient:PG)方法的樣本效率低于非策略的值分解(value decomposition:VD)方法。然而,最近的一些實證研究表明,與非策略值分解方法相比,通過適當?shù)妮斎氡硎竞统瑓?shù)調(diào)整,多智能體策略梯度(PG)方法可以實現(xiàn)驚人的性能。

為什么PG方法可以如此有效?在本文中,我們將展開具體的分析以表明在某些場景中,例如在具有高度多模式獎勵景觀的環(huán)境中,虛擬現(xiàn)實可能存在的問題并導致不期望的結果。相反,在這些情況下,使用單個策略的PG方法可以收斂到最優(yōu)策略。此外,具有自回歸(auto-regressive:AR)策略的PG方法可以進行多模式策略學習。

圖1:4人置換博弈的不同策略表示

協(xié)作性MARL中的集中訓練和分散執(zhí)行:VD與PG方法

集中訓練和分散執(zhí)行(Centralizedtraining and decentralized execution:CTDE)是合作MARL中一種流行的框架。它利用全局信息進行更有效的訓練,同時保留用于測試的單個策略的表示。CTDE可以通過值分解(VD)或策略梯度(PG)方法來實現(xiàn),從而產(chǎn)生兩種不同類型的算法。

其中,VD方法能夠學習局部Q網(wǎng)絡并將局部Q網(wǎng)絡混合到全局Q函數(shù)中的混合函數(shù)。通常,強制執(zhí)行混合函數(shù)以滿足單個全局最大值(Individual-Global-Max:IGM)原則;該原則確??梢酝ㄟ^貪婪地為每個智能體局部選擇最優(yōu)動作來計算最優(yōu)聯(lián)合動作。

相反,PG方法直接應用策略梯度來學習單個策略和每個智能體的集中值函數(shù)。其中,值函數(shù)將全局狀態(tài)(如MAPPO)或所有局部觀測值的串聯(lián)(如MADDPG)作為其輸入,以獲得準確的全局值估計。

置換博弈:VD失敗的一個簡單反例

我們首先考慮一個無狀態(tài)合作博弈(即置換博弈)的情形。在N個人的置換博弈中,每個智能體可以輸出N個動作1,…,N。如果智能體的行為相互不同,即聯(lián)合行為是1,…,N上的排列,那么智能體將收到+1獎勵;否則,他們將獲得0獎勵。注意,在該博弈中存在N!種對稱的最優(yōu)策略。

圖2:4人排列游戲

現(xiàn)在,不妨讓我們集中討論一下兩人之間的置換博弈。在此設置中,如果我們將前面的值分解(VD)方法應用于游戲。這樣一來,全局Q值將分解為:

其中,Q1和Q2是局部Q函數(shù),Qtot是全局Q函數(shù),fmix是混合函數(shù),根據(jù)VD方法的要求,滿足IGM原理。

圖3:2人排列游戲中VD失敗原因的高級直觀展示

目前,我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結局。因為,如果值分解方法能夠描述博弈結局,我們將有:

然而,如果這兩種智能體中的任何一種具有不同的局部Q值,例如Q1(1)>Q1(2),那么根據(jù)單個全局最大值(IGM)原理,我們必須具有:

否則,如果Q1(1)=Q1(2)和Q2(1)=Q2(2),則有:

因此,值分解方案不能表示二人置換博弈的結局矩陣。

那么,PG方法如何呢?單個策略確實可以表示置換博弈的最優(yōu)策略。此外,隨機梯度下降可以保證PG在溫和的假設下收斂到這些最優(yōu)值之一。這表明,盡管與值分解方法相比,策略梯度方法在MARL中不太流行,但在現(xiàn)實應用中常見的某些情況下,例如具有多種策略模式的游戲中,它們可能更適合使用。

我們還指出,在置換博弈中,為了表示最優(yōu)聯(lián)合策略,每個智能體必須選擇不同的動作。因此,PG的成功實施必須確保策略是特定于智能體的。這可以通過使用具有非共享參數(shù)的單個策略(在本文中稱為PG-Ind)或智能體ID條件策略(PG-ID)來實現(xiàn)。

在流行的MARL測試平臺上PG優(yōu)于最佳VD方法

除了排列游戲的簡單示例之外,我們還將我們的研究擴展到了目前流行的和更現(xiàn)實的MARL基準測試環(huán)境中。除了星際爭霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge:SMAC)已經(jīng)驗證了PG和智能體條件策略輸入的有效性外,我們還展示了谷歌足球研究(Google Research Football:GRF)和多玩家Hanabi挑戰(zhàn)方面的新成果。

圖4:(左)GRF上PG方法的獲勝率;(右)Hanabi-Full的最佳和平均評估分數(shù)

在GRF中,PG方法在5種場景中優(yōu)于最先進的VD基礎數(shù)據(jù)(CDS)。有趣的是,我們還注意到,在所有5種場景中,與特定于智能體的策略(PG-ID)相比,沒有參數(shù)共享的單個策略(PG-Ind)實現(xiàn)了可比的有時甚至出現(xiàn)更高的獲勝率。我們評估了具有不同玩家數(shù)量(2-5名玩家)的全規(guī)模Hanabi游戲中的PG-ID,并將其與SAD——Hanabi游戲中一種強大的非策略Q學習變體和值分解網(wǎng)絡(VDN),進行了比較。如上表所示,在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時,PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎勵相當或更好的結果。

超越高回報:通過自回歸策略建模學習多模式行為

除了學習更高的回報外,我們還研究了如何學習合作MARL中的多模式策略。讓我們再次切換回排列游戲主題。其中,雖然我們已經(jīng)證明了PG可以有效地學習最優(yōu)策略,但它最終達到的策略模式在很大程度上取決于策略初始化。因此,出現(xiàn)了一個自然的問題:

我們可以學習一個可以覆蓋所有最優(yōu)模式的策略嗎?

在分散式的PG公式中,聯(lián)合策略的因子表示只能表示一種特定模式。因此,我們提出了一種增強的方法來參數(shù)化策略以獲得更強的表達能力——自回歸(auto-regressive:AR)策略。

圖5:4人置換博弈中個體策略(PG)和自回歸策略(AR)之間的比較

從形式上,我們可以將n個智能體的聯(lián)合策略分解為如下形式:

其中,智能體i產(chǎn)生的動作取決于其自身的觀察oi和來自先前智能體1,…,i?1的所有動作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對每個智能體策略的唯一修改是輸入維度,通過包含以前的操作,輸入維度略有擴大;每個智能體策略的輸出維度保持不變。

在這樣最小的參數(shù)化開銷下,AR策略大大提高了PG方法的表示能力。我們注意到,帶AR策略的PG-AR可以同時表示置換博弈中的所有最優(yōu)策略模式。

圖6:PG Ind(左)和PG-AR(中)學習的策略行為熱圖和結局熱圖(右)。雖然PG-Ind在4人置換博弈中僅收斂到特定模式,但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式

在包括SMAC和GRF等更復雜的環(huán)境中,PG-AR可以學習有趣的緊急行為,這些行為需要強大的智能體內(nèi)協(xié)調(diào),而PG-Ind可能永遠無法學習這樣的行為。

圖7:(左)在SMAC和GRF中由PG-AR誘導的緊急行為。在SMAC的2m_vs_1z地圖上,海軍陸戰(zhàn)隊保持站立并交替攻擊,同時確保每個時間步只有一名攻擊海軍陸戰(zhàn)隊;(右)在GRF的academy_3_vs_1_with_keeper場景中,智能體學習“TikiTaka”風格的行為:每個球員都不停地將球傳給隊友。

討論和收獲

在本文中,我們具體分析了合作性MARL中的VD和PG方法。首先,我們揭示了流行的VD方法表達能力的局限性,展示了即使在簡單的置換博弈中,它們也不能表示最優(yōu)策略。相比之下,我們證明了PG方法更具表現(xiàn)力。我們通過實驗驗證了PG在流行的MARL試驗環(huán)境(包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境)中的表達優(yōu)勢。最后,我們真誠希望從這項工作中獲得的見解能夠幫助社區(qū)在未來實現(xiàn)更通用和更強大的協(xié)作MARL算法。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。早期專注各種微軟技術(編著成ASP.NET AJX、Cocos 2d-X相關三本技術圖書),近十多年投身于開源世界(熟悉流行全棧Web開發(fā)技術),了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術。

原文標題:??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???,作者:Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu

責任編輯:武曉燕 來源: 51CTO
相關推薦

2020-05-06 22:20:48

Kubernetes邊緣計算

2021-04-16 17:37:28

數(shù)據(jù)智能照明物聯(lián)網(wǎng)

2019-12-13 17:36:00

機器學習設計數(shù)學

2024-05-07 06:36:59

2021-08-30 17:14:22

物聯(lián)網(wǎng)IOT

2012-04-09 13:35:10

Instagram

2022-06-01 23:27:38

區(qū)塊鏈加密貨幣數(shù)字資產(chǎn)

2020-06-02 19:14:59

Kubernetes容器開發(fā)

2020-11-05 10:50:09

物聯(lián)網(wǎng)數(shù)據(jù)技術

2017-07-26 10:21:46

DockerLinux容器

2020-06-04 21:49:20

物聯(lián)網(wǎng)用戶體驗IOT

2016-05-19 10:31:35

數(shù)據(jù)處理CassandraSpark

2022-11-28 09:00:03

編程bug開發(fā)

2024-09-05 11:46:08

2018-04-24 15:53:52

2013-07-27 21:10:02

2021-05-31 07:44:08

Kafka分布式系統(tǒng)

2019-01-15 17:50:18

存儲技術容器

2021-09-30 10:19:29

物聯(lián)網(wǎng)安全物聯(lián)網(wǎng)IOT

2013-04-19 13:59:00

Apache Hado
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品偷 | 日韩视频一区二区三区 | 久久精品99久久 | 久久久久久国产免费视网址 | 91精品国产91久久久久久不卞 | 一级毛片免费 | 蜜桃精品视频在线 | 精品日韩一区二区 | 久久不卡| 人人鲁人人莫人人爱精品 | 国产原创视频 | 久久久久久久久久久久91 | 精品日韩一区二区三区 | av在线天天 | 久久天天躁狠狠躁夜夜躁2014 | 在线观看视频亚洲 | 91精品久久久久 | 国产精品成人69xxx免费视频 | 18成人在线观看 | 欧美一区二区三区久久精品 | 国产高清在线精品 | 91久久久久久久久 | 免费日韩av网站 | 91精品国产91久久久久久吃药 | 色婷婷综合久久久久中文一区二区 | av中文字幕网站 | 看片一区 | 一区二区av | 国产99热| 欧美极品视频在线观看 | 日韩高清国产一区在线 | 久久国产成人 | 大吊一区二区 | 亚洲啊v在线 | 午夜精品久久 | 国产一区2区 | 岛国av免费观看 | 久久国产综合 | 一区二区精品 | 在线 丝袜 欧美 日韩 制服 | 欧美专区日韩 |