成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<cite id="hkzql"></cite>

<cite id="hkzql"></cite>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設置退出

為什么策略梯度法在協(xié)作性MARL中如此高效？

作者：朱先忠 2022-08-05 11:01:18

開發(fā) 架構

為什么PG方法可以如此有效？在本文中，我們將展開具體的分析以表明在某些場景中，例如在具有高度多模式獎勵景觀的環(huán)境中，虛擬現(xiàn)實可能存在的問題并導致不期望的結果。

?譯者 | 朱先忠

審校 | 孫淑娟

在協(xié)作性多智能體強化學習（multi-agentreinforcement learning：MARL）中，由于其基于策略的性質(zhì)，通常認為策略梯度（policy gradient：PG）方法的樣本效率低于非策略的值分解（value decomposition：VD）方法。然而，最近的一些實證研究表明，與非策略值分解方法相比，通過適當?shù)妮斎氡硎竞统瑓?shù)調(diào)整，多智能體策略梯度（PG）方法可以實現(xiàn)驚人的性能。

為什么PG方法可以如此有效？在本文中，我們將展開具體的分析以表明在某些場景中，例如在具有高度多模式獎勵景觀的環(huán)境中，虛擬現(xiàn)實可能存在的問題并導致不期望的結果。相反，在這些情況下，使用單個策略的PG方法可以收斂到最優(yōu)策略。此外，具有自回歸（auto-regressive：AR）策略的PG方法可以進行多模式策略學習。

圖1：4人置換博弈的不同策略表示

協(xié)作性MARL中的集中訓練和分散執(zhí)行：VD與PG方法

集中訓練和分散執(zhí)行（Centralizedtraining and decentralized execution：CTDE）是合作MARL中一種流行的框架。它利用全局信息進行更有效的訓練，同時保留用于測試的單個策略的表示。CTDE可以通過值分解（VD）或策略梯度（PG）方法來實現(xiàn)，從而產(chǎn)生兩種不同類型的算法。

其中，VD方法能夠學習局部Q網(wǎng)絡并將局部Q網(wǎng)絡混合到全局Q函數(shù)中的混合函數(shù)。通常，強制執(zhí)行混合函數(shù)以滿足單個全局最大值（Individual-Global-Max：IGM）原則；該原則確?？梢酝ㄟ^貪婪地為每個智能體局部選擇最優(yōu)動作來計算最優(yōu)聯(lián)合動作。

相反，PG方法直接應用策略梯度來學習單個策略和每個智能體的集中值函數(shù)。其中，值函數(shù)將全局狀態(tài)（如MAPPO）或所有局部觀測值的串聯(lián)（如MADDPG）作為其輸入，以獲得準確的全局值估計。

置換博弈：VD失敗的一個簡單反例

我們首先考慮一個無狀態(tài)合作博弈（即置換博弈）的情形。在N個人的置換博弈中，每個智能體可以輸出N個動作1，…，N。如果智能體的行為相互不同，即聯(lián)合行為是1，…，N上的排列，那么智能體將收到+1獎勵；否則，他們將獲得0獎勵。注意，在該博弈中存在N！種對稱的最優(yōu)策略。

圖2：4人排列游戲

現(xiàn)在，不妨讓我們集中討論一下兩人之間的置換博弈。在此設置中，如果我們將前面的值分解（VD）方法應用于游戲。這樣一來，全局Q值將分解為：

其中，Q1和Q2是局部Q函數(shù)，Qtot是全局Q函數(shù)，fmix是混合函數(shù)，根據(jù)VD方法的要求，滿足IGM原理。

圖3：2人排列游戲中VD失敗原因的高級直觀展示

目前，我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結局。因為，如果值分解方法能夠描述博弈結局，我們將有：

然而，如果這兩種智能體中的任何一種具有不同的局部Q值，例如Q1（1）>Q1（2），那么根據(jù)單個全局最大值（IGM）原理，我們必須具有：

否則，如果Q1（1）=Q1（2）和Q2（1）=Q2（2），則有：

因此，值分解方案不能表示二人置換博弈的結局矩陣。

那么，PG方法如何呢？單個策略確實可以表示置換博弈的最優(yōu)策略。此外，隨機梯度下降可以保證PG在溫和的假設下收斂到這些最優(yōu)值之一。這表明，盡管與值分解方法相比，策略梯度方法在MARL中不太流行，但在現(xiàn)實應用中常見的某些情況下，例如具有多種策略模式的游戲中，它們可能更適合使用。

我們還指出，在置換博弈中，為了表示最優(yōu)聯(lián)合策略，每個智能體必須選擇不同的動作。因此，PG的成功實施必須確保策略是特定于智能體的。這可以通過使用具有非共享參數(shù)的單個策略（在本文中稱為PG-Ind）或智能體ID條件策略（PG-ID）來實現(xiàn)。

在流行的MARL測試平臺上PG優(yōu)于最佳VD方法

除了排列游戲的簡單示例之外，我們還將我們的研究擴展到了目前流行的和更現(xiàn)實的MARL基準測試環(huán)境中。除了星際爭霸多智能體挑戰(zhàn)（StarCraft Multi-Agent Challenge：SMAC）已經(jīng)驗證了PG和智能體條件策略輸入的有效性外，我們還展示了谷歌足球研究（Google Research Football：GRF）和多玩家Hanabi挑戰(zhàn)方面的新成果。

圖4：（左）GRF上PG方法的獲勝率；（右）Hanabi-Full的最佳和平均評估分數(shù)

在GRF中，PG方法在5種場景中優(yōu)于最先進的VD基礎數(shù)據(jù)（CDS）。有趣的是，我們還注意到，在所有5種場景中，與特定于智能體的策略（PG-ID）相比，沒有參數(shù)共享的單個策略（PG-Ind）實現(xiàn)了可比的有時甚至出現(xiàn)更高的獲勝率。我們評估了具有不同玩家數(shù)量（2-5名玩家）的全規(guī)模Hanabi游戲中的PG-ID，并將其與SAD——Hanabi游戲中一種強大的非策略Q學習變體和值分解網(wǎng)絡（VDN），進行了比較。如上表所示，在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時，PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎勵相當或更好的結果。

超越高回報：通過自回歸策略建模學習多模式行為

除了學習更高的回報外，我們還研究了如何學習合作MARL中的多模式策略。讓我們再次切換回排列游戲主題。其中，雖然我們已經(jīng)證明了PG可以有效地學習最優(yōu)策略，但它最終達到的策略模式在很大程度上取決于策略初始化。因此，出現(xiàn)了一個自然的問題：

我們可以學習一個可以覆蓋所有最優(yōu)模式的策略嗎？

在分散式的PG公式中，聯(lián)合策略的因子表示只能表示一種特定模式。因此，我們提出了一種增強的方法來參數(shù)化策略以獲得更強的表達能力——自回歸（auto-regressive：AR）策略。

圖5：4人置換博弈中個體策略（PG）和自回歸策略（AR）之間的比較

從形式上，我們可以將n個智能體的聯(lián)合策略分解為如下形式：

其中，智能體i產(chǎn)生的動作取決于其自身的觀察oi和來自先前智能體1，…，i?1的所有動作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對每個智能體策略的唯一修改是輸入維度，通過包含以前的操作，輸入維度略有擴大；每個智能體策略的輸出維度保持不變。

在這樣最小的參數(shù)化開銷下，AR策略大大提高了PG方法的表示能力。我們注意到，帶AR策略的PG-AR可以同時表示置換博弈中的所有最優(yōu)策略模式。

圖6：PG Ind（左）和PG-AR（中）學習的策略行為熱圖和結局熱圖（右）。雖然PG-Ind在4人置換博弈中僅收斂到特定模式，但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式

在包括SMAC和GRF等更復雜的環(huán)境中，PG-AR可以學習有趣的緊急行為，這些行為需要強大的智能體內(nèi)協(xié)調(diào)，而PG-Ind可能永遠無法學習這樣的行為。

圖7：（左）在SMAC和GRF中由PG-AR誘導的緊急行為。在SMAC的2m_vs_1z地圖上，海軍陸戰(zhàn)隊保持站立并交替攻擊，同時確保每個時間步只有一名攻擊海軍陸戰(zhàn)隊；（右）在GRF的academy_3_vs_1_with_keeper場景中，智能體學習“TikiTaka”風格的行為：每個球員都不停地將球傳給隊友。

討論和收獲

在本文中，我們具體分析了合作性MARL中的VD和PG方法。首先，我們揭示了流行的VD方法表達能力的局限性，展示了即使在簡單的置換博弈中，它們也不能表示最優(yōu)策略。相比之下，我們證明了PG方法更具表現(xiàn)力。我們通過實驗驗證了PG在流行的MARL試驗環(huán)境（包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境）中的表達優(yōu)勢。最后，我們真誠希望從這項工作中獲得的見解能夠幫助社區(qū)在未來實現(xiàn)更通用和更強大的協(xié)作MARL算法。

譯者介紹

朱先忠，51CTO社區(qū)編輯，51CTO專家博客、講師，濰坊一所高校計算機教師，自由編程界老兵一枚。早期專注各種微軟技術（編著成ASP.NET AJX、Cocos 2d-X相關三本技術圖書），近十多年投身于開源世界（熟悉流行全棧Web開發(fā)技術），了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術。

原文標題：??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???，作者：Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu

責任編輯：武曉燕來源： 51CTO

梯度法 MARL PG

51CTO技術棧公眾號

業(yè)務
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學堂精培企業(yè)培訓 CTO訓練營

主站蜘蛛池模板：久久国产精品偷 | 日韩视频一区二区三区 | 久久精品99久久 | 久久久久久国产免费视网址 | 91精品国产91久久久久久不卞 | 一级毛片免费 | 蜜桃精品视频在线 | 精品日韩一区二区 | 久久不卡| 人人鲁人人莫人人爱精品 | 国产原创视频 | 久久久久久久久久久久91 | 精品日韩一区二区三区 | av在线天天 | 久久天天躁狠狠躁夜夜躁2014 | 在线观看视频亚洲 | 91精品久久久久 | 国产精品成人69xxx免费视频 | 18成人在线观看 | 欧美一区二区三区久久精品 | 国产高清在线精品 | 91久久久久久久久 | 免费日韩av网站 | 91精品国产91久久久久久吃药 | 色婷婷综合久久久久中文一区二区 | av中文字幕网站 | 看片一区 | 一区二区av | 国产99热| 欧美极品视频在线观看 | 日韩高清国产一区在线 | 久久国产成人 | 大吊一区二区 | 亚洲啊v在线 | 午夜精品久久 | 国产一区2区 | 岛国av免费观看 | 久久国产综合 | 一区二区精品 | 在线丝袜欧美日韩制服 | 欧美专区日韩 |

<label id="aywqk"></label>

<button id="aywqk"><form id="aywqk"><s id="aywqk"></s></form></button>