?譯者 | 朱先忠
審校 | 孫淑娟
在協(xié)作性多智能體強化學習(multi-agentreinforcement learning:MARL)中,由于其基于策略的性質(zhì),通常認為策略梯度(policy gradient:PG)方法的樣本效率低于非策略的值分解(value decomposition:VD)方法。然而,最近的一些實證研究表明,與非策略值分解方法相比,通過適當?shù)妮斎氡硎竞统瑓?shù)調(diào)整,多智能體策略梯度(PG)方法可以實現(xiàn)驚人的性能。
為什么PG方法可以如此有效?在本文中,我們將展開具體的分析以表明在某些場景中,例如在具有高度多模式獎勵景觀的環(huán)境中,虛擬現(xiàn)實可能存在的問題并導致不期望的結果。相反,在這些情況下,使用單個策略的PG方法可以收斂到最優(yōu)策略。此外,具有自回歸(auto-regressive:AR)策略的PG方法可以進行多模式策略學習。
圖1:4人置換博弈的不同策略表示
協(xié)作性MARL中的集中訓練和分散執(zhí)行:VD與PG方法
集中訓練和分散執(zhí)行(Centralizedtraining and decentralized execution:CTDE)是合作MARL中一種流行的框架。它利用全局信息進行更有效的訓練,同時保留用于測試的單個策略的表示。CTDE可以通過值分解(VD)或策略梯度(PG)方法來實現(xiàn),從而產(chǎn)生兩種不同類型的算法。
其中,VD方法能夠學習局部Q網(wǎng)絡并將局部Q網(wǎng)絡混合到全局Q函數(shù)中的混合函數(shù)。通常,強制執(zhí)行混合函數(shù)以滿足單個全局最大值(Individual-Global-Max:IGM)原則;該原則確??梢酝ㄟ^貪婪地為每個智能體局部選擇最優(yōu)動作來計算最優(yōu)聯(lián)合動作。
相反,PG方法直接應用策略梯度來學習單個策略和每個智能體的集中值函數(shù)。其中,值函數(shù)將全局狀態(tài)(如MAPPO)或所有局部觀測值的串聯(lián)(如MADDPG)作為其輸入,以獲得準確的全局值估計。
置換博弈:VD失敗的一個簡單反例
我們首先考慮一個無狀態(tài)合作博弈(即置換博弈)的情形。在N個人的置換博弈中,每個智能體可以輸出N個動作1,…,N。如果智能體的行為相互不同,即聯(lián)合行為是1,…,N上的排列,那么智能體將收到+1獎勵;否則,他們將獲得0獎勵。注意,在該博弈中存在N!種對稱的最優(yōu)策略。
圖2:4人排列游戲
現(xiàn)在,不妨讓我們集中討論一下兩人之間的置換博弈。在此設置中,如果我們將前面的值分解(VD)方法應用于游戲。這樣一來,全局Q值將分解為:
其中,Q1和Q2是局部Q函數(shù),Qtot是全局Q函數(shù),fmix是混合函數(shù),根據(jù)VD方法的要求,滿足IGM原理。
圖3:2人排列游戲中VD失敗原因的高級直觀展示
目前,我們已經(jīng)正式證明了值分解VD方法不能矛盾地描述二人置換博弈的結局。因為,如果值分解方法能夠描述博弈結局,我們將有:
然而,如果這兩種智能體中的任何一種具有不同的局部Q值,例如Q1(1)>Q1(2),那么根據(jù)單個全局最大值(IGM)原理,我們必須具有:
否則,如果Q1(1)=Q1(2)和Q2(1)=Q2(2),則有:
因此,值分解方案不能表示二人置換博弈的結局矩陣。
那么,PG方法如何呢?單個策略確實可以表示置換博弈的最優(yōu)策略。此外,隨機梯度下降可以保證PG在溫和的假設下收斂到這些最優(yōu)值之一。這表明,盡管與值分解方法相比,策略梯度方法在MARL中不太流行,但在現(xiàn)實應用中常見的某些情況下,例如具有多種策略模式的游戲中,它們可能更適合使用。
我們還指出,在置換博弈中,為了表示最優(yōu)聯(lián)合策略,每個智能體必須選擇不同的動作。因此,PG的成功實施必須確保策略是特定于智能體的。這可以通過使用具有非共享參數(shù)的單個策略(在本文中稱為PG-Ind)或智能體ID條件策略(PG-ID)來實現(xiàn)。
在流行的MARL測試平臺上PG優(yōu)于最佳VD方法
除了排列游戲的簡單示例之外,我們還將我們的研究擴展到了目前流行的和更現(xiàn)實的MARL基準測試環(huán)境中。除了星際爭霸多智能體挑戰(zhàn)(StarCraft Multi-Agent Challenge:SMAC)已經(jīng)驗證了PG和智能體條件策略輸入的有效性外,我們還展示了谷歌足球研究(Google Research Football:GRF)和多玩家Hanabi挑戰(zhàn)方面的新成果。
圖4:(左)GRF上PG方法的獲勝率;(右)Hanabi-Full的最佳和平均評估分數(shù)
在GRF中,PG方法在5種場景中優(yōu)于最先進的VD基礎數(shù)據(jù)(CDS)。有趣的是,我們還注意到,在所有5種場景中,與特定于智能體的策略(PG-ID)相比,沒有參數(shù)共享的單個策略(PG-Ind)實現(xiàn)了可比的有時甚至出現(xiàn)更高的獲勝率。我們評估了具有不同玩家數(shù)量(2-5名玩家)的全規(guī)模Hanabi游戲中的PG-ID,并將其與SAD——Hanabi游戲中一種強大的非策略Q學習變體和值分解網(wǎng)絡(VDN),進行了比較。如上表所示,在不同數(shù)量的玩家使用相同數(shù)量的環(huán)境步驟時,PG-ID能夠產(chǎn)生與SAD和VDN獲得的最佳和平均獎勵相當或更好的結果。
超越高回報:通過自回歸策略建模學習多模式行為
除了學習更高的回報外,我們還研究了如何學習合作MARL中的多模式策略。讓我們再次切換回排列游戲主題。其中,雖然我們已經(jīng)證明了PG可以有效地學習最優(yōu)策略,但它最終達到的策略模式在很大程度上取決于策略初始化。因此,出現(xiàn)了一個自然的問題:
我們可以學習一個可以覆蓋所有最優(yōu)模式的策略嗎?
在分散式的PG公式中,聯(lián)合策略的因子表示只能表示一種特定模式。因此,我們提出了一種增強的方法來參數(shù)化策略以獲得更強的表達能力——自回歸(auto-regressive:AR)策略。
圖5:4人置換博弈中個體策略(PG)和自回歸策略(AR)之間的比較
從形式上,我們可以將n個智能體的聯(lián)合策略分解為如下形式:
其中,智能體i產(chǎn)生的動作取決于其自身的觀察oi和來自先前智能體1,…,i?1的所有動作。自回歸因子分解可以表示集中式MDP中的任何聯(lián)合策略。對每個智能體策略的唯一修改是輸入維度,通過包含以前的操作,輸入維度略有擴大;每個智能體策略的輸出維度保持不變。
在這樣最小的參數(shù)化開銷下,AR策略大大提高了PG方法的表示能力。我們注意到,帶AR策略的PG-AR可以同時表示置換博弈中的所有最優(yōu)策略模式。
圖6:PG Ind(左)和PG-AR(中)學習的策略行為熱圖和結局熱圖(右)。雖然PG-Ind在4人置換博弈中僅收斂到特定模式,但PG-AR成功地發(fā)現(xiàn)了所有最優(yōu)模式
在包括SMAC和GRF等更復雜的環(huán)境中,PG-AR可以學習有趣的緊急行為,這些行為需要強大的智能體內(nèi)協(xié)調(diào),而PG-Ind可能永遠無法學習這樣的行為。
圖7:(左)在SMAC和GRF中由PG-AR誘導的緊急行為。在SMAC的2m_vs_1z地圖上,海軍陸戰(zhàn)隊保持站立并交替攻擊,同時確保每個時間步只有一名攻擊海軍陸戰(zhàn)隊;(右)在GRF的academy_3_vs_1_with_keeper場景中,智能體學習“TikiTaka”風格的行為:每個球員都不停地將球傳給隊友。
討論和收獲
在本文中,我們具體分析了合作性MARL中的VD和PG方法。首先,我們揭示了流行的VD方法表達能力的局限性,展示了即使在簡單的置換博弈中,它們也不能表示最優(yōu)策略。相比之下,我們證明了PG方法更具表現(xiàn)力。我們通過實驗驗證了PG在流行的MARL試驗環(huán)境(包括SMAC、GRF和Hanabi Challenge等游戲環(huán)境)中的表達優(yōu)勢。最后,我們真誠希望從這項工作中獲得的見解能夠幫助社區(qū)在未來實現(xiàn)更通用和更強大的協(xié)作MARL算法。
譯者介紹
朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。早期專注各種微軟技術(編著成ASP.NET AJX、Cocos 2d-X相關三本技術圖書),近十多年投身于開源世界(熟悉流行全棧Web開發(fā)技術),了解基于OneNet/AliOS+Arduino/ESP32/樹莓派等物聯(lián)網(wǎng)開發(fā)技術與Scala+Hadoop+Spark+Flink等大數(shù)據(jù)開發(fā)技術。
原文標題:??Why doPolicy Gradient Methods work so well in Cooperative MARL? Evidence from PolicyRepresentation???,作者:Wei Fu, Chao Yu, Jiaqi Yang,Yi Wu