OpenAI提出強化學習新方法:讓智能體學習合作、競爭與交流
讓智能體(agent)學會合作一直以來都是人工智能領域內的一項重要研究課題,一些研究者也認為合作能力是實現通用人工智能(AGI)的必要條件。而除了合作,讓智能體學會競爭可能也是實現這一目標的一大關鍵。近日,OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環境的多智能體 actor-critic」。之后,OpenAI 發布博客對這項研究進行了解讀,機器之心對該解讀文章進行了編譯介紹。
讓智能體能在其中為資源進行競爭的多智能體環境是實現通用人工智能之路的墊腳石。
多智能體環境(multi-agent environment)有兩個實用的屬性:***,存在一個自然的全套考驗——環境的難度取決于你的競爭者的能力(而且如果你正在和你的克隆體進行對抗的話,環境就可以精確地匹配出你的技術水平)。第二點,多智能體環境沒有穩定的平衡態(equilibrium):無論一個智能體多么聰明,總會有讓它變得更智能的壓力。這些環境和傳統環境相比有很大的不同,并且要想掌控它們我們還需要大量的研究。
我們已經設計了一個新算法 MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments),可用于多智能體環境中的中心化學習(centralized learning)和去中心化執行(decentralized execution),讓智能體可以學習彼此合作和競爭。
用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG。紅色智能體已經學會和「同伴」進行團隊合作來追逐單個綠色智能體,以獲得更高的獎勵。同時,綠色智能體學會了彼此分散,并且當它們中的一個正在被追逐時,另一個就會嘗試接近水源(藍色圓圈)以躲避紅色智能體。
MADDPG 對 DDPG(https://arxiv.org/abs/1509.02971)這種強化學習算法進行了延伸,并從 actor-critic 強化學習技術上獲得了靈感;也有其他研究團隊正在探索這些思路的變體和并行實現的方法,參閱以下論文:
- Learning Multiagent Communication with Backpropagation:https://arxiv.org/abs/1605.07736
- Learning to Communicate with Deep Multi-Agent Reinforcement Learning:https://arxiv.org/abs/1605.06676
- Counterfactual Multi-Agent Policy Gradients:https://arxiv.org/abs/1705.08926
我們把仿真實驗中的每一個智能體都當作「演員(actor)」,并且每個演員都從「批評家(critic)」那里獲得建議,從而來幫助 actor 去決策哪些動作在訓練過程中應該被強化。傳統上,critic 會設法去預測在一個特定狀態中一個動作的價值(value,即將來期望得到的獎勵),這個獎勵會被智能體(actor)用來更新它自己的策略(policy)。和直接使用獎勵(reward)相比,這無疑是更加可靠的,因為它可以根據具體情況來進行調整。為了讓這種方法適用于多智能體全局協同(globally-coordinated)的情況,我們改進了我們的 critic,使它們可以獲得所有智能體的觀察結果和動作,如下圖所示。
我們的智能體無需在測試的時候有一個中心 critic;它們可以基于它們的觀察以及它們對其它智能體的行為的預測來采取行動。因為一個中心化的 critic 是為每個智能體獨立學習到的,所以我們的方法也可以在多智能體之間構造任意的獎勵結構,包括擁有相反獎勵的對抗案例。
我們在許多不同的任務上對我們的方法進行了測試,其在所有任務上的表現都優于 DDPG。在上面的動畫中你可以看到,從上到下:兩個 AI 智能體試圖到達特定地點,學會了分開行動以向其對手智能體隱藏其目標位置;一個智能體與另一個智能體溝通目標的名稱;三個智能體協調,在不碰撞彼此的情況下到達目標。
使用 MADDPG(上)訓練的紅色智能體表現出了比那些使用 DDPG(下)訓練的智能體更復雜的行為。其中,紅色智能體試圖通過綠色的森林來追逐綠色的智能體,同時繞過黑色的障礙。我們的智能體可以捕捉到更多智能體,而且也看得出來,我們的智能體比 DDPG 方法訓練的智能體合作能力更強。
傳統強化學習不給力的地方
傳統的去中心化強化學習方法(DDPG、actor-critic 學習和深度 Q 學習等等)難以在多智能體環境中學習,因為在每一個時間步,每個智能體都會嘗試學習預測其它智能體的動作,同時還要采取自己的行動。有競爭的情形中,尤其如此。MADDPG 使用了一種中心化的 critic 來為智能體提供補充,這些補充信息包括它們同伴的觀察和潛在動作,從而可以將一個不可預測的環境轉換成可預測的。
使用策略梯度方法會帶來進一步的難題:因為這會帶來很高的方差,當獎勵不一致時很難學習到正確的策略。我們還發現添加 critic 雖然可以提高穩定性,但是仍然不能應對我們的部分環境,比如合作交流(cooperative communication)。似乎在訓練中考慮其它智能體的動作對學習合作策略來說非常重要。
初步研究
在我們開發 MADDPG 之前,在使用去中心化技術時,我們注意到如果說話者在表達自己的去處時不一致,那么聽話者智能體(listener agent)就常常會學會忽略說話者。然后該智能體會將所有與該說話者的信息關聯的權重設置為 0,從而有效地「靜音」。一旦這種情況發生,就很難通過訓練恢復了;因為缺乏任何反饋,所以該說話者將永遠無法知道它說的是否正確。為了解決這個問題,我們研究了最近一個分層強化學習項目
(https://arxiv.org/abs/1703.01161)中提出的技術,這可以讓我們迫使聽話者在其決策過程中整合該說話人的表述。但這個解決方案沒有作用,因為盡管其強迫聽話者關注說話者,但對說話者了解應該說什么相關內容卻毫無助益。我們的中心化 critic 方法有助于解決這些難題,可以幫助說話者了解哪些表述可能與其它智能體的動作相關。
下一步
在人工智能研究領域,智能體建模(agent modeling)可謂歷史悠久,很多場景都已經得到過了研究。過去的很多研究都只考慮了少量時間步驟和很小的狀態空間。深度學習讓我們可以處理復雜的視覺輸入,而強化學習可以給我們帶來學習長時間行為的工具?,F在,我們可以使用這些能力來一次性訓練多個智能體,而無需它們都了解環境的動態(環境會在每個時間步驟如何變化),我們可以解決大量涉及到交流和語言的問題,同時學習環境的高維信息。以下為原論文的摘要:
論文:用于合作-競爭混合環境的多智能體 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)
論文地址:https://arxiv.org/pdf/1706.02275.pdf
我們探索了用于多智能體域(multi-agent domains)的深度強化學習方法。我們開始分析了傳統算法在多智能體案例中的困難:Q 學習(Q-learning)因為環境固有的非平穩性(non-stationarity)而受到了挑戰,而策略梯度(policy gradient)則飽受隨智能體數量增長而增大的方差之苦。然后我們提出了對 actor-critic 方法的一種調整,其考慮了其它智能體的動作策略(action policy),能夠成功學習到需要復雜多智能體協調的策略。此外,我們還引入了一種為每個智能體使用策略集成(ensemble of policies)的訓練方案,可以得到更加穩健的多智能體策略。我們表明了我們的方法相對于已有的方法在合作和競爭場景中的能力,其中智能體群(agent populations)能夠發現各種物理和信息的協調策略。
原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/
【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】