多智能體新進展 | 斯坦福大學提出新模型'Hypothetical Minds',讓AI更懂人類思維 精華
本文提出了一種名為“Hypothetical Minds”的模型,該模型結合了大語言模型和多智能體強化學習,通過在自然語言處理的框架下生成、評估和細化關于其他智能體策略的假設,來提高智能體在多智能體環境中的表現。該模型在多種競爭性、合作性和混合動機的多智能體環境中均顯示出優越的性能,特別是在處理隱藏信息和策略推理方面。
Hypothetical Minds模型簡介
1. 模型架構與組件
Hypothetical Minds模型是一個基于大型語言模型(LLM)的自主智能體,它通過整合感知、記憶和兩級抽象層次的層次化規劃的模塊化組件,來應對MARL中的挑戰。該模型的架構包括多個認知模塊,如感知模塊、記憶系統以及理論心智(Theory of Mind, ToM)和子目標(Subgoal)模塊,后兩者分別負責輸出高層次的目標和行動計劃。
2. 理論心智(Theory of Mind, ToM)模塊的作用
ToM模塊在Hypothetical Minds模型中扮演著核心角色,它通過生成關于其他智能體策略、目標和能力的假設來促進有效的協調或對策。這些假設是以自然語言形式表達的,并嵌入到高層次的規劃過程中,以指導智能體的決策。ToM模塊不僅生成假設,還負責評估和迭代細化這些假設,通過強化那些能夠正確預測其他智能體行為的假設來優化決策過程。此外,ToM模塊還能夠根據生成的假設動態調整智能體的策略,以適應推斷出的其他智能體的策略,從而在多智能體環境中實現更高的獎勵和更好的適應性。
模型實現:從假設生成到高級規劃
1. 生成假設
在多智能體環境中,理解其他智能體的行為是至關重要的。Hypothetical Minds模型通過其理論心智(Theory of Mind, ToM)模塊來生成關于其他智能體策略、目標和能力的假設。這些假設是基于自然語言生成的,使得智能體能夠在不直接觀察到這些變量的情況下,通過語言的抽象層面進行推理。
2. 假設評估與細化
生成的假設需要通過實際的環境反饋來評估其有效性。ToM模塊會對每個假設進行評分,這一過程涉及到預測其他智能體的行為并將預測結果與實際行為進行對比。有效的假設會在模型的記憶中得到強化,而不準確的假設則會被調整或舍棄。這一過程是迭代的,隨著更多的交互數據被積累,假設的準確性逐漸提高。
3. 高級規劃與執行
在假設驗證通過后,ToM模塊會利用這些驗證過的假設來指導高級規劃。這些高級規劃不僅包括策略的制定,還涉及到具體行動的序列化,即如何將策略轉化為一系列具體的、可執行的行動。這一過程中,智能體需要考慮如何在保持對當前目標的追求的同時,適應環境的變化和其他智能體的策略變動。
實驗設計與基準測試
1. Melting Pot基準的多場景測試
Hypothetical Minds模型在Melting Pot多智能體強化學習基準中進行了廣泛的測試。這一基準包括多種不同的社會動態和挑戰,如合作烹飪、剪刀石頭布游戲等。通過這些多樣化的測試場景,模型的適應性、策略生成能力以及與其他智能體的交互效果得到了全面的評估。
2. 與基線模型的比較
Hypothetical Minds模型的性能與幾個基線模型進行了比較,包括傳統的強化學習模型和其他基于LLM的智能體模型。通過這些比較,研究人員能夠評估ToM模塊在假設生成、評估和細化方面的效果,以及這些功能如何幫助Hypothetical Minds模型在復雜多智能體環境中取得優異的表現。這些比較結果不僅證明了模型的有效性,也突出了理論心智模塊在處理復雜社會交互中的重要性。
實驗結果與分析
1. 競爭環境中的表現
在“Running With Scissors”(剪刀石頭布)的競爭環境中,Hypothetical Minds(HM)模型展現出了顯著的優勢。該環境要求兩名玩家在地圖上移動并收集代表剪刀、石頭、布的資源。通過與對手進行“交互”,一方將獲得正向獎勵,而另一方則獲得相應的負向獎勵。HM模型能夠有效地推斷對手的策略,并根據這些信息調整自己的策略,從而在多數情況下獲得高于基線模型的獎勵。特別是在面對多變策略的對手時,HM通過其理論心智模塊生成假設,并不斷調整策略以適應對手的變化,顯示出較強的適應性和策略洞察力。
2. 協作與混合動機環境的適應性
在“Collaborative Cooking Asymmetric”環境中,兩名玩家需要在廚房的兩側合作制作番茄湯。HM模型在所有測試場景中均表現優異,尤其是在與功能性合作伙伴互動時。這表明HM能夠根據合作伙伴的能力和行為有效地調整自己的行動策略,優化協作效率。此外,在“Prisoner's Dilemma”(囚徒困境)的混合動機環境中,HM在動態合作伙伴場景中表現尤為突出,能夠通過更一致的合作行為和適時的寬恕策略,有效地打破惡性報復循環,實現更高的總體福利。
本文轉載自 ??AI論文解讀??,作者:柏企
