成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<span id="gmvci"></span>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

AI.x社區(qū)

登錄/注冊(cè)
51CTO

中國(guó)優(yōu)質(zhì)的IT技術(shù)網(wǎng)站

51CTO博客

專業(yè)IT技術(shù)創(chuàng)作平臺(tái)

51CTO學(xué)堂

IT職業(yè)在線教育平臺(tái)

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用

發(fā)布于 2024-9-11 11:51

瀏覽

0收藏

隨著技術(shù)的不斷進(jìn)步和數(shù)據(jù)量的爆炸性增長(zhǎng)，大規(guī)模人工智能（AI）系統(tǒng)的需求日益增加。這些系統(tǒng)在交通管理、電力分配、城市規(guī)劃等多個(gè)領(lǐng)域展現(xiàn)出巨大的潛力。但是如何在擴(kuò)展AI模型的同時(shí)保持其性能，成為了一個(gè)亟待解決的難題。

大規(guī)模AI系統(tǒng)面臨的主要挑戰(zhàn)在于其可擴(kuò)展性和性能的平衡。傳統(tǒng)的集中式AI方法在處理復(fù)雜任務(wù)時(shí)，往往需要大量的通信和數(shù)據(jù)采樣，這不僅增加了系統(tǒng)的復(fù)雜性和成本，還可能導(dǎo)致性能的下降。此外隨著系統(tǒng)規(guī)模的擴(kuò)大，通信延遲和數(shù)據(jù)傳輸?shù)钠款i也變得更加明顯。例如在交通網(wǎng)絡(luò)中，頻繁且大規(guī)模的通信可能導(dǎo)致顯著的功率損耗和信號(hào)干擾，從而影響系統(tǒng)的穩(wěn)定性和效率。

分布式AI通過(guò)將復(fù)雜任務(wù)分解并分配給多個(gè)協(xié)作節(jié)點(diǎn)，可以顯著提高系統(tǒng)的可擴(kuò)展性。多智能體強(qiáng)化學(xué)習(xí)（MARL）作為分布式AI的一種先進(jìn)范式，已經(jīng)在自動(dòng)駕駛、無(wú)線通信、多玩家游戲、電力系統(tǒng)和城市交通等多個(gè)場(chǎng)景中取得了顯著進(jìn)展。MARL的優(yōu)勢(shì)在于其能夠通過(guò)數(shù)據(jù)進(jìn)行非線性擬合，并實(shí)現(xiàn)高效的推理。然而，盡管MARL在理論上具有諸多優(yōu)勢(shì)，但其在實(shí)際應(yīng)用中的可擴(kuò)展性和效率仍然面臨諸多挑戰(zhàn)。

9 月 3 日自然（Nature）期刊-機(jī)器智能子刊發(fā)表的論文《Efficient and scalable reinforcement learning for large-scale network control》提出了一種基于模型的去中心化策略優(yōu)化框架，旨在實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)控制中的高效可擴(kuò)展強(qiáng)化學(xué)習(xí)。通過(guò)在智能體級(jí)別的拓?fù)浣怦钊謩?dòng)態(tài)，論文證明了這種去中心化機(jī)制可以準(zhǔn)確估計(jì)全局信息。此外論文引入了模型學(xué)習(xí)，以在有限的采樣數(shù)據(jù)下強(qiáng)化最優(yōu)策略，實(shí)現(xiàn)單調(diào)改進(jìn)。實(shí)驗(yàn)證明，該方法在數(shù)百個(gè)智能體的實(shí)際系統(tǒng)中表現(xiàn)出優(yōu)越的可擴(kuò)展性，為大規(guī)模AI系統(tǒng)的擴(kuò)展鋪平了道路。

研究團(tuán)隊(duì)由來(lái)自北京大學(xué)和倫敦國(guó)王學(xué)院的多位學(xué)者組成，他們?cè)谌斯ぶ悄芎投嘀悄荏w系統(tǒng)領(lǐng)域具有豐富的研究經(jīng)驗(yàn)。具體成員有Chengdong Ma，來(lái)自北京大學(xué)人工智能研究院和多智能體研究中心的研究員，主要研究方向包括大規(guī)模網(wǎng)絡(luò)控制和強(qiáng)化學(xué)習(xí)；Aming Li是北京大學(xué)人工智能研究院、多智能體研究中心以及工程學(xué)院系統(tǒng)與控制中心的研究員，研究領(lǐng)域涵蓋系統(tǒng)控制和多智能體系統(tǒng)；Yali Du是倫敦國(guó)王學(xué)院信息學(xué)系的研究員，研究興趣包括分布式AI和多智能體系統(tǒng)；Hao Dong是北京大學(xué)計(jì)算機(jī)科學(xué)學(xué)院CFCS的研究員，專注于計(jì)算機(jī)科學(xué)和人工智能的前沿研究；Yaodong Yang是北京大學(xué)人工智能研究院和多智能體研究中心的研究員，研究方向包括強(qiáng)化學(xué)習(xí)和多智能體系統(tǒng)。這篇論文發(fā)表在《自然》期刊的機(jī)器智能子刊上，體現(xiàn)了團(tuán)隊(duì)在該領(lǐng)域的技術(shù)實(shí)力和研究深度。

相關(guān)工作

在大規(guī)模網(wǎng)絡(luò)控制領(lǐng)域，現(xiàn)有的方法面臨著諸多挑戰(zhàn)和局限性。論文將從通信和數(shù)據(jù)采樣的高需求、傳統(tǒng)方法的不足以及多智能體強(qiáng)化學(xué)習(xí)（MARL）的進(jìn)展三個(gè)方面進(jìn)行探討。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖1:網(wǎng)絡(luò)代理的研究動(dòng)機(jī)和關(guān)系。

大規(guī)模AI系統(tǒng)通常需要頻繁且大量的數(shù)據(jù)通信和采樣，以確保系統(tǒng)的準(zhǔn)確性和穩(wěn)定性。然而這種高需求的通信和數(shù)據(jù)采樣帶來(lái)了以下幾個(gè)主要問(wèn)題。

首先是通信成本高，在大規(guī)模網(wǎng)絡(luò)中，頻繁的數(shù)據(jù)交換會(huì)導(dǎo)致通信成本顯著增加。例如，在交通網(wǎng)絡(luò)中，交通信號(hào)燈之間的頻繁通信會(huì)導(dǎo)致功率損耗和信號(hào)干擾，從而影響系統(tǒng)的整體性能。頻繁的通信不僅增加了系統(tǒng)的能耗，還可能導(dǎo)致網(wǎng)絡(luò)擁堵和延遲，進(jìn)一步影響系統(tǒng)的實(shí)時(shí)性和可靠性。

其次數(shù)據(jù)采樣困難，隨著系統(tǒng)規(guī)模的擴(kuò)大，采集足夠的數(shù)據(jù)變得更加困難和昂貴。在一些場(chǎng)景中，智能體與環(huán)境的交互次數(shù)受到限制，導(dǎo)致數(shù)據(jù)采樣效率低下。例如，在智能交通系統(tǒng)中，獲取足夠的交通流量數(shù)據(jù)需要大量的傳感器和數(shù)據(jù)采集設(shè)備，這不僅增加了成本，還可能受到設(shè)備故障和數(shù)據(jù)丟失的影響。

此外，數(shù)據(jù)的高需求還帶來(lái)了隱私和安全問(wèn)題。在一些涉及用戶數(shù)據(jù)的系統(tǒng)中，集中式的信息收集增加了隱私泄露的風(fēng)險(xiǎn)。例如，在智能電網(wǎng)中，集中收集用戶的用電數(shù)據(jù)可能導(dǎo)致用戶隱私的泄露，進(jìn)而引發(fā)安全問(wèn)題。

傳統(tǒng)的控制方法，如模型預(yù)測(cè)控制（MPC），在處理復(fù)雜系統(tǒng)時(shí)存在不足。

MPC方法需要精確的系統(tǒng)動(dòng)態(tài)模型，而在復(fù)雜系統(tǒng)中，獲取精確的動(dòng)態(tài)模型往往非常困難。復(fù)雜系統(tǒng)通常具有高度的非線性和不確定性，傳統(tǒng)的建模方法難以準(zhǔn)確描述系統(tǒng)的動(dòng)態(tài)行為。例如，在智能交通系統(tǒng)中，交通流量的變化受到多種因素的影響，包括天氣、交通事故和道路施工等，這些因素的復(fù)雜性和不確定性使得建立精確的動(dòng)態(tài)模型變得非常困難。

即使能夠獲得精確的動(dòng)態(tài)模型，傳統(tǒng)方法通常依賴于系統(tǒng)的線性化，這會(huì)忽略系統(tǒng)中的非線性因素和擾動(dòng)，導(dǎo)致性能下降。線性化方法在處理小范圍內(nèi)的線性系統(tǒng)時(shí)效果較好，但在處理大范圍內(nèi)的非線性系統(tǒng)時(shí)，性能往往不盡如人意。例如，在智能電網(wǎng)中，電力系統(tǒng)的動(dòng)態(tài)行為具有高度的非線性，傳統(tǒng)的線性化方法難以準(zhǔn)確描述系統(tǒng)的動(dòng)態(tài)特性，導(dǎo)致控制效果不佳。

此外，傳統(tǒng)方法在計(jì)算效率、數(shù)值穩(wěn)定性和通信成本方面也存在不足，難以適應(yīng)大規(guī)模系統(tǒng)的需求。傳統(tǒng)方法通常需要大量的計(jì)算資源和時(shí)間來(lái)求解優(yōu)化問(wèn)題，計(jì)算效率低下，難以滿足實(shí)時(shí)控制的要求。例如，在智能交通系統(tǒng)中，實(shí)時(shí)優(yōu)化交通信號(hào)控制需要快速響應(yīng)和高效計(jì)算，傳統(tǒng)方法難以滿足這一需求。

多智能體強(qiáng)化學(xué)習(xí)（MARL）作為分布式AI的一種先進(jìn)范式，提供了一種可能的解決方案。MARL在多個(gè)領(lǐng)域取得了顯著進(jìn)展，展示了其在大規(guī)模網(wǎng)絡(luò)控制中的潛力。

在自動(dòng)駕駛領(lǐng)域，MARL用于協(xié)同車輛控制和交通信號(hào)優(yōu)化，通過(guò)多智能體的協(xié)作，可以實(shí)現(xiàn)更高效的交通管理和更安全的駕駛體驗(yàn)。例如，在自動(dòng)駕駛車隊(duì)中，每輛車作為一個(gè)智能體，通過(guò)相互通信和協(xié)作，可以實(shí)現(xiàn)車隊(duì)的協(xié)調(diào)控制，避免交通事故和提高行駛效率。

在無(wú)線通信中，MARL用于優(yōu)化頻譜分配和干擾管理，提高通信網(wǎng)絡(luò)的效率和穩(wěn)定性。通過(guò)多智能體的協(xié)作，可以實(shí)現(xiàn)頻譜資源的動(dòng)態(tài)分配和干擾的有效管理，提高通信網(wǎng)絡(luò)的利用率和服務(wù)質(zhì)量。例如在蜂窩網(wǎng)絡(luò)中，每個(gè)基站作為一個(gè)智能體，通過(guò)相互通信和協(xié)作，可以實(shí)現(xiàn)頻譜資源的動(dòng)態(tài)分配和干擾的有效管理，提高網(wǎng)絡(luò)的整體性能。

在多玩家游戲中，MARL用于策略優(yōu)化和對(duì)手建模，提升了游戲AI的智能水平和互動(dòng)體驗(yàn)。通過(guò)多智能體的協(xié)作，可以實(shí)現(xiàn)復(fù)雜游戲環(huán)境中的策略優(yōu)化和對(duì)手建模，提高游戲AI的智能水平和互動(dòng)體驗(yàn)。例如在多人在線游戲中，每個(gè)玩家作為一個(gè)智能體，通過(guò)相互通信和協(xié)作，可以實(shí)現(xiàn)游戲策略的優(yōu)化和對(duì)手的建模，提高游戲的趣味性和挑戰(zhàn)性。

在電力系統(tǒng)中，MARL用于電網(wǎng)的負(fù)載平衡和故障檢測(cè)，提高了電力分配的可靠性和效率。通過(guò)多智能體的協(xié)作，可以實(shí)現(xiàn)電網(wǎng)的動(dòng)態(tài)負(fù)載平衡和故障的快速檢測(cè)，提高電力系統(tǒng)的可靠性和效率。例如在智能電網(wǎng)中，每個(gè)電力設(shè)備作為一個(gè)智能體，通過(guò)相互通信和協(xié)作，可以實(shí)現(xiàn)電網(wǎng)的動(dòng)態(tài)負(fù)載平衡和故障的快速檢測(cè)，提高電力系統(tǒng)的整體性能。

在城市交通管理中，MARL通過(guò)優(yōu)化交通信號(hào)和車輛路徑，顯著減少了交通擁堵和排放，提高了城市交通的整體效率。通過(guò)多智能體的協(xié)作，可以實(shí)現(xiàn)交通信號(hào)的動(dòng)態(tài)優(yōu)化和車輛路徑的智能規(guī)劃，提高城市交通的整體效率和可持續(xù)性。例如，在智能交通系統(tǒng)中，每個(gè)交通信號(hào)燈和車輛作為一個(gè)智能體，通過(guò)相互通信和協(xié)作，可以實(shí)現(xiàn)交通信號(hào)的動(dòng)態(tài)優(yōu)化和車輛路徑的智能規(guī)劃，減少交通擁堵和排放，提高城市交通的整體效率。

盡管MARL在理論上具有諸多優(yōu)勢(shì)，但其在實(shí)際應(yīng)用中的可擴(kuò)展性和效率仍然面臨諸多挑戰(zhàn)。論文提出的基于模型的去中心化策略優(yōu)化框架，旨在解決這些挑戰(zhàn)，實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)控制中的高效可擴(kuò)展強(qiáng)化學(xué)習(xí)。通過(guò)論文的研究，團(tuán)隊(duì)希望為大規(guī)模AI系統(tǒng)的可擴(kuò)展性和高效性提供新的解決方案，并推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展。

方法

研究團(tuán)隊(duì)提出了一種基于模型的去中心化策略優(yōu)化框架，旨在解決大規(guī)模網(wǎng)絡(luò)控制中的高效可擴(kuò)展強(qiáng)化學(xué)習(xí)問(wèn)題。該方法通過(guò)局部觀察和全局動(dòng)態(tài)的拓?fù)浣怦睿瑢?shí)現(xiàn)了模型學(xué)習(xí)與策略優(yōu)化的有效結(jié)合。此外，他們還引入了ξ依賴網(wǎng)絡(luò)系統(tǒng)的概念，以更好地處理復(fù)雜系統(tǒng)中的環(huán)境轉(zhuǎn)移問(wèn)題。

模型驅(qū)動(dòng)的去中心化策略優(yōu)化框架

在大規(guī)模網(wǎng)絡(luò)系統(tǒng)中，智能體需要在局部觀察的基礎(chǔ)上做出決策，而不依賴于全局信息。為此研究團(tuán)隊(duì)提出了一種基于拓?fù)浣怦畹娜ブ行幕瘷C(jī)制，通過(guò)在智能體級(jí)別進(jìn)行局部觀察，實(shí)現(xiàn)對(duì)全局動(dòng)態(tài)的準(zhǔn)確估計(jì)。這種方法不僅減少了通信成本，還提高了系統(tǒng)的可擴(kuò)展性。

具體來(lái)說(shuō)，智能體通過(guò)與其鄰居的局部通信，獲取必要的信息來(lái)估計(jì)全局狀態(tài)。通過(guò)這種方式，每個(gè)智能體只需處理與其直接相關(guān)的局部信息，而不需要獲取整個(gè)系統(tǒng)的全局信息，從而大大降低了計(jì)算和通信的復(fù)雜性。

在該框架中，模型學(xué)習(xí)與策略優(yōu)化緊密結(jié)合，以實(shí)現(xiàn)高效的決策過(guò)程。首先，智能體通過(guò)與環(huán)境的交互，收集狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)數(shù)據(jù)，并使用這些數(shù)據(jù)訓(xùn)練預(yù)測(cè)模型。然后，智能體在預(yù)測(cè)模型的基礎(chǔ)上進(jìn)行策略優(yōu)化，以提高決策的準(zhǔn)確性和效率。

為了進(jìn)一步提高模型的準(zhǔn)確性，研究團(tuán)隊(duì)引入了分支回滾方法。該方法通過(guò)從之前策略的狀態(tài)分布中采樣狀態(tài)，并運(yùn)行固定步數(shù)的回滾，結(jié)合模型驅(qū)動(dòng)和無(wú)模型回滾的優(yōu)勢(shì)，減少了模型誤差，提高了策略優(yōu)化的效果。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖2:我們的方法架構(gòu)、不同MDP之間的區(qū)別和聯(lián)系以及模型學(xué)習(xí)過(guò)程。

依賴網(wǎng)絡(luò)系統(tǒng)

在大規(guī)模網(wǎng)絡(luò)系統(tǒng)中，環(huán)境的動(dòng)態(tài)行為通常具有一定的局部性，即局部狀態(tài)和動(dòng)作不會(huì)顯著影響遠(yuǎn)處智能體的狀態(tài)。基于這一觀察，研究團(tuán)隊(duì)定義了獨(dú)立網(wǎng)絡(luò)系統(tǒng)（INS）和ξ依賴網(wǎng)絡(luò)系統(tǒng)。

獨(dú)立網(wǎng)絡(luò)系統(tǒng)（INS）假設(shè)環(huán)境的轉(zhuǎn)移函數(shù)可以因子化，即每個(gè)智能體的狀態(tài)轉(zhuǎn)移僅依賴于其局部鄰居的狀態(tài)和動(dòng)作。然而這一假設(shè)在實(shí)際應(yīng)用中往往過(guò)于強(qiáng)烈。因此，研究團(tuán)隊(duì)提出了ξ依賴網(wǎng)絡(luò)系統(tǒng)的概念，允許一定程度的依賴偏差，即局部狀態(tài)和動(dòng)作對(duì)遠(yuǎn)處智能體的狀態(tài)有一定的影響。

在ξ依賴網(wǎng)絡(luò)系統(tǒng)中，環(huán)境的轉(zhuǎn)移函數(shù)可以近似為獨(dú)立網(wǎng)絡(luò)系統(tǒng)的轉(zhuǎn)移函數(shù)加上依賴偏差。通過(guò)這種方式，智能體可以在局部模型的基礎(chǔ)上，預(yù)測(cè)未來(lái)的局部狀態(tài)，從而實(shí)現(xiàn)高效的決策過(guò)程。

研究團(tuán)隊(duì)通過(guò)定義總變差距離（DTV）來(lái)度量真實(shí)環(huán)境轉(zhuǎn)移函數(shù)與近似轉(zhuǎn)移函數(shù)之間的差異。通過(guò)最小化這一差異，智能體可以在局部模型的基礎(chǔ)上，準(zhǔn)確預(yù)測(cè)未來(lái)的狀態(tài)和獎(jiǎng)勵(lì)，從而提高策略優(yōu)化的效果。

論文提出的基于模型的去中心化策略優(yōu)化框架，通過(guò)局部觀察和全局動(dòng)態(tài)的拓?fù)浣怦?，?shí)現(xiàn)了模型學(xué)習(xí)與策略優(yōu)化的有效結(jié)合。引入的ξ依賴網(wǎng)絡(luò)系統(tǒng)概念，為處理復(fù)雜系統(tǒng)中的環(huán)境轉(zhuǎn)移問(wèn)題提供了新的思路。通過(guò)這些方法，研究團(tuán)隊(duì)成功地在大規(guī)模網(wǎng)絡(luò)控制中實(shí)現(xiàn)了高效可擴(kuò)展的強(qiáng)化學(xué)習(xí)，為未來(lái)的研究和應(yīng)用提供了重要的參考。

理論分析

在論文中，研究團(tuán)隊(duì)通過(guò)詳細(xì)的理論分析，證明了所提出方法的有效性和可行性。主要從單調(diào)模型改進(jìn)和策略梯度近似兩個(gè)方面進(jìn)行探討。

單調(diào)模型改進(jìn)

在模型驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)中，策略回報(bào)的界限是評(píng)估策略性能的重要指標(biāo)。研究團(tuán)隊(duì)定義了策略在真實(shí)環(huán)境中的回報(bào)和在近似模型中的回報(bào)，并構(gòu)建了兩者之間的差異界限。策略回報(bào)的界限可以表示為：

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

其中，η[π]表示策略在真實(shí)環(huán)境中的回報(bào)，η[π^]表示策略在近似模型中的回報(bào)，C是一個(gè)非負(fù)函數(shù)，πD是數(shù)據(jù)收集策略。通過(guò)確保每次策略更新至少提高一定的回報(bào)，可以實(shí)現(xiàn)單調(diào)改進(jìn)。

為了進(jìn)一步提高模型的準(zhǔn)確性，研究團(tuán)隊(duì)引入了分支回滾方案。傳統(tǒng)的回滾方法假設(shè)模型在無(wú)限時(shí)間范圍內(nèi)使用，而分支回滾方案則從之前策略的狀態(tài)分布中采樣狀態(tài)，并運(yùn)行固定步數(shù)的回滾。通過(guò)這種方式，分支回滾方案能夠有效結(jié)合模型驅(qū)動(dòng)和無(wú)模型回滾的優(yōu)勢(shì)，減少模型誤差，提高策略優(yōu)化的效果。

具體來(lái)說(shuō)，分支回滾方案的優(yōu)勢(shì)在于：

減少模型誤差：通過(guò)從之前策略的狀態(tài)分布中采樣狀態(tài)，并運(yùn)行固定步數(shù)的回滾，分支回滾方案能夠有效減少模型誤差，提高模型的準(zhǔn)確性。
提高策略優(yōu)化效果：分支回滾方案結(jié)合了模型驅(qū)動(dòng)和無(wú)模型回滾的優(yōu)勢(shì)，能夠在保證模型準(zhǔn)確性的同時(shí)，提高策略優(yōu)化的效果。

策略梯度近似

在策略優(yōu)化過(guò)程中，值函數(shù)用于計(jì)算優(yōu)勢(shì)函數(shù)。研究團(tuán)隊(duì)提出了一種擴(kuò)展值函數(shù)的計(jì)算方法，通過(guò)鄰居智能體的信息來(lái)近似全局值函數(shù)，擴(kuò)展值函數(shù)可以表示為：

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

通過(guò)這種方式，擴(kuò)展值函數(shù)能夠在僅依賴鄰居信息的情況下，準(zhǔn)確估計(jì)全局值函數(shù)，從而提高策略優(yōu)化的效果。

研究團(tuán)隊(duì)進(jìn)一步證明了基于擴(kuò)展值函數(shù)計(jì)算的策略梯度是實(shí)際策略梯度的近似。策略梯度的近似精度可以表示為：

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

其中，自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū) 表示實(shí)際策略梯度，表示基于擴(kuò)展值函數(shù)計(jì)算的策略梯度，

和自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū) 分別表示獎(jiǎng)勵(lì)和梯度的上界。通過(guò)這種方式，研究團(tuán)隊(duì)證明了基于擴(kuò)展值函數(shù)計(jì)算的策略梯度在誤差較小的情況下，能夠有效近似實(shí)際策略梯度。

論文通過(guò)詳細(xì)的理論分析，證明了所提出方法在單調(diào)模型改進(jìn)和策略梯度近似方面的有效性和可行性。通過(guò)這些理論分析，研究團(tuán)隊(duì)為實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)控制中的高效可擴(kuò)展強(qiáng)化學(xué)習(xí)提供了堅(jiān)實(shí)的理論基礎(chǔ)。

實(shí)驗(yàn)結(jié)果

在論文中，研究團(tuán)隊(duì)通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了所提出方法在大規(guī)模網(wǎng)絡(luò)控制中的有效性和可擴(kuò)展性。實(shí)驗(yàn)涵蓋了多個(gè)評(píng)估場(chǎng)景和指標(biāo)，包括車輛控制、疫情網(wǎng)絡(luò)控制和電力控制。以下是實(shí)驗(yàn)設(shè)置、結(jié)果分析以及與現(xiàn)有方法的性能對(duì)比。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖3 :主要訓(xùn)練結(jié)果和消融研究。

實(shí)驗(yàn)設(shè)置

為了全面評(píng)估所提出方法的性能，研究團(tuán)隊(duì)設(shè)計(jì)了多個(gè)實(shí)驗(yàn)場(chǎng)景，包括交通系統(tǒng)中的車輛控制、疫情網(wǎng)絡(luò)中的防控策略以及電力系統(tǒng)中的電壓控制。每個(gè)實(shí)驗(yàn)場(chǎng)景都具有高度的現(xiàn)實(shí)性和復(fù)雜性，旨在模擬實(shí)際應(yīng)用中的挑戰(zhàn)。

在車輛控制實(shí)驗(yàn)中，研究團(tuán)隊(duì)選擇了合作自適應(yīng)巡航控制（CACC）和連接自主車輛控制（Flow）作為評(píng)估場(chǎng)景。通過(guò)控制車輛的速度和車距，評(píng)估所提出方法在交通流量管理中的效果。

在疫情網(wǎng)絡(luò)控制實(shí)驗(yàn)中，研究團(tuán)隊(duì)模擬了一個(gè)大規(guī)模的疫情傳播場(chǎng)景，通過(guò)調(diào)整不同社會(huì)單位的控制策略，評(píng)估所提出方法在控制重癥病例和死亡病例方面的表現(xiàn)。

在電力控制實(shí)驗(yàn)中，研究團(tuán)隊(duì)選擇了IEEE電力網(wǎng)和實(shí)際電力系統(tǒng)作為評(píng)估場(chǎng)景，通過(guò)控制電壓和功率損耗，評(píng)估所提出方法在電力系統(tǒng)中的應(yīng)用效果。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖4:CACC、Flow和流行病網(wǎng)絡(luò)車輛控制評(píng)估結(jié)果。

評(píng)估場(chǎng)景和指標(biāo)

在每個(gè)實(shí)驗(yàn)場(chǎng)景中，研究團(tuán)隊(duì)選擇了多個(gè)關(guān)鍵指標(biāo)來(lái)評(píng)估所提出方法的性能。這些指標(biāo)包括：

車輛控制：車輛的速度、車距、交通流量的效率和安全性。
疫情網(wǎng)絡(luò)控制：重癥病例和死亡病例的數(shù)量、醫(yī)院的最大容量、區(qū)域經(jīng)濟(jì)發(fā)展。
電力控制：電壓控制的可靠性、功率損耗、系統(tǒng)的適應(yīng)性和穩(wěn)定性。

結(jié)果分析

在CACC和Flow任務(wù)中，所提出的方法能夠穩(wěn)定控制車輛的速度和車距，確保交通流量的效率和安全性。具體來(lái)說(shuō)，車輛的速度和車距能夠穩(wěn)定在目標(biāo)值附近，避免了交通擁堵和事故的發(fā)生。此外，所提出的方法在交通流量管理中表現(xiàn)出色，顯著提高了交通流量的效率。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖 5：ATSC 對(duì)大規(guī)模交通管制的評(píng)估結(jié)果。

在疫情網(wǎng)絡(luò)控制實(shí)驗(yàn)中，所提出的方法能夠有效控制重癥病例和死亡病例的數(shù)量，使其低于醫(yī)院的最大容量，減輕了醫(yī)護(hù)人員的壓力。具體來(lái)說(shuō)，所提出的方法在多個(gè)場(chǎng)景中保持較低的死亡率，同時(shí)盡可能平衡區(qū)域經(jīng)濟(jì)發(fā)展。這表明，所提出的方法在疫情防控中具有顯著的優(yōu)勢(shì)，能夠在保證公共健康的同時(shí)，促進(jìn)經(jīng)濟(jì)的可持續(xù)發(fā)展。

在電力控制實(shí)驗(yàn)中，所提出的方法能夠在減少通信成本的同時(shí)，保持可靠的控制性能和對(duì)隨機(jī)干擾的適應(yīng)性。具體來(lái)說(shuō)，所提出的方法在大規(guī)模電力網(wǎng)場(chǎng)景中展示了較高的安全控制率和較低的功率損耗，證明了其在隨機(jī)干擾下的適應(yīng)性和可擴(kuò)展性。此外，所提出的方法在電壓控制方面表現(xiàn)出色，能夠在不同負(fù)載條件下保持電壓的穩(wěn)定性。

性能對(duì)比

在與現(xiàn)有方法的比較中，所提出的方法在多個(gè)評(píng)估指標(biāo)上表現(xiàn)出色。具體來(lái)說(shuō)，所提出的方法在車輛控制、疫情網(wǎng)絡(luò)控制和電力控制實(shí)驗(yàn)中，均顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法。這表明，所提出的方法在大規(guī)模網(wǎng)絡(luò)控制中的性能和可擴(kuò)展性方面具有顯著優(yōu)勢(shì)。

在樣本效率和通信成本方面，所提出的方法也表現(xiàn)出色。具體來(lái)說(shuō)，所提出的方法通過(guò)局部觀察和全局動(dòng)態(tài)的拓?fù)浣怦?，顯著減少了通信成本，提高了樣本效率。這不僅降低了系統(tǒng)的能耗，還提高了系統(tǒng)的實(shí)時(shí)性和可靠性。

自然（Nature）機(jī)器智能子刊：多智能體系統(tǒng)中的高效決策與去中心化強(qiáng)化學(xué)習(xí)的應(yīng)用-AI.x社區(qū)

圖6：電網(wǎng)和真實(shí)電力網(wǎng)大規(guī)模電力控制的評(píng)估結(jié)果。

論文通過(guò)一系列實(shí)驗(yàn)驗(yàn)證了所提出方法在大規(guī)模網(wǎng)絡(luò)控制中的有效性和可擴(kuò)展性。通過(guò)這些實(shí)驗(yàn)結(jié)果，研究團(tuán)隊(duì)證明了所提出的方法在多個(gè)實(shí)際應(yīng)用場(chǎng)景中的潛力，為未來(lái)的研究和應(yīng)用提供了重要的參考。

討論

在論文中，研究團(tuán)隊(duì)提出了一種基于模型的去中心化策略優(yōu)化框架，用于解決大規(guī)模網(wǎng)絡(luò)控制中的高效可擴(kuò)展強(qiáng)化學(xué)習(xí)問(wèn)題。通過(guò)實(shí)驗(yàn)驗(yàn)證和理論分析，論文的方法展示了顯著的優(yōu)勢(shì)和潛力。

方法的優(yōu)勢(shì)

論文提出的方法在多個(gè)實(shí)驗(yàn)場(chǎng)景中展示了高性能和低通信成本的顯著優(yōu)勢(shì)。通過(guò)局部觀察和全局動(dòng)態(tài)的拓?fù)浣怦睿悄荏w能夠在僅依賴鄰居信息的情況下，準(zhǔn)確估計(jì)全局狀態(tài)。這種去中心化機(jī)制不僅減少了通信成本，還提高了系統(tǒng)的可擴(kuò)展性。

具體來(lái)說(shuō)，在車輛控制實(shí)驗(yàn)中，所提出的方法能夠穩(wěn)定控制車輛的速度和車距，確保交通流量的效率和安全性。在疫情網(wǎng)絡(luò)控制實(shí)驗(yàn)中，所提出的方法能夠有效控制重癥病例和死亡病例的數(shù)量，使其低于醫(yī)院的最大容量，減輕了醫(yī)護(hù)人員的壓力。在電力控制實(shí)驗(yàn)中，所提出的方法能夠在減少通信成本的同時(shí)，保持可靠的控制性能和對(duì)隨機(jī)干擾的適應(yīng)性。

高樣本效率是論文方法的另一大優(yōu)勢(shì)。通過(guò)引入分支回滾方法，智能體能夠在有限的采樣數(shù)據(jù)下，強(qiáng)化最優(yōu)策略，實(shí)現(xiàn)單調(diào)改進(jìn)。分支回滾方法通過(guò)從之前策略的狀態(tài)分布中采樣狀態(tài)，并運(yùn)行固定步數(shù)的回滾，結(jié)合模型驅(qū)動(dòng)和無(wú)模型回滾的優(yōu)勢(shì)，減少了模型誤差，提高了策略優(yōu)化的效果。

在實(shí)驗(yàn)中，所提出的方法在多個(gè)評(píng)估指標(biāo)上均顯著優(yōu)于現(xiàn)有的基準(zhǔn)方法，展示了其在樣本效率方面的優(yōu)勢(shì)。這不僅降低了系統(tǒng)的能耗，還提高了系統(tǒng)的實(shí)時(shí)性和可靠性。

未來(lái)研究方向

盡管論文的方法在多個(gè)方面展示了顯著的優(yōu)勢(shì)，但仍有一些值得進(jìn)一步研究和探索的方向。

系統(tǒng)拓?fù)涞膬?yōu)化是未來(lái)研究的一個(gè)重要方向。通過(guò)優(yōu)化智能體之間的通信拓?fù)浣Y(jié)構(gòu)，可以進(jìn)一步減少通信成本，提高系統(tǒng)的可擴(kuò)展性和魯棒性。未來(lái)的研究可以探索不同的拓?fù)浣Y(jié)構(gòu)對(duì)系統(tǒng)性能的影響，并設(shè)計(jì)出最優(yōu)的通信拓?fù)浣Y(jié)構(gòu)，以實(shí)現(xiàn)更高效的決策過(guò)程。

模塊擴(kuò)展也是未來(lái)研究的一個(gè)重要方向。通過(guò)引入視覺(jué)和自然語(yǔ)言處理模塊，可以進(jìn)一步提高系統(tǒng)的智能水平和適應(yīng)性。例如，在自動(dòng)駕駛領(lǐng)域，結(jié)合視覺(jué)模塊可以實(shí)現(xiàn)更準(zhǔn)確的環(huán)境感知和決策；在智能家居領(lǐng)域，結(jié)合自然語(yǔ)言處理模塊可以實(shí)現(xiàn)更自然的人機(jī)交互和控制。

總之，研究團(tuán)隊(duì)提出的基于模型的去中心化策略優(yōu)化框架，通過(guò)局部觀察和全局動(dòng)態(tài)的拓?fù)浣怦?，?shí)現(xiàn)了高效可擴(kuò)展的強(qiáng)化學(xué)習(xí)。未來(lái)的研究可以在系統(tǒng)拓?fù)涞膬?yōu)化和模塊擴(kuò)展方面進(jìn)行深入探索，以進(jìn)一步提高系統(tǒng)的性能和智能水平。通過(guò)這些研究，研究團(tuán)隊(duì)希望為大規(guī)模AI系統(tǒng)的可擴(kuò)展性和高效性提供新的解決方案，并推動(dòng)該領(lǐng)域的進(jìn)一步發(fā)展。（END）

參考資料：https://www.nature.com/articles/s42256-024-00879-7

本文轉(zhuǎn)載自 ??大噬元獸??，作者： FlerkenS

標(biāo)簽

贊

收藏

回復(fù)

舉報(bào)

回復(fù)

相關(guān)推薦

擴(kuò)散模型如何幫助創(chuàng)建更好的強(qiáng)化學(xué)習(xí)系統(tǒng)

51CTO內(nèi)容精選 ? 2860瀏覽 ? 0回復(fù)
腦電合成自然語(yǔ)音！LeCun轉(zhuǎn)發(fā)Nature子刊新成果，代碼開(kāi)源

Crystalcxt ? 2371瀏覽 ? 0回復(fù)
Nature：最大擴(kuò)散強(qiáng)化學(xué)習(xí)

ceesoft ? 4042瀏覽 ? 0回復(fù)
未來(lái)的智能戰(zhàn)場(chǎng)——多智能體系統(tǒng)的防御與生存之道

xuxiangda ? 4833瀏覽 ? 0回復(fù)
情感與情緒在決策中的力量，多準(zhǔn)則模糊群體決策系統(tǒng)的應(yīng)用

xuxiangda ? 3136瀏覽 ? 0回復(fù)
自然（Nature）科學(xué)數(shù)據(jù)子刊：用于對(duì)話情境中情緒識(shí)別的 EEG-音頻-視頻數(shù)據(jù)集的創(chuàng)新應(yīng)用

xuxiangda ? 6183瀏覽 ? 0回復(fù)
Google Research Scholar和DeepMind獎(jiǎng)學(xué)金支持項(xiàng)目：多智能體系統(tǒng)中的合作彈性

xuxiangda ? 2599瀏覽 ? 0回復(fù)
從具身智能再談強(qiáng)化學(xué)習(xí)，為什么需要強(qiáng)化學(xué)習(xí)，以及強(qiáng)化學(xué)習(xí)的應(yīng)用場(chǎng)景

AI探索時(shí)代 ? 3256瀏覽 ? 0回復(fù)
國(guó)家人機(jī)混合增強(qiáng)智能重點(diǎn)實(shí)驗(yàn)室項(xiàng)目：利用生成世界模型優(yōu)化多智能體系統(tǒng)決策

xuxiangda ? 2790瀏覽 ? 0回復(fù)
入口控制：多智能體強(qiáng)化學(xué)習(xí)在自動(dòng)駕駛中的應(yīng)用研究

xuxiangda ? 3798瀏覽 ? 0回復(fù)
中國(guó)國(guó)家自然科學(xué)基金資助項(xiàng)目：多智能體系統(tǒng)中的動(dòng)態(tài)故障容錯(cuò)技術(shù)

xuxiangda ? 3337瀏覽 ? 0回復(fù)
基于多模態(tài)深度強(qiáng)化學(xué)習(xí)的投資組合優(yōu)化

靈度智能 ? 3229瀏覽 ? 0回復(fù)
RAG在智能問(wèn)答系統(tǒng)中的應(yīng)用

數(shù)字化助推器 ? 2730瀏覽 ? 0回復(fù)
斯坦福大學(xué)團(tuán)隊(duì)使用多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練社交推理語(yǔ)言模型

xuxiangda ? 2457瀏覽 ? 0回復(fù)
如何使用Java設(shè)計(jì)一套多智能體系統(tǒng)

51CTO內(nèi)容精選 ? 1912瀏覽 ? 0回復(fù)
強(qiáng)化學(xué)習(xí)與軟件工程：開(kāi)源軟件獎(jiǎng)勵(lì)演化的強(qiáng)化學(xué)習(xí)

AI研究前瞻 ? 2079瀏覽 ? 0回復(fù)
多智能體強(qiáng)化學(xué)習(xí)如何讓AI回答更精準(zhǔn)？MMOA-RAG的突破性進(jìn)展

Halo咯咯 ? 3399瀏覽 ? 0回復(fù)
多智能體系統(tǒng)：解鎖復(fù)雜問(wèn)題的“超級(jí)大腦”

Halo咯咯 ? 3021瀏覽 ? 0回復(fù)
多智能體（Multi Agent）AI系統(tǒng)：企業(yè)智能化轉(zhuǎn)型的未來(lái)

Halo咯咯 ? 1909瀏覽 ? 0回復(fù)

這個(gè)用戶很懶，還沒(méi)有個(gè)人簡(jiǎn)介

帖子

聲望

粉絲

關(guān)注

最近發(fā)布

熱門(mén)推薦

具備記憶的智能體操作系統(tǒng)，MemoryOS重構(gòu)AI Agent對(duì)話的持久性與個(gè)性化 0回復(fù)

AI Agents開(kāi)源工具棧全解析~ 1回復(fù)

從原理到調(diào)參，小白也能讀懂的大模型微調(diào)LoRA，不懂線性代數(shù)也沒(méi)問(wèn)題 0回復(fù)

Deepseek R1 0528實(shí)測(cè)：性能直逼頂尖，普通電腦本地運(yùn)行全攻略 0回復(fù)

本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預(yù)算就干翻Gemini，實(shí)測(cè)：真·超DS！ 1回復(fù)

上一篇：多智能體路徑規(guī)劃新突破：AA-CCBS算法詳解

下一篇：從大腦到代碼，神經(jīng)科學(xué)啟發(fā)的多智能體CortexCompile利用腦啟發(fā)架構(gòu)提升代碼生成

社區(qū)精華內(nèi)容

目錄

主站蜘蛛池模板：毛片区 | 国产97在线看 | 91在线精品播放 | 欧美精品一区二区三区在线播放 | 一级欧美 | 欧美一区二 | 亚洲国产一区二区三区 | 欧美日韩国产在线观看 | 日一区二区 | 色婷婷综合久久久中字幕精品久久 | 亚洲欧洲精品一区 | 日韩中文在线观看 | 一区二区三区视频在线 | 国产色视频网站 | 一区二区三区福利视频 | 国产欧美日韩二区 | 日本人做爰大片免费观看一老师 | 日韩国产在线观看 | 91久久久久久久久久久 | 欧美国产日本一区 | 毛片国产 | 99免费在线视频 | 97精品一区二区 | 精品日韩在线 | 欧美aⅴ| 一级在线观看 | 欧美片网站免费 | 精品免费国产视频 | 97久久精品 | 日本精品裸体写真集在线观看 | 亚洲视频国产视频 | 韩国电影久久 | 精品一区二区三区在线观看国产 | 午夜在线观看免费 | 一区二区三区中文字幕 | 九九久久久 | 一区二区三区国产精品 | 色一情一乱一伦一区二区三区 | 亚洲欧洲精品一区 | 在线观看免费av网 | 国产国拍亚洲精品av |

<label id="ppbum"></label><abbr id="ppbum"></abbr>

<rp id="ppbum"></rp>

<label id="ppbum"></label>