成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI大模型控制紅綠燈,港科大(廣州)智慧交通新成果已開源

人工智能 新聞
模型名為LightGPT,以排隊及不同區段快要接近信號燈的車輛對路口交通狀況分析,進而確定最好的信號燈配置。

大模型“上路”,干起了交通信號控制(TSC)的活~

模型名為LightGPT,以排隊及不同區段快要接近信號燈的車輛對路口交通狀況分析,進而確定最好的信號燈配置。

圖片

該模型由香港科技大學(廣州)的研究團隊提出,其背后關鍵是一個名為LLMLight的框架。

該框架向智能體提供詳細的實時交通狀況,并結合先驗知識構成提示,利用大模型卓越的泛化能力,采用符合人類直覺的推理和決策過程來實現有效的交通控制。

九個交通流數據集上的實驗證明了LLMLight框架的有效性、泛化能力和可解釋性。

具體來說,在真實數據集上,LLMLight在所有基準測試中始終達到了SOTA或與經典強化學習等方法同等的性能水平,并且擁有比后者更為強大的泛化性。

同時,LLMLight還能在決策時提供背后的分析邏輯,這一可解釋性實現了信號燈控制的透明化。

TSC垂類大模型LightGPT在此任務上的決策能力顯著優于GPT-4。

即便在濟南、杭州、紐約等復雜路網下,也展示出突出性能。

圖片

目前,LLMLight框架、交通信號燈控制垂類大模型LightGPT已開源。

圖片

LLM應用于TSC有何挑戰?

交通信號控制(TSC)是城市交通管理的重要組成部分,旨在優化道路網絡效率并減少擁堵。

現有的TSC研究主要分為兩類:基于交通工程強化學習的方法。

其中,交通工程方法主要側重于制定有效的啟發式算法,根據車道級交通狀況屬性,動態調整交通信號燈配置。然而,這些方法的設計嚴重依賴人力及專業領域知識。

之后,多數研究便基于深度強化學習技術來應對這一任務,并在各種交通場景中都表現出了卓越的性能。

然而,基于強化學習的方法也存在明顯缺點。首先,由于他們的訓練數據僅涵蓋有限的交通情況,致使其表現出局限的泛化能力,特別是在轉移到更大規模的交通網絡或在不常見的路況下(例如,極端高流量的情況)。

此外,由于深度神經網絡(DNN)的黑盒特性,基于深度強化學習的方法缺乏可解釋性,這使得研究人員很難理解其在某交通狀況下控制行為的背后邏輯。

而當今,大語言模型憑借其卓越的零樣本學習和泛化能力,它以模仿近似人類的推理過程來解決復雜任務,徹底改變了多個領域。

例如在交通控制任務上,PromptGAT使用LLM生成人類知識,以此來幫助DNN模型理解TSC任務中的長尾場景(例如極端天氣),旨在彌合現實世界與模擬之間的差距。

不過,雖然現有的研究已經開始探索利用LLM作為輔助工具來增強決策,但直接利用LLM作為TSC智能體進行類人決策的潛力還尚未探尋。

具體而言,其有兩個重要挑戰。

第一個挑戰在于如何使LLM能夠理解實時交通動態并與交通環境做有效交互。

LLM通常在大規模自然語言語料庫上進行預訓練,但很少包含非文本的流量數據(例如傳感器讀數和GPS軌跡)。盡管它們具有跨多種任務和領域的泛化能力,但實時交通數據和自然語言之間存在固有差距。

如何為信號燈控制任務選擇和開發專有垂類LLM,則是另一個重大挑戰。

首先,通才大模型往往缺乏特定領域的知識,容易出現專業領域的幻覺問題。盡管GPT-4等最先進的LLM表現出了優異的泛化能力,但它們的閉源性質和高昂成本并不利于投入到實時TSC任務及其后續優化中。

因此,訓練專門為TSC任務量身定制的LLM成為了當下更優的選擇。

如何將LLM應用于TSC?

為了應對上述挑戰,研究人員提出了LLMLight框架,其旨在整合大語言模型作為智能體,實現交通信號燈控制。

首先該研究將TSC視為部分可觀察的馬爾可夫博弈(Partially Observable Markov Game),其中每個LLM智能體管理一個十字路口的交通燈。

在每個信號切換時間步上,智能體都會收集目標路口的交通狀況,并將其轉換為人類可讀的文本作為實時觀察。

此外,該研究還結合了信息量豐富的任務描述及一條與控制策略有關的常識知識,以幫助LLM理解交通管理任務。交通路口的實時狀態、任務描述與控制動作空間結合,形成了指導智能體決策的知識提示。

最后,LLM控制智能體利用思想鏈 (CoT) 推理來確定下一個時間片的最佳交通信號燈配置。

并且該研究還構建了一個交通信號燈控制垂類大模型LightGPT來增強LLMLight框架。一方面,提出了模仿學習微調(Imitation Fine-tuning),讓學生LLM學習GPT-4產生的高質量決策和推理軌跡。

另一方面,引入了一個由評論家模型指導的策略優化(Critic-gudied Policy Refinement)過程,使其評估和改進LLM智能體的控制。

優化后的LightGPT可以產生比GPT-4更具成本效益且更有效的控制策略,并在不同流量場景中展現出卓越的泛化能力。

一起來看具體實現方法。

LLMLight框架的構建

LLMLight的工作流包括:

  • 交通狀態觀測特征構建:收集交通路口的交通狀態觀測;
  • 常識知識增強的智能體提示構建:組成一則整合了常識知識的提示,用于指導LLM推理出下一時間片最優的交通信號燈配置;
  • 智能體的分析推理及決策:LLM使用構建的提示進行分析推理決策過程,隨后做出決策。其流程如下圖所示:

圖片

研究人員將交通信號控制定義為一個部分可觀察的馬爾可夫博弈?;诮徊婵趯崟r交通狀況的觀察圖片、交通場景描述圖片、任務描述圖片、常識知識圖片以及信號燈控制動作空間圖片,以LLM智能體的策略控制目標交通路口的信號燈圖片

LLM的輸出為分析推理軌跡圖片與調節路口信號燈的控制動作圖片。其目標為優化長期內交通路口的通行效率。其可形式地表示為:

圖片

具體來說,對于交通狀態觀測特征構建,研究人員收集了兩種在現實場景中可以簡單獲取到的觀測特征:不同車道上排隊車的數量;同車道上,還未到達路口車的數量。

常識知識增強的智能體提示構建方面,除觀測特征外,研究人員還向LLM提供了在處理交通信號控制任務中其他必不可少的信息,包括交通場景描述圖片、任務描述圖片和控制動作空間圖片。

這使得LLM能夠全面了解任務,從而做出合理的控制決策。

此外,該研究還整合了常識知識圖片,以緩解通用型LLM在交通控制領域知識上的局限性。

這些知識規定了智能體需要優先考慮排隊長度較長的車道,而減弱對距離路口較遠車輛的注意力。形式化地,該研究將智能體提示表示為:

圖片

提示符模板的簡要示意如下圖所示:

圖片

在智能體的分析推理及決策方面,該研究利用上述提示LLM進行零樣本(Zero-Shot)推理。

其決策過程包含兩個關鍵步驟:分析推理及決策。

首先,LLM會對所給任務及常識知識進行理解,并評估各車道的當前交通狀況。

隨后,LLM選擇合適的信號燈配置,以允許擁堵最嚴重的車道通行,從而優化交通流量,確保車輛的順暢通過。

通過這種方式,LLMLight不僅可以制定有效的控制策略,還可以為每個決策提供其背后推理邏輯。這會極大有助于建立更具解釋性和透明性的交通控制系統。

形式化地,研究人員將推理和執行行動表示為圖片,LLM主干的決策過程示例如下圖所示:

圖片

LightGPT模型訓練

此外,該研究還提出了一種訓練方法,以專門優化用于交通信號燈控制的LLM——LightGPT。

它主要包括三個階段:

  • 推理軌跡的收集和篩選:首先,該研究收集GPT-4的思維鏈推理軌跡進行模仿學習微調,之后篩選出與長期優化目標最相符的軌跡以確保數據質量;
  • 模仿學習微調:利用GPT-4的決策及其推理軌跡對學生LLM進行訓練;
  • 評論家模型指導的策略優化:依據評論家模型的反饋進行微調,進一步改善LLM的決策過程。

下圖展示了其訓練流程:

圖片

推理軌跡的收集和篩選

利用上述方法構建的提示,該研究首先讓GPT-4與模擬交通環境進行交互,并收集其推理軌跡。

為了確保所收集數據的質量,研究人員篩選出與交通信號燈控制的長期目標最相符軌跡(如最小化未來的排隊長度)。這種篩選操作通過與一個預訓練的動作-價值網絡(Action-Value Network)的對齊來實現。

該研究通過在模擬環境中優化貝爾曼方程(Bellman Equation)來訓練此網絡:

圖片

其中圖片圖片是在信號燈切換時間步圖片時觀察和控制動作,圖片是獎勵折扣因子。圖片是獎勵函數,其提供了在觀察圖片下執行動作圖片的反饋(如隊列長度的負值)圖片是動作-價值函數,用于估計執行圖片后獲得的未來累積獎勵。

隨后,訓練好的動作-價值函數被用作評論家模型來評估GPT-4的決策。研究人員僅保留選擇可得到最高未來獎勵控制動作的推理軌跡,形式化地:

圖片

其中圖片是模擬持續時間,圖片是智能體提示,圖片是GPT-4的推理軌跡。

模仿學習微調

這一階段,首先研究人員采用了一種模仿學習過程,令學生LLM基于GPT-4的決策及其推理軌跡進行訓練。

研究人員將提圖片視為微調指令,將包含GPT-4選擇的控制動作圖片的推理軌跡圖片作為期望得到的回答,并以負對數似然(NLL)作為損失函數:

圖片

其中圖片為在提示為圖片的情況下生成字符圖片的概率。

評論家模型指導的策略優化

為進一步提高LLM控制策略的有效性,研究人員提出了一種策略優化方法,通過調整LLM的推理軌跡以得出更合理的控制決策。

類似的,該研究繼續使用上述預訓練的動作-價值函數作為評論家模型,以評估由LLM選擇的控制動作。隨后,利用一種對齊微調算法來調整推理軌跡,最終引導LLM采取產生更高未來獎勵的決策。

具體而言,有圖片個在提示圖片下由策略圖片采樣的推理軌跡

圖片

評論家模型給出每個軌跡圖片推導出的控制動作的分數

圖片

接著,圖片的字符平均對數似然值表示由圖片生成圖片的概率:

圖片

該研究采用帶有邊界約束項(RBC)的排名反饋損失進行優化,以指導LLM得出產生得分更高控制動作的推理軌跡:

圖片

其中

圖片

是比圖片評分更高的且最低的推理軌跡的概率,β是超參數。

圖片

是用于提升產生得分更高控制動作的軌跡的對齊項。

圖片

是用于防止性能下降的約束項。

該方法效果如何?

實驗階段,該研究使用了五個真實世界流量數據集,其中包括了來自濟南和杭州的數據。

此外,還利用了兩個在紐約更大的路網下采集的數據,以測試不同方法的在大型路網下的可擴展性。

為了測試在長尾情況下的泛化性,研究人員還合成了兩個額外的數據集,模擬了極端擁堵的路況。

該研究使用了平均旅行時間(ATT),路口平均隊列長度(AQL),以及路口平均等待時間(AWT)作為評價指標。

圖片

以下是具體的實驗結果。

總體性能比較

實驗結果表明,配備了LightGPT的LLMLight在所有基準測試中始終達到了SOTA或與經典方法同等的性能水平。

盡管Advanced-CoLight(當前最先進的強化學習方法)在杭州數據集上表現優于LLMLight(LightGPT),但它的決策需要依賴與鄰近路口之間的通信。

值得一提的是,LLMLight(LightGPT)僅利用當前路口的觀測特征就展現出強有競爭的結果,表明了其決策顯著的有效性。

對于由通用型大模型驅動的LLMLight,研究人員觀察到GPT-4表現最為出色,并展示出與最先進強化學習方法相當的效果。

同時Llama2-70B和13B分別獲得第二和第三名,這表明LLM在交通信號控制任務中也遵循了規?;?span>(scaling law)。

令人驚訝的是,ChatGPT-3.5的表現最不理想。

圖片

泛化性的比較

該研究首先測試了不同方法的可遷移性。標有“-T”的模型是在不同的道路網絡上預訓練得到的(例如,使用在濟南預訓練的模型在杭州數據集上評估可遷移性)。反之則在相同的數據集上進行訓練和測試。

該研究觀察到強化學習方法在遷移后性能明顯下降,尤其在濟南1和杭州1數據集中表現尤為明顯。相反,LLMLight(LightGPT)始終表現出優越的性能,并在所有數據集上展現出優異的可遷移性。

圖片

之后該研究分析了不同方法的可擴展性,測試它們在應用于規模更大的路網時的性能。

可以觀察到,大多數強化學習方法發生了顯著性能下降,甚至表現出比啟發式方法Maxpressure更差的性能。雖然最先進的強化學習方法在平均旅行時間(ATT)上與LLMLight(LightGPT)相當,但值得注意的是,它們的決策會導致最高延長57.80%的等待時間(AWT)。

這一結果表明,強化學習方法側重于優化排隊車輛的總數,但可能會以犧牲少部分隊列的等待時間為代價。

在實際場景中,等待時間的重要性不容忽視。相比之下,LLMLight可以同時確保最短的旅行時間和等待時間,體現了其拓展到規模更大的路網時的優良的可擴展性和適用性。

圖片

最后該研究為了探討了在極端擁堵情況下不同模型的性能,在濟南和杭州的路網上生成了兩個合成交通流數據集,其流量相比原始數據集增加了約四倍。

與可擴展性實驗類似,強化學習方法也表現出顯著的性能下降,表現出比Maxpressure更差的結果。

相比之下,LLMLight(LightGPT)始終表現出卓越的性能,體現了其在更加繁重的交通條件下的穩健性和實用性。

圖片

可解釋性分析

為了評估LLMLight的可解釋性,研究人員在杭州數據集上進行了一個案例模擬。

在這個模擬場景中,北部路段出現了嚴重擁堵,表現為排隊的車輛出現積壓。

下圖詳細展示了LightGPT在此路況下的推理分析過程。

圖片

它以理解任務開始,并分析目標交叉口的交通情況以進行決策推理。隨后,它明確信號燈NLSL為最優的選擇。

與強化學習方法不同,LLMLight不僅在制定有效的控制策略方面表現出色,而且還能為每個決策提供其背后的詳細解釋。這一獨特特征增強了LLMLight的透明度和可解釋性,有助于研究人員更全面地理解其決策行為。

最后,研究人員表示,LLMLight的下一步研究將著眼于融合多模態信息及群體協同。

多模態大模型可以直接從端到端地提取路口的交通擁堵信息,使模型能夠自行探索可用的視覺特征,進而自我優化出更優的決策。

而群體協同則能夠實現臨近路口、車輛和智能體之間的信息交換,從而獲得全局信息,最終達到優化整體路網的交通效率的目的。

論文鏈接:https://arxiv.org/abs/2312.16044
代碼鏈接:https://github.com/usail-hkust/LLMTSCS
主頁鏈接:https://gungnir2099.github.io/LLMLight-Page/
模型權重鏈接:https://huggingface.co/USAIL-HKUSTGZ/LLMLight-LightGPT

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-10-13 16:47:53

人工智能交通燈以色列

2011-04-13 23:15:17

英特爾IDFX86

2020-10-23 22:22:52

高德地圖出行

2022-09-19 16:12:17

紅綠燈智能

2017-04-12 13:31:58

智能紅綠燈邁阿密交通

2024-06-03 08:30:00

2022-02-14 10:49:46

智慧城市物聯網

2017-06-13 10:08:19

AI交通識別

2019-12-20 09:24:58

5G智慧交通車聯網

2020-06-10 07:59:44

漏洞攻擊黑客

2024-10-08 13:12:04

2015-04-23 15:10:33

阿里云

2024-12-30 13:40:00

2022-03-08 09:27:45

AI無人駕駛傳感器

2013-10-30 09:54:32

2023-07-04 09:48:10

AI模型

2010-03-19 17:52:40

無線通訊協議

2025-05-06 15:32:23

模型AI測試

2025-05-29 09:20:00

模型研究推理

2024-11-06 13:03:49

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: www.日韩av.com| 在线a视频| 国产精品毛片一区二区在线看 | 91亚洲免费 | 能免费看的av | 99久久婷婷| 一区二区国产精品 | 在线观看免费观看在线91 | 欧美精品一区二区免费 | 成人动漫一区二区 | 成人精品一区二区三区 | 免费色网址| 男女精品久久 | 精品国产91乱码一区二区三区 | 精品国产乱码久久久久久1区2区 | 黄色一级大片视频 | 亚洲精品久久 | 国产乱码精品一区二区三区中文 | 亚洲视频二 | 久久高清国产视频 | 亚洲日日操 | 久色视频在线观看 | 日韩中文在线视频 | 一区在线免费视频 | 欧美综合精品 | 看特级黄色片 | 乱一性一乱一交一视频a∨ 色爱av | 九九久久久 | 午夜伦4480yy私人影院 | 国产丝袜av | 日韩精品专区在线影院重磅 | 国产亚洲一区二区三区 | 天天干人人 | 亚洲成人日韩 | av网站在线免费观看 | 国产激情在线播放 | 国产美女久久 | 天天操天天射综合 | 欧美激情一区二区三级高清视频 | 亚洲精品久久久久中文字幕欢迎你 | 国产在线精品一区二区三区 |