深度強化學習賦能城市消防優化,中科院團隊提出DRL新方法破解設施配置難題 原創
在城市建設與發展中,地理空間優化至關重要。從工業園區選址,到公共服務設施布局,它都發揮著關鍵作用。但傳統求解方法存在諸多局限,如今,深度學習技術為其帶來了新的轉機。
近日,在中國地理學會地理模型與地理信息分析專業委員會 2025 年學術年會上,來自中國科學院空天信息創新研究院的梁浩健博士在「地理空間優化」這一專題下,以「基于分層深度強化學習的城市應急消防設施配置優化方法研究」為題進行了成果匯報演講,并從地理空間優化問題概述、面向地理空間優化問題的深度學習方法研究 、基于分層深度強化學習的新探索以及未來展望 4 個方面展開了詳細介紹。
HyperAI 超神經在不違原意的前提下,對梁浩健老師的深度分享進行了整理匯總,以下為演講實錄。
地理空間優化:數學與地理的深度融合
地理空間優化是數學組合優化與地理信息科學的結合,致力于解決空間布局、資源配置等實際問題 ,在城市建設、工業園區選址、公共服務設施選址等眾多領域都具有重要的研究意義。它可以被表示為一個最優化問題,涉及決策變量、約束條件和目標函數,其中決策變量通常為整數或 0 – 1 變量。如下圖所示。
其中 ?? 為決策變量,??(x) 是不等式約束條件,??(??) 是等式約束條件,?? ?? 是目標函數
約束(1)表示決策變量 ?? 的范圍,通常為整數或 0-1 變量。
以經典的 p-中值問題為例,其旨在從候選設施點中挑選 p 個部署設施,讓所有需求點到最近設施點的總距離最小,常用于公共設施選址。傳統求解空間優化問題的方法有 3 類,包括精確算法、近似算法和啟發式算法,不過它們都有各自的短板。
*精確算法能夠獲得全局最優解,但通常計算復雜度較高,求解時間隨問題規模呈指數級增長,例如分支定界法、動態規劃等。
* 近似算法在保證一定理論性能的前提下提高求解效率,但其算法設計較為復雜,例如貪心策略、線性規劃舍入等方法。
* 啟發式算法能在較短時間內獲得較優解,適用于大規模復雜問題,但缺乏理論最優性保證,常見方法包括模擬退火、禁忌搜索等。
深度學習進軍地理空間優化領域
在計算機視覺和自然語言處理等領域,利用深度模型來代替手工算法的設計取得了矚目的成果。那么,能否用它來求解空間優化問題呢?基于這一思路,研究人員為此展開了對空間優化(Neural Spatial Optimization)的探索,其動機包括 3 個方面:
*學習更快/更好的啟發式方法,利用數據驅動實現快速近似代替復雜計算
*自動設計新啟發式算法的
*通用框架通過歷史信息訓練 DRL 模型來指導未來規劃
由此,我對 NeurSPO 預設了 2 大構想:
一是深度構造。簡單而言就是初始時為空解,而后每次選擇一個點,直至選出目標 p 個點,完成分步構造解。
二是深度提升。它的本質類似局部搜索等算法,是一個改進解的方法,可以利用深度學習去替換解。例如在局部搜索中,選擇合適的點進行交換或者優化等。
SpoNet 模型:動態覆蓋注意力破解選址難題
如何在探索 DRL 的方法中解決 p-Median 、 p-Center 、 MCLP 為主的目標問題?我們首先做出了動態覆蓋信息 + 注意力模型的嘗試,提出了一種統一的框架求解選址問題——SpoNet 。其構造主要由 3 部分組成:
*在深度學習模型下,智能體與環境不斷交互,通過大量試錯和學習策略實現回報最大,不需要生成標簽信息。
*注意力模型使模型在解碼時學會將注意力集中在輸入序列的特定部分,而不是僅僅依賴于解碼器(decoder)的輸入。
*在節點覆蓋過程中,若某一節點已經被覆蓋了,在該點選擇部署設施,可能導致覆蓋效率降低。在動態覆蓋注意力模型下,對城市的靜態位置坐標和城市之間的動態覆蓋狀態進行編碼,利用知識驅動,通過引入問題特有的覆蓋信息進行編碼,提升模型對空間覆蓋關系的理解能力,從而加速求解過程。如下圖所示:
基于動態覆蓋注意力模型求解最大覆蓋選址問題基本流程
動態覆蓋注意力模型
在探索北京市朝陽區應急設施的布局優化問題上,我們應用了這一模型,選用了 132 個緊急設施的數據集,假設每個設施點的最大服務距離為 2 千米,最終在 132 個候選應急設施中選擇了 20 個點作為中心樞紐點,使得覆蓋的節點數量最多。
AIAM:自適應交互注意力模型求解 p-中值問題
在當前解的鄰域內進行搜索,嘗試找到更優解的局部搜索算法模式已經相對成熟,我們在此基礎上探索了深度提升輔助搜索,即基于鄰域搜索的思想,利用 DRL 搜索策略,實現快速近似代替復雜計算的搜索過程。
在路徑規劃問題中不同節點之間存在不同的次序關系,然而 ??-中值問題中的解是設施集合的一個子集,導致用戶節點和設施點之間存在不同的分配關系。為衡量這一分配關系,我們設置了「用戶」和「設施」的交互,并且提出了自適應交互注意力模型。
該模型包括交互注意力編碼器、節點移除解碼器、節點插入解碼器 3 部分,如下圖所示:
自適應交互注意力模型
經驗證,該模型能夠在 2,162 個居民點(需求點)和 80 個醫院(候選設施點)中保留 15 個醫院,以最小化居民點到醫院的總距離,證實了 AIAM 模型在實際場景下的可行性。
分層 DRL 解決城市應急消防設施配置難題
當前,城市發展迅速,突發事件的頻率和復雜性持續攀升,城市應急消防設施配置效率和功能性難以兼顧等問題加劇。傳統火災預測方法難以處理大范圍、高精度數據,導致風險評估精度低、響應滯后,且消防設施布局無法實時反映城市變化和應急需求。在此背景下,亟需引入智能化、動態化的火災風險預測與應急消防設施,全面提升城市火災防控與應急響應的科學性和效率。
基于此,我們將深度學習的框架理論研究轉向了對現實生活的應用。為提升城市火災防控與應急響應能力,研究聚焦于提高火災風險預測精準性、優化應急資源配置、增強應急響應及時性和靈活性。具體通過以下 3 個方面實現。
首先是面向城市火災風險預測的多維時空特征挖掘與融合。
面向城市火災風險預測的時空神經網絡主要由時空特征提取模塊和融合輸出模塊組成。時空特征提取模塊在前向傳播中自動捕捉城市空間結構、消防設施分布及火災統計和氣象數據的動態變化;融合輸出模塊則通過注意力機制整合時空特征,最終輸出火災風險預測值。如下圖所示。
時空神經網絡構成
其次是考慮不確定性和災害損失的應急消防設施配置優化模型構建。
在多重覆蓋選址中,引入火災頻率、交通狀況和需求分布等不確定性因素,并將災害損失納入目標函數,以提升布局方案的穩健性。通過概率分布或區間估計描述火災發生、交通通行與需求波動的變化。在建模中,火災風險結合歷史數據與地理條件構建概率模型,交通響應則基于通行能力與仿真分析形成時間分布,需求變化則通過設定波動范圍或場景集應對城市動態發展。
第三是面向應急消防設施布局優化的分層 DRL 方法。
該算法采用分層策略,統籌消防設施的整體布局與局部調整,模型狀態包含設施分布、火災風險和交通狀況,動作為各時刻的建站或調度決策。
未來展望:拓展邊界,持續創新
科研的道路總是不斷進步的,未來我們團隊計劃通過跨學科合作,結合地理信息系統、數學優化方法和深度學習技術,深入探索更復雜、實際的地理空間優化問題。
對此,我從以下 3 個方面做出了思考和展望:
* 引入地理計算機制,增強空間感知能力。
AI 賦予地理空間優化的能力還在持續探索,僅憑當前的研究是遠遠不夠的,在未來,融合地形、網絡通達性、連通性等空間機制建模有助于提高模型對地理結構的解釋能力與實際適應性。
* 擴展至大規模與跨區域應急響應問題。
當前我們的研究僅停留在了對于小問題的探索,所以,未來勢必會逐漸延展到大規模應急響應問題的探索,不斷改進使它能夠支持城市群、省域級多中心聯動優化,以此提升方法的可擴展性、穩定性與計算效率。
* 設計更高效的 DRL 算法框架。
未來可以繼續探索優化高/低層策略協同機制與訓練流程,引入多智能體協同、異步訓練、因果機制等技術,實現更有效的實際問題求解。
綜上所述,中國科學院空天信息創新研究院梁浩健博士團隊提出的分層 DRL 方法,作為地理空間優化領域的 AI 革新方案,通過融合動態覆蓋注意力模型、自適應交互注意力模型及多維時空特征融合技術,不僅破解了傳統消防設施布局中風險評估滯后、資源配置低效的難題,更通過分層策略實現了應急設施布局的全局統籌與局部優化。
未來,隨著地理計算機制的引入與跨區域應急響應模型的拓展,這一方法有望在大規模城市治理、多中心聯動優化等領域釋放更大潛力,推動地理空間優化與應急管理的深度融合創新。相信在不斷地探索與創新中,地理空間優化領域將取得更多突破,為城市發展和應急管理提供更有力的支持。
關于中國科學院空天信息創新研究院
梁浩健博士是中國科學院空天信息創新研究院特別研究助理。研究方向主要為地理空間優化、深度強化學習、遙感大數據分析和數字地球綜合應用等。
梁浩健老師
他所在的團隊由王少華研究員帶頭,以「推動地理空間科學與人工智能的交叉應用,為實現智慧城市和可持續發展目標提供創新解決方案」為愿景,致力于利用先進的計算方法和人工智能技術來分析和處理時空大數據,以實現空間環境的智能化決策和優化。近年來,團隊利用時空大數據分析、深度學習和機器學習等技術,開展了地理空間優化、遙感 AI 等多項研究。
王少華老師及其團隊
