即插即用,快速適配!港大FlashST:簡單通用的智慧交通時空預測模型 | ICML 2024
交通預測的目標是準確預測和分析城市未來的交通模式,這一過程需要同時考慮時間和空間因素。
然而,分布偏移的存在在這一領域構成了一個重大挑戰,因為現有模型在面對與訓練分布顯著不同的測試數據時,往往難以很好地泛化。
為了解決這個問題,華南理工大學、香港大學的研究人員提出了一個簡單而通用的時空提示調整框架FlashST,能夠使預訓練模型適應于不同下游數據集的特定特征,提高了其在多種預測場景中的泛化能力。
代碼地址: ??https://github.com/HKUDS/FlashST??
論文地址: ??https://arxiv.org/abs/2405.17898??
具體來說,所提出的的FlashST框架采用了一個輕量級的時空提示網絡進行上下文學習,捕捉時空不變知識,并有效地適應不同場景。
此外,文中還引入了一個分布映射機制,對齊預訓練和下游數據的數據分布,促進時空預測中有效的知識轉移。實驗表明FlashST在不同類型城市交通數據集中的有效性。
概述
現有挑戰
盡管現有時空預測方法已顯示出其有效性,但大多數時空預測模型在面對不同下游數據集和任務中的分布變化時往往難以有效泛化。
其中,訓練數據與測試數據之間分布不一致的假設成為了真實城市場景中準確預測的障礙。如圖1所示,直接將從數據集A上學到的參數應用于數據集B的測試,可能因不同數據分布間的時空特征顯著變化而導致性能不佳。
因此,有必要通過有效適應這種分布變化來增強時空預測模型的泛化能力,設計適應性方法存在以下難點:
(1)時空上下文信息有效提取: 有效地從下游任務中提取特定的復雜時空上下文信息是至關重要的。然而,賦予預訓練模型快速理解并整合僅在測試期間可訪問的新領域數據的空間和時間特性的能力是一個巨大的挑戰。
(2)彌合訓練和測試數據的分布差距: 訓練和測試數據集之間經常存在顯著的分布差距,尤其是當它們來自不同的時空場景和領域時。通過使模型適應框架能夠有效地彌合分布差距并捕獲時空不變特征,從而增強模型適應性是至關重要的。
圖1:FlashST背后的動機:左圖展示了不同交通數據集中數據分布的多樣性,而右圖顯示了端到端模型的參數對訓練集A過度擬合,未能泛化到測試集B
本文貢獻
(1)本文提出了一個時空上下文提取機制來解決挑戰1,該機制能夠捕獲來自未見數據的上下文信號,有助于適應多種時空場景。
(2)本文引入了一個統一的分布映射機制來增強FlashST框架,該機制彌合了預訓練與下游任務之間的分布差距。通過正則化提示嵌入來對齊數據分布,促進從預訓練到下游時空預測任務的有效知識轉移。
方法
圖2: FlashST 整體框架
時空上下文學習
時空上下文學習框架通過一個時空提示網絡實現,該網絡包含兩個主要組成部分:
(1)時空上下文提取機制:高效捕捉感知時間和位置的未見數據中的上下文信號。
通過這種方式,它使模型能夠從數據的特定上下文中學習,有助于有效地適應各種時空場景。
(2)時空依賴性建模:將時間和地點之間的復雜關系納入到上下文時空網絡中。通過捕捉和建模這些依賴性,網絡能夠有效地理解不同時空元素之間的相互依賴和交互。
時空上下文蒸餾
(1)時空數據映射。 本文采用Z-Score和線性層初始化時空表征,其中線性層用于對時間維度特征進行轉換。時空初始化表征表示為Er, f ,其中r和f分別表示第r個區域的f個特征。
(2)時間上下文整合。 為了從多樣化的城市數據中捕獲動態和周期性的時空模式,我們在我們的提示網絡中引入了時間感知的上下文。這種上下文基于多分辨率時間特征,具體包括一天中的某個時刻z^(d), 和一周中的某一天z^(w)。
時間上下文信號提取過程如下:
(3)空間上下文整合。 為了增強提示網絡與區域屬性相關的地理上下文信息,我們將城市道路網絡結構作為反映空間上下文的編碼特征。這一過程首先是構建標準化的拉普拉斯矩陣:
其中I、D 和 A 分別代表單位矩陣、度矩陣和鄰接矩陣。鄰接矩陣是通過考慮區域之間的距離和道路結構來計算的。
由于拉普拉斯特征向量有效地在歐幾里得空間中保留全局圖結構信息,我們執行特征值分解以得到△=UΛU^T。提取出特征值矩陣Λ和相應的特征向量矩陣U后,通過將U投影以獲得dr 個最小的非平凡特征向量,得出結構感知的節點屬性
由于C在訓練集和測試集特征空間中的潛在差異,使用MLP來映射這些特征,以增強網絡對空間上下文的泛化能力。
隨后,我們使用拼接操作整合上述嵌入以獲得初始的時空嵌入:
時空依賴建模
(1)時間依賴編碼器。 為捕獲不同時間段間的依賴性并保留時間演變的數據模式,我們引入了一個輕量級的門控機制,如下:
其中
和
為可訓練參數。
編碼后的時間嵌入表示為
。嵌入
圖片
包含了關于時間動態和區域特征的重要上下文信息,這對于時間依賴編碼器至關重要。這些豐富的信息使我們的上下文學習能夠有效地識別不同區域和時間間隔中時空模式的變化,從而有助于精確建模時間相關性。
(2)空間依賴編碼器。 我們采用基于圖卷積網絡的消息傳遞來編碼區域間關聯,形式化如下:
其中A表示鄰接矩陣,
表示可訓練參數。
殘差網絡用于減輕多層圖神經網絡(GNN)可能導致的過度平滑現象。通過堆疊多層時空編碼器,提示網絡生成了富有時空語義的表征Epro
統一分布映射機制
為了彌合預訓練和下游任務中多樣化未見數據之間的分布差距,我們通過加入分布映射機制來增強 FlashST。此機制的目標是將預訓練數據和下游數據都轉換到一個共享的分布空間中。這種數據分布的對齊使得知識能夠無縫轉移,確保從預訓練階段獲得的知識能夠有效地應用于下游的時空上下文。
為實現這一目標,FlashST 采用標準化提示嵌入以確保在多樣的下游數據集中保持一致的分布。
我們從對比學習的多項工作中汲取靈感,通過引入基于 infoNCE 的損失函數來規范提示網絡的表示生成。
該損失函數旨在使正樣本對的表示更加接近,同時將負樣本對的表示推開。通過利用無需額外標注的自監督學習,優化 infoNCE 損失有助于實現更均勻的嵌入分布。
相關研究表明,僅通過這一損失,幾乎可以實現完全均勻的分布。在此基礎上,我們使用 infoNCE 損失來調整學習到的時空提示嵌入
的分布:
其中,余弦相似度函數 cos?(?) 用于衡量嵌入之間的相似度,溫度系數τ 用于調整 softmax 的比率。
FlashST 通過增加不同區域對應嵌入之間的分離程度來增強提示嵌入的均勻性。這種改進使得下游模型能夠有效地利用提供的提示
,以便在新數據和任務中快速泛化。
預訓練和下游任務提示范式
在預訓練階段,我們使用專用的預訓練數據集來訓練和優化所有參數。在提示微調階段,我們通過在未見過的數據集上進行有限的訓練周期來專門更新提示網絡的參數。這使得下游模型能夠快速地適應新數據。
所提出的FlashST框架與模型無關,允許與各種現有的時空預測基線作為下游模型無縫集成。
(1)預訓練階段: 我們的目標是基于預訓練數據A的歷史時空記錄預測未來趨勢,并同時更新提示網絡和下游模型的參數,過程形式化如下:
(2)提示微調階段: 我們凍結了下游模型的參數并在測試數據集B中主要微調提示網絡,如下:
實驗
總體表現
對比實驗
對比實驗結果如下表,結果顯示對比端到端時空模型,所提出的方法在多樣化城市數據預測場景中展示出了的顯著優勢。這些發現有力地證明了 FlashST 在準確捕捉城市數據中存在的復雜時空不變模式方面的有效性。
所提出的上下文學習范式在將這些獲得的知識轉移到適應新的下游任務方面表現出色。通過有效處理分布差距,FlashST 彌合了預訓練模型與實際遇到的特定預測場景之間的語義差距。
表1:FlashST對比實驗
模型無關&模型微調
(1)模型無關優勢
所提出模型的一個顯著優點是模型無關,即其能夠與各種現有時空基礎編碼器無縫集成,提供靈活性并避免了特定模型選擇的限制。
下表展示了所提出 FlashST 方法與四種最先進的時空模型(即 STGCN、GWN、MTGNN、PDFormer)的輕松適配。評估結果突出了 FlashST 的多功能性,展示了其與出色時空模型結合時的卓越性能提升。與最先進模型的成功整合進一步增強了FlashST的適應性和在多樣化城市數據場景中提高預測準確性的能力。
(2)與模型微調的比較
為了進一步展示框架的有效性,我們將提出的提示微調方法與全參數微調進行了比較。"w/o Finetune" 方法指在預訓練后直接對目標數據集進行預測,而不進行任何微調。"w/ Finetune" 表示在預訓練后使用全參數微調來適應目標數據。
然而,值得注意的是,與端到端預測結果相比,直接全參數微調的結果表明其可能未能從預訓練過程中受益。在沒有有效對齊預訓練模型與下游任務的情況下,可能引入噪聲,導致誤導性的微調和次優的性能。
表2:模型無關&模型微調實驗
模型效率評估
(1)訓練時間
本節通過測量了三種不同場景的訓練時間:端到端訓練、完全微調和 FlashST 評估模型效率,如下表所示。對于端到端訓練和完全微調,我們遵循現有基線的設置,將訓練周期配置為100,提前停止標準設置為25個輪次。
FlashST提示調整的周期數限制為20,用于證明下游模型對新數據集的快速適應。結果表明,相同的基線模型在端到端訓練和全參數微調的效率是相似的。這兩種設置之間訓練時間的差異主要源于不同初始化參數導致的收斂速度變化。
FlashST 框架顯著提高了計算效率,它將基線模型的訓練時間減少了20%到80%,這顯著提高了它們適應新時空數據的效率。
表3:不同模型計算時間統計(秒)
(2)更快地收斂速度
本節對 FlashST 在不同數據集上的收斂速度進行了調查。下圖顯示了在使用 PEMS07(M) 和 CA-D5 數據集時,采用 MTGNN 作為下游模型的驗證誤差下降趨勢。
結果表明,通過整合 FlashST 方法,下游模型在幾個調整周期內就能實現收斂。相比之下,端到端訓練和微調范式需要更多的訓練輪次來適應新數據。這一現象可以歸因于我們提出的時空提示網絡和數據映射策略的有效性。這些組件使得模型能夠結合預訓練知識,利用新數據的時空特征,從而快速適應多樣的時空場景。
圖3:FlashST收斂速度
消融實驗
(1)時空上下文蒸餾的效用: 我們分別移除時間上下文信息(-TC)和空間上下文信息(-SC)。結果顯示,當去除時空上下文后大多數指標的性能顯著下降。這突出了在上下文學習過程中保留時間和空間上下文的關鍵重要性。有效地編碼時間信息和整合空間信息對于捕捉時空不變模式和增強模型對數據的理解至關重要。
(2)時空依賴建模的作用: 我們單獨刪除了時間編碼器(-TE)和空間編碼器(-SE)。結果表明,時空依賴編碼在上下文學習過程中有效整合不同時間段和地點之間復雜關系中發揮了至關重要的作用。包含時間和空間依賴編碼器使得模型能夠理解并利用時間與空間之間的復雜交互。這種能力有助于下游模型更快地適應新的時空場景。
(3)統一分布映射機制的影響: 我們從兩個方面評估了統一分布映射策略的實用性。
i)-Uni,去除統一分布映射策略。性能的下降表明了該策略對模型的積極影響。通過將不同的時空數據嵌入映射到一個統一的分布中,FlashST 有效地減輕了預訓練數據與未見時空數據之間分布差異的影響。
ii)r/BN。統一分布映射策略被批歸一化替換。批歸一化根據小批量的局部統計特性標準化數據,緩解了神經網絡訓練中的內部協變量偏移問題,從而提高了收斂效率。
然而,由于缺乏預訓練數據與下游任務數據之間確立的聯系,下游模型難以有效地從預訓練過程中轉移知識。所提出的策略確保模型能夠有效利用預訓練階段獲得的知識。通過對齊不同數據源的分布,模型能夠更好地適應新的時空場景并做出更準確的預測。
圖4:FlashST消融實驗
超參分析
本節研究了不同超參數設置的影響,特別是不同的溫度系數和損失權重系數對模型性能的影響。我們的發現表明,當參數配置為τ=0.3和λ=1.0時,模型達到了最佳性能。
值得注意的是,這些參數的變化對最終結果的影響很小,突出了模型對不同參數設置的有效適應性。即使特征尺度存在差異,模型也能學習到區分不同區域中嵌入特征的高效表示。
此外,模型的性能不會隨著統一性損失增加而產生較大波動。這表明我們分布映射策略并不干擾預測損失。這進一步支持了我們策略的可行性,并促進了下游模型對新的時空環境的快速泛化。
圖5:關于τ和λ的模型超參實驗
案例研究
為了評估我們提出的統一分布映射方法在將各種數據表示轉換為統一分布的有效性,我們對使用和未使用分布映射機制的提示嵌入進行了可視化。
我們首先采用PCA技術將每個嵌入樣本的維度降至二維,隨后使用L2范數將降維后的嵌入投影到單位圓上,如下圖所示。可視化結果為統一分布映射策略有效地將提示嵌入轉換成近似的均勻分布提供了有力證據。
相比之下,缺乏這一策略的變體未能實現這種理想的分布屬性。通過將新的時空環境中的數據轉換為一致的分布,FlashST獲得了利用預訓練知識并迅速適應新數據集的能力,從而促進了其在各種交通任務上的表現。
圖6:提示嵌入的分布可視化。
總結與展望
本文介紹了FlashST,用于將時空預測模型適應于未見過數據的各種下游任務。所提出的上下文學習框架利用了一個時空提示網絡,該網絡包括了時空上下文提煉機制和時空依賴性建模方案。
框架通過捕捉上下文信號和建模時間及地點之間的復雜關系,有效地適應不同的時空場景。
為了解決分布差異問題,我們通過整合一個分布映射機制來增強FlashST,該機制對齊了預訓練數據和下游數據的數據分布,促進了時空預測中有效的知識轉移。
廣泛的實驗表明,我們的FlashST在多種下游時空預測場景中的有效性和泛化能力。未來的研究方向之一可能是探索在FlashST框架中整合大型語言模型作為知識指導的潛力。
本文轉自 新智元 ,作者:新智元
