NeurIPS'24 基于自適應(yīng)多尺度超圖Transfromer的時間序列預(yù)測方法
在現(xiàn)實世界中,觀測到的時間序列通常表現(xiàn)出復(fù)雜多樣的多尺度時間模式。盡管基于Transformer的方法在多尺度時間模式交互建模中取得了顯著成功,但是兩個關(guān)鍵問題限制了其在時間序列預(yù)測中的進(jìn)一步發(fā)展。一方面,單個的時間點包含的語義信息較少,利用attention建模pair-wise交互會造成信息利用瓶頸。另一方面,時間模式中存在多種固有的時序變化,這些時序變化相互糾纏,為建模多尺度時間模式交互帶來了較大的挑戰(zhàn)。
針對上述問題,本文介紹一篇來自浙大研究團(tuán)隊的最新相關(guān)研究工作,該工作目前已被NeurIPS2024接收。作者提出了一種基于自適應(yīng)多尺度超圖Transformer的框架(Ada-MSHyper),用于時間序列預(yù)測。具體而言,作者通過設(shè)計自適應(yīng)超圖學(xué)習(xí)模塊,為建模group-wise交互提供基礎(chǔ)。然后通過設(shè)計多尺度交互模塊,賦予Transformer建模不同尺度時間模式間group-wise交互的能力。此外作者還引入了節(jié)點和超邊約束機制,用于聚集具有相似語義信息的節(jié)點,并區(qū)分每個尺度內(nèi)的時序變化。在11個真實世界數(shù)據(jù)集上的結(jié)果顯示,Ada-MSHyper達(dá)到了SOTA效果。
論文標(biāo)題:Ada-MSHyper: Adaptive Multi-Scale Hypergraph Transformer for Time Series Forecasting
下載地址:??https://arxiv.org/pdf/2410.23992??
1.研究背景
時間序列預(yù)測在眾多領(lǐng)域中展現(xiàn)了其廣泛的應(yīng)用價值,例如能源消耗規(guī)劃、交通與經(jīng)濟(jì)預(yù)測,以及疾病傳播預(yù)測等。在這些實際應(yīng)用中,觀測到的時間序列通常表現(xiàn)出復(fù)雜多樣的多尺度時間模式。例如,由于周期性的人類活動,交通流量和電力消耗會呈現(xiàn)出顯著的天模式、周模式以及月模式。
得益于建模pair-wise交互以及提取序列多尺度表示的能力,Transformer被廣泛應(yīng)用到時間序列預(yù)測中。雖然基于Transformer的方法在多尺度時間模式交互建模中取得了顯著成功,但是兩個關(guān)鍵問題限制了Transformer在時間序列預(yù)測中的進(jìn)一步發(fā)展。
語義信息稀疏性:不同于自然語言處理和計算機視覺,時間序列中單個的時間點包含較少的語義信息。為了解決語義信息稀疏性的問題,之前的方法通過劃分Path或者預(yù)定義超圖結(jié)構(gòu)的方法增強局部信息并建模group-wise交互,但是簡單劃分Patch或者預(yù)定義的超圖結(jié)構(gòu)容易引入噪聲干擾,且難以捕獲隱式交互。
時間變化糾纏:由于真實世界時間序列的復(fù)雜性和非平穩(wěn)性,觀察到的時間序列模式通常包含大量固有的變化,這些變化可能相互混合和重疊。特別是在不同尺度上存在不同的時間模式時,多種時序變化深度糾纏,為時間序列預(yù)測帶來了極大的挑戰(zhàn)。
2.建模方法
為了解決上述問題,作者提出了一種基于自適應(yīng)多尺度超圖Transformer的框架(Ada-MSHyper),Ada-MSHyper的核心在于建模不同尺度時間模式間group-wise交互。Ada-MSHyper首先將輸入序列映射為多尺度特征表示,然后通過將多尺度特征表示視為節(jié)點,引入了一種自適應(yīng)多尺度結(jié)構(gòu),以發(fā)掘不同尺度下節(jié)點間豐富而隱含的group-wise交互。Ada-MSHyper主要由四個主要部分組成:多尺度特征提取模塊,自適應(yīng)超圖學(xué)習(xí)模塊,多尺度交互模塊,和多尺度融合模塊。
多尺度特征提取模塊:多尺度特征提取模塊用來將原始輸入序列映射為多尺度特征表示,這種多尺度結(jié)構(gòu)可以使模型在不同尺的上觀察時間序列表示。具體來說,小尺度可以反映局部變化模式(如天模式),而大尺度可以反應(yīng)全局變化模式(如周模式和月模式)。多尺度特征提取模塊模塊由多個映射函數(shù)組成,每個映射函數(shù)將前一個尺度的子序列作為輸入,并生成更大尺度的子序列作為輸出,映射函數(shù)可以由1D卷積或average pooling實現(xiàn)。
自適應(yīng)超圖學(xué)習(xí)模塊:模塊通過學(xué)習(xí)點邊關(guān)聯(lián)矩陣來捕獲每個尺度下節(jié)點間group-wise的交互。但是,作者認(rèn)為純數(shù)據(jù)驅(qū)動的學(xué)習(xí)方式存在兩大局限:(1)難以有效聚集具有相似語義信息的節(jié)點(2)難以有效區(qū)分每個尺度內(nèi)的時序變化。為了解決上述問題,作者在自適應(yīng)超圖學(xué)習(xí)的過程中引入了節(jié)點和超邊約束(Node and Hyperedge Constraint,NHC)機制,其具體結(jié)構(gòu)如下圖。在每個尺度內(nèi),NHC機制首先根據(jù)點邊關(guān)聯(lián)矩陣,通過聚合超邊所連接的節(jié)點特征得到超邊特征表示。如圖(b)所示,節(jié)點約束損失通過計算超邊特征表示和節(jié)點特征表示之間的差異得到。如圖(c)所示,超邊約束損失通過計算超邊特征表示間的歐式距離和余弦相似性得到。通過最小化超邊約束損失和節(jié)點約束損失,NHC機制可以聚集具有相似語義信息的節(jié)點并區(qū)分每個尺度內(nèi)的時序變化。
多尺度交互模塊:在得到超圖結(jié)構(gòu)以后,為了建模不同尺度上的時間模式交互,一種直觀的方法是混合不同尺度的節(jié)點特征表示。然而,作者認(rèn)為,尺度內(nèi)交互和尺度間交互反應(yīng)了時間模式交互的不同方面,其中尺度內(nèi)交互主要描述具有相似語義信息的節(jié)點間細(xì)粒度的交互,而尺度間交互則更強調(diào)宏觀變化交互。因此,作者提出了多尺度交互模塊,分別處理尺度內(nèi)交互和尺度間交互。具體而言,尺度內(nèi)交互模塊通過超圖卷積attention計算每個尺度內(nèi)具有相似語義信息的節(jié)點特征間group-wise交互,尺度間交互模塊通過attention計算不同尺度間超邊特征間的交互。
多尺度融合模塊:在通過多尺度交互模塊得到更新后的節(jié)點特征和超邊特征后,多尺度融合模塊通過拼接操作將這些特征拼接起來,并送入線性層得到最終輸出。
3.實驗效果
Ada-MSHyper在11個真實時間序列數(shù)據(jù)集上和15個基線方法進(jìn)行了比較。實驗結(jié)果顯示,Ada-MSHyper在多個預(yù)測任務(wù)上都取得了SOTA性能,對于長時,短時和超長時時間序列預(yù)測,Ada-MSHyper的均方誤差(MSE)相比于最優(yōu)基線分別降低了4.56%,10.38%和4.97%。
作者在ETTh1數(shù)據(jù)集上進(jìn)行了消融實驗。結(jié)果顯示,去掉AHL模塊或者NHC機制會顯著降低模型性能,實驗結(jié)果驗證了AHL模塊和NHC機制的有效性。
作者在Electricity數(shù)據(jù)集上的可視化結(jié)果如圖3所示。為了進(jìn)一步驗證NHC機制的有效性,作者根據(jù)節(jié)點值的大小將節(jié)點分為四組,相同顏色的節(jié)點表示其具有相似的語義信息。如圖(a)所示,對于目標(biāo)節(jié)點來說,其他顏色的節(jié)點被視為噪聲。如圖(b)所示,由于缺乏節(jié)點約束,-w/o NHC 只能捕獲目標(biāo)節(jié)點及其鄰居節(jié)點間的交互,無法區(qū)分細(xì)微的噪聲干擾。而在(c)中,通過引入節(jié)點約束,-w/o HC不僅可以聚集鄰居節(jié)點還能聚集距離較遠(yuǎn)但具有較強相關(guān)性的節(jié)點。最后在圖(d)中,通過NHC機制,Ada-MSHyper不僅可以聚集具有相似語義信息的節(jié)點,還能區(qū)分時序變化。
4.總結(jié)
本文提出了Ada-MSHyper,一種基于自適應(yīng)多尺度超圖的時間序列預(yù)測方法。通過引入AHL模塊和多尺度交互模塊,Ada-MSHyper能夠建模更全面的group-wise交互,從而解決語義信息稀疏性的問題。實驗結(jié)果顯示,Ada-MSHyper實現(xiàn)了SOTA的性能,在長時、短時和超長時時間序列預(yù)測中,Ada-MSHyper的均方誤差(MSE)相比于最優(yōu)基線分別降低了4.56%,10.38%和4.97%。此外,可視化分析和消融實驗進(jìn)一步驗證了NHC機制在聚類具有相似語義信息節(jié)點以及解決時間變化糾纏問題上的有效性。
