南加大提出全新「通用時間序列」基礎(chǔ)模型TimeDiT!基于擴散模型創(chuàng)新物理約束機制
隨著近年來在文本和視頻數(shù)據(jù)上構(gòu)建基礎(chǔ)模型的進展,學術(shù)界對時間序列的基礎(chǔ)模型也表現(xiàn)出濃厚的興趣。
時間序列分析在許多關(guān)鍵領(lǐng)域中具有重要性,能夠影響從科學研究到經(jīng)濟決策的廣泛應(yīng)用。
例如,在自然科學中,氣候數(shù)據(jù)的分析直接關(guān)系到全球變暖的預(yù)測和資源管理;在社會科學中,時間序列數(shù)據(jù)有助于理解社會行為的演變;在醫(yī)療健康領(lǐng)域,病人的生命體征和治療進程記錄依賴于時間序列分析。隨著全球可持續(xù)發(fā)展目標的推進,能源和環(huán)境監(jiān)控等領(lǐng)域的時間序列數(shù)據(jù)也越來越受到重視。
然而,盡管已經(jīng)有許多模型專門針對特定的時間序列任務(wù)取得了顯著的成果,現(xiàn)有的模型仍面臨諸多挑戰(zhàn)。
首先,現(xiàn)實世界中的時間序列數(shù)據(jù)往往含有缺失值,并且來自不同領(lǐng)域的數(shù)據(jù)通常具有多通道和多分辨率的特性。這些問題使得現(xiàn)有模型在處理數(shù)據(jù)不完整性和復(fù)雜性時表現(xiàn)不佳,難以有效地進行預(yù)測、補全和異常檢測。
此外,現(xiàn)有模型在整合物理知識方面存在明顯局限。許多真實的時間序列數(shù)據(jù)背后遵循著嚴格的物理定律,例如偏微分方程(PDEs),這些定律能夠為數(shù)據(jù)建模提供重要的先驗知識。
然而,已有的時間序列基礎(chǔ)模型難以將這些物理知識直接融入預(yù)測或數(shù)據(jù)生成過程,從而限制了其在科學和工程等物理領(lǐng)域中的適用性。
為了應(yīng)對這些挑戰(zhàn),南加州大學的研究人員提出了一種通用的時間序列基礎(chǔ)模型TimeDiT:通過結(jié)合去噪擴散模型和Transformer架構(gòu),TimeDiT能夠處理數(shù)據(jù)中的多通道、多分辨率和缺失值等問題,同時通過創(chuàng)新的物理約束機制,TimeDiT能將物理知識無縫整合到時間序列生成和預(yù)測過程中。
論文鏈接:https://arxiv.org/pdf/2409.02322
這種靈活性不僅提高了模型應(yīng)對復(fù)雜時間序列任務(wù)的能力,還使其能夠在需要嚴格物理約束的領(lǐng)域(如氣候建模和工程模擬)中表現(xiàn)出色。
背景與挑戰(zhàn)
時間序列數(shù)據(jù)與文本和圖像等數(shù)據(jù)有著根本的區(qū)別,因此直接將大型語言模型(如GPT-4、LLaMA等)的成功經(jīng)驗移植到時間序列領(lǐng)域并不現(xiàn)實。
時間序列數(shù)據(jù)的特殊性質(zhì)使得該領(lǐng)域面臨一系列獨特的挑戰(zhàn),例如:
1. 通道維度不一致:在不同領(lǐng)域中,時間序列可能會有不同數(shù)量的通道。而這一現(xiàn)象在文本和圖像數(shù)據(jù)上并不常見。這對通用模型設(shè)計提出了更高的要求,要求一個模型能夠靈活處理不同通道數(shù)的多變量數(shù)據(jù)。
2. 缺失值問題:在實際應(yīng)用中,時間序列數(shù)據(jù)往往存在大量缺失值,如何在這些不完整數(shù)據(jù)上實現(xiàn)有效的預(yù)測和補全是另一個難題。
3. 多分辨率問題:同一時間序列數(shù)據(jù)的不同維度采樣頻率可能各不相同,這種多分辨率特性增加了模型在處理時的復(fù)雜度。
4. 自回歸生成方式的局限性:傳統(tǒng)的時間序列模型通常采用自回歸生成方式,即使是基于Transformer架構(gòu)的模型亦然。這意味著數(shù)據(jù)是按順序生成的,這種方式在整合外部知識(如以偏微分方程形式表達的物理定律)時存在局限性。
模型創(chuàng)新
為了解決這些問題,本文提出了一種全新的時間序列基礎(chǔ)模型——TimeDiT,即時間擴散Transformer模型。該模型結(jié)合了Transformer架構(gòu)和去噪擴散模型,既能捕捉時間序列中的長短期依賴,又能生成高質(zhì)量的時間序列樣本,與此同時又克服了傳統(tǒng)自回歸模型在生成過程中容易累積誤差的問題。
TimeDiT模型通過以下幾個方面的創(chuàng)新來應(yīng)對時間序列數(shù)據(jù)的挑戰(zhàn):
1. 擴散模型的引入
傳統(tǒng)時間序列模型通常采用自回歸生成方式,即逐步生成序列的未來值,這種方式的局限性在于其對模型的依賴較大,容易導(dǎo)致預(yù)測誤差的累積。部分已有的工作通過獨立預(yù)測不同時間窗口的結(jié)果來規(guī)避這一問題。然而這又使得模型一定程度上喪失了捕捉相鄰時間信號間的依賴關(guān)系的能力。而擴散模型則采用了一個去噪的逆向過程,從噪聲逐步生成數(shù)據(jù),這種方法避免了自回歸生成方式中常見的誤差累積問題,又使得模型能夠在每一步的去噪過程中根據(jù)附近時間片的預(yù)測值修正自身。
2. 通道對齊策略
為了應(yīng)對不同領(lǐng)域中通道數(shù)量的變化,TimeDiT模型設(shè)計了一個通道對齊策略,使得模型能夠靈活處理不同輸入數(shù)據(jù)的維度變化。
3. 綜合掩碼機制
TimeDiT模型使用了一種新穎的掩碼機制,通過不同的掩碼方案來處理多分辨率、缺失值等問題,確保模型能夠在各種數(shù)據(jù)條件下保持穩(wěn)定的性能。這種掩碼機制包括隨機掩碼(random position mask)、分段掩碼(stride mask)、步幅掩碼(block mask)等,能夠適應(yīng)不同的時間序列任務(wù)。
4. 無微調(diào)模型編輯策略
TimeDiT模型還提出了一種創(chuàng)新的無須微調(diào)的模型編輯策略,允許在采樣過程中無縫整合外部知識(如物理定律),而不需要更新模型的參數(shù)。這種策略使得TimeDiT模型能夠根據(jù)偏微分方程(PDEs)等領(lǐng)域知識,在生成數(shù)據(jù)的過程中顯式約束生成的樣本,使其符合已知的物理規(guī)律。
模型架構(gòu)與實現(xiàn)
TimeDiT模型的架構(gòu)設(shè)計圍繞擴散過程展開,擴散過程可以看作是一個馬爾科夫鏈,在前向過程中逐步向數(shù)據(jù)中加入高斯噪聲,最終破壞數(shù)據(jù)的原始結(jié)構(gòu)。然后,模型在逆向過程中通過逐步去噪的方式重建原始數(shù)據(jù)。
TimeDiT的Transformer架構(gòu)通過注意力機制來捕捉時間序列中的時間依賴關(guān)系,同時依靠擴散模型生成高質(zhì)量的樣本。在采樣階段,TimeDiT模型還設(shè)計了一種基于物理知識的能量先驗,通過偏微分方程(PDEs)來約束模型生成的時間序列樣本,使其符合物理定律。
模型的標準化訓(xùn)練流程通過掩碼機制實現(xiàn),能夠同時處理預(yù)測、數(shù)據(jù)補全、異常檢測等任務(wù)。在訓(xùn)練階段,TimeDiT模型通過重建被掩蓋的時間序列片段來進行自監(jiān)督學習。在推理階段,模型根據(jù)具體任務(wù)選擇不同的掩碼策略,以便更好地適應(yīng)下游任務(wù)的需求。
圖1 TimeDiT架構(gòu)。左圖:TimeDiT框架包含來自不同領(lǐng)域的多分辨率、多變量時間序列數(shù)據(jù),并能夠利用掩碼策略處理缺失值問題;中間:TimeDiT模塊的結(jié)構(gòu);右上方:由時間序列掩碼單元生成的掩碼的示意圖;右下方:TimeDiT在推理過程中處理下游任務(wù)時使用的掩碼
此外,在TimeDiT架構(gòu)中,物理知識的整合是一大亮點,特別是在生成高質(zhì)量時間序列數(shù)據(jù)時,物理信息通過物理約束的擴散過程得到體現(xiàn)。通過引入偏微分方程(PDEs)作為物理先驗,TimeDiT在推理階段可以顯式的將物理定律融入擴散生成過程,確保生成的時間序列符合真實世界的物理規(guī)律。
具體而言,TimeDiT使用能量函數(shù)來量化生成數(shù)據(jù)與物理模型之間的偏差,通過優(yōu)化該能量函數(shù),使生成的數(shù)據(jù)更加符合物理約束。這一過程通過朗之萬動力學進行采樣調(diào)整,結(jié)合物理先驗和數(shù)據(jù)驅(qū)動模型,從而在生成過程中迭代優(yōu)化,使生成的樣本不僅符合數(shù)據(jù)分布,還滿足物理定律。算法1中詳細提供了偽代碼
這種物理引導(dǎo)的擴散策略顯著提升了TimeDiT在科學和工程領(lǐng)域中的應(yīng)用潛力,尤其是在氣候與海洋學等復(fù)雜物理現(xiàn)象的建模中,展現(xiàn)了較強的泛化能力和適用性。
算法1 TimeDiT中基于物理知識的采樣過程
實驗驗證與結(jié)果分析
為了驗證TimeDiT模型的有效性,本文進行了大量的實驗。在TimeDiT模型的實驗結(jié)果中,針對缺失值(missing value)和多分辨率數(shù)據(jù)(multi-resolution)的處理表現(xiàn)尤為突出(見圖2)。傳統(tǒng)的時間序列模型在應(yīng)對這些復(fù)雜的現(xiàn)實問題時往往表現(xiàn)不佳,而TimeDiT通過其創(chuàng)新性的掩碼機制,展現(xiàn)了卓越的適應(yīng)能力。
對于含有缺失值的預(yù)測任務(wù),TimeDiT在不同缺失率條件下的表現(xiàn)優(yōu)于現(xiàn)有的最先進模型。當缺失率從5%增加至50%時,TimeDiT依然保持較低的CRPSsum分數(shù),顯示出其對缺失數(shù)據(jù)的強大魯棒性。與其他模型相比,隨著缺失率的增加,TimeDiT的性能優(yōu)勢愈加明顯,表明其在面對更具挑戰(zhàn)性的缺失數(shù)據(jù)條件下依然能夠有效補全缺失值。
在處理多分辨率時間序列數(shù)據(jù)時,TimeDiT同樣表現(xiàn)優(yōu)異。實驗結(jié)果表明,隨著數(shù)據(jù)的采樣分辨率從2種增加至6種,TimeDiT在處理多分辨率數(shù)據(jù)時依然能維持明顯的性能優(yōu)勢,充分說明其能夠有效整合不同采樣頻率的數(shù)據(jù),進行高質(zhì)量的預(yù)測。
這些實驗結(jié)果表明,TimeDiT不僅在理想化數(shù)據(jù)集上表現(xiàn)出色,更能應(yīng)對現(xiàn)實中常見的復(fù)雜問題,如缺失數(shù)據(jù)和多分辨率采樣,這使其在實際應(yīng)用中的潛力大大提升。
圖2 針對含有缺失值和多分辨率數(shù)據(jù)的實驗。從實驗結(jié)果中,我們可以看出TimeDiT表現(xiàn)出色,顯著優(yōu)于其他模型。并且缺失值的比重越大、分辨率的種類越多,TimeDiT的優(yōu)勢越明顯
此外,TimeDiT模型在物理約束下的時間序列生成實驗也取得了優(yōu)異的表現(xiàn)。通過引入偏微分方程(PDEs)作為能量先驗,TimeDiT模型能夠生成符合物理規(guī)律的高質(zhì)量樣本,在多個物理領(lǐng)域的數(shù)據(jù)集上均超越了現(xiàn)有的基線模型(見圖3)。
除了以上的實驗結(jié)果,本文也在常用的基準數(shù)據(jù)(benchmark data)上對TimeDiT與其他先進的時間序列模型進行了對比實驗,包括預(yù)測、數(shù)據(jù)補全、異常檢測等任務(wù)。實驗數(shù)據(jù)來自交通、電力、金融等領(lǐng)域,涵蓋了多種具有挑戰(zhàn)性的時間序列任務(wù)。
在這些實驗中,TimeDiT模型在多個任務(wù)上都取得了最先進的結(jié)果,表現(xiàn)出極高的泛化能力和適應(yīng)性。
1. 預(yù)測任務(wù):在時間序列的概率預(yù)測任務(wù)中(圖4),TimeDiT模型在電力和交通數(shù)據(jù)集上實現(xiàn)了新的最優(yōu)CRPSsum評分,表明其在處理復(fù)雜多變量時間序列數(shù)據(jù)上的出色性能。
2. 數(shù)據(jù)補全任務(wù):對于缺失值補全任務(wù)(圖5),TimeDiT模型的創(chuàng)新掩碼機制使得它能夠有效應(yīng)對缺失率較高的數(shù)據(jù)集,實驗結(jié)果顯示,TimeDiT在多個數(shù)據(jù)集上均實現(xiàn)了最優(yōu)的均方誤差(MSE)和平均絕對誤差(MAE)。
3. 異常檢測任務(wù):TimeDiT模型還在工業(yè)監(jiān)控數(shù)據(jù)的異常檢測任務(wù)中(圖6)表現(xiàn)突出,通過頻譜殘差預(yù)處理方法,有效避免了模型對異常數(shù)據(jù)點的過擬合。
圖3 基于物理知識的時間序列生成任務(wù)
圖4 時間序列預(yù)測任務(wù)
圖5:時間序列補全任務(wù)
圖6 時間序列異常檢測任務(wù)
模型優(yōu)勢與局限
TimeDiT模型的主要優(yōu)勢在于其靈活性和廣泛的適應(yīng)性。它不僅能夠處理各種具有不同分布的時間序列數(shù)據(jù),還能夠通過無微調(diào)的模型編輯策略整合外部知識,如物理規(guī)律等,使其在科學和工程領(lǐng)域的應(yīng)用具有巨大的潛力。
實驗結(jié)果表明,TimeDiT模型在處理預(yù)測、補全、異常檢測等任務(wù)時,都表現(xiàn)出了強大的性能和魯棒性。
然而,TimeDiT模型也有一定的局限性。首先,本文主要在常見的序列長度上進行實驗,尚未深入研究該模型在處理超長時間序列時的表現(xiàn)。
其次,雖然模型能夠通過掩碼機制處理多通道和多分辨率問題,但在高維多變量時間序列上的擴展性仍有待進一步提高。
此外,盡管模型能夠整合物理知識,但不同類型外部信息對模型性能的具體影響還需要進一步的研究。
未來工作展望
未來的工作可以從以下幾個方向進一步提升TimeDiT模型的能力:
1. 擴展性增強:進一步提升模型的擴展性,處理更高維度和更加復(fù)雜的時間序列數(shù)據(jù),尤其是在應(yīng)對實際應(yīng)用中的超長序列時的表現(xiàn)。
2. 多模態(tài)數(shù)據(jù)融合:研究如何無縫整合多模態(tài)數(shù)據(jù)源,如文本、圖像等信息,以提升模型在多任務(wù)場景下的表現(xiàn)。
3. 超長時間序列處理:探索如何提高模型處理超長時間序列的能力,以滿足諸如氣候變化、金融市場等領(lǐng)域的需求。
結(jié)論
TimeDiT模型通過創(chuàng)新性地結(jié)合擴散模型與Transformer架構(gòu),為時間序列分析領(lǐng)域提供了一種通用的基礎(chǔ)模型。它不僅能夠有效應(yīng)對真實世界中常見的多分辨率、缺失值等問題,還能在采樣過程中整合物理學知識,使生成的時間序列符合已知的物理規(guī)律。
實驗結(jié)果表明,TimeDiT在多個時間序列任務(wù)上取得了最先進的結(jié)果,展示了其在廣泛應(yīng)用場景中的潛力。未來的研究可以進一步提升模型的擴展性和多模態(tài)融合能力,使其能夠在更多的實際應(yīng)用中發(fā)揮作用。