超越Transformer,全面升級!MIT等華人團隊發布通用時序TimeMixer++架構,8項任務全面領先
在數據驅動的時代,時間序列分析成為了許多領域中不可或缺的一部分,比如氣象預測、醫學癥狀分類、航天器的異常檢測、以及傳感器數據中缺失數據的填充等等,這些應用具體涉及到時間序列預測、分類、異常檢測、缺失值填充等任務。
如何使用一個模型,同時勝任所有任務?
近些年來,包括Transformer架構在內的一系列工作,雖然在細分任務上展現出色的性能,但由于缺乏靈活和通用的時序特征的提取能力,無法成為通用的模型架構。
為了解決這些問題,來自MIT、港科大、浙大以及格里菲斯大學的華人團隊聯合推出了一種全新的深度模型架構TimeMixer++,在長程時序預測、短程時序預測、時序分類、異常檢測等8項時序任務上的效能全面超越了Transformer等模型,實現了通用的時間序列建模和應用。
論文鏈接:https://arxiv.org/pdf/2410.16032
TimeMixer++的通用能力得益于其能夠提取通用的時序特征,針對不同任務,模型自適應地學習了不同的隱空間表征,展現出強大的靈活度和有效性。
設計動機
論文提出了「時序特征機器」(Time Series Pattern Machine, TSPM)的概念,作為一個能在廣泛時序任務中表現出色的模型,必須能提取各種各樣的時序特征,以適應任務的要求。
時間序列是從連續的現實世界中以不同尺度進行采樣得到的(如秒、分鐘、小時),而不同尺度下展現的周期性是不同的。該多尺度、多周期性的特性,引導了模型架構的設計。
TimeMixer++
核心效果
TimeMixer++基于時域(多尺度)和頻域(多頻率/周期)的信息,將每一條時間序列轉化為多分辨率時序圖(Multi-Resolution Time Images),并對每一個時序圖在深度空間中進行解耦和混合,最終提取多尺度、多周期的特征。
整體結構
TimeMixer++的結構類似Transformer,包括了下采樣、嵌入層(Input Projection),L個堆疊的MixerBlocks、和輸出層。其中,每個MixerBlock內部,按順序包括了 (1) 多分辨率時間成像,(2) 時序圖分解,(3) 多尺度混合,和 (4) 多分辨率混合。
我們在此簡單介紹MixerBlock內的操作,
1. Multi-Resolution Time Imaging (MRTI):MRTI負責根據頻域信息,將時序進行多尺度、多周期的折疊,從而得到多組時序圖。
2. Time Image Decomposition (TID):TID通過橫軸和縱軸兩個軸向的注意力機制,從每一個時序圖中解耦季節-趨勢,得到季節圖和趨勢圖。
3. Multi-Scale Mixing (MCM):MCM負責將不同尺度上的季節圖和趨勢圖分別進行混合,鑒于圖的形式,論文采用了卷積和反卷積的操作。
MCM以季節和趨勢混合為動力,將季節圖由細粒度到粗粒度逐步聚合,并利用較粗尺度的先驗知識深入挖掘宏觀趨勢信息,最終實現過去信息提取中的多尺度混合。對趨勢圖,則采用由粗粒度到細粒度的逐步聚合。
模型效果
為了驗證TimeMixer++的性能,作者在包含長程預測,短程預測,時序分類,異常檢測,填充,少樣本/零樣本預測等8個時序主流任務上進行測試。實驗結果表明,TimeMixer++在多個指標上全面超越了當前最先進的Transformer模型,具體表現如下:
在長程時序預測中,TimeMixer++在9/12的指標上超越了近幾年的預測模型。
在單變量和多變量的短程預測任務中,TimeMixer++全方位超越了近幾年的其他模型。
在缺失值填充任務中,TimeMixer++同樣保持了領先優勢,在幾乎所有指標和數據上超越了其他模型。
在困難的分類任務和異常檢測任務中,TimeMixer++依然在所有模型中取得了最好的效果,打敗了諸多專為該任務設計的時序模型。
在零樣本預測的設置下,TimeMixer++表現取得了第一,說明提取到通用的時序特征,而并非得益于過擬合。
表征分析
通過可視化分析,表明TimeMixer++將時間序列分解為多組季節圖和趨勢圖,可以從時域和頻域兩個角度,全方位提取時序的特征。不同尺度和頻率條件下,季節性和趨勢性有顯著差異。
效率分析
TimeMixer++在內存占用和訓練時間上表現出高效性,同時保持了有競爭力的MSE分數。在天氣數據填補和ETTm1長期預測任務中,相較于其他模型,具備更低的內存占用和較快的訓練時間,且能有效捕捉長程依賴關系。
消融實驗
作者進行了消融實驗驗證TimeMixer++架構的合理性。結果表明已有的多組模塊設計在絕大部分數據集上都取得了最優效果。
總結
本文介紹了一種全新的深度模型架構TimeMixer++,在8個時間序列分析任務中全面超越了Transformer等模型,成功實現了通用的時間序列建模與應用。TimeMixer++的創新之處在于將時間序列轉化為圖像,并在時域與頻域、多尺度、多分辨率下進行特征提取,從而提升了模型的表現。
TimeMixer++的成功不僅為時序分析領域帶來了新的思路,也展示了一種全新的時序理解視角。未來,隨著更多優化技術和應用場景的引入,相信TimeMixer++將進一步推動時序預測技術的發展,為各行業帶來更大的價值。