FoundTS:時間序列預測基礎模型的全面統一測評基準
今天給大家介紹一篇華東師范大學聯合丹麥奧爾堡大學和松鼠AI發布的時間序列模型統一評測基準FoundTS,這是一個針對時間序列預測基礎模型的基準測評框架,旨在利用不同領域和特征的數據集對不同的時間序列預測基礎模型進行全面、公平的測評。該論文在統一評測結果的基礎上,分析了現有時序預測基礎模型的優缺點,并為基礎模型的提升提出一些可行的方向。
論文標題:FOUNDTS: COMPREHENSIVE AND UNIFIED BENCHMARKING OF FOUNDATION MODELS FOR TIME SERIES FORECASTING
論文地址:??https://arxiv.org/pdf/2410.11802??
1.背景
時間序列預測 (Time Series Forecasting, TSF) 是指根據歷史觀察來預測未來狀態,從而指導相應的決策和行為,是金融分析、氣象預測和能源管理等眾多領域的關鍵任務。
近年來,針對特定領域數據集進行訓練和推理的 特定模型(Specific models) 取得了快速發展,其預測準確度和推理速度顯著提升。然而,這些模型的泛化能力較弱,面對新領域或新數據時表現欠佳。在多領域時間序列數據或大規模語言數據上進行預訓練的 基礎模型(Foundation models) 為提升時間序列預測模型的泛化能力提供了新的可能性,但目前對此類模型的認知還遠遠不足。主要原因有以下三個方面:
(1)現有基礎模型工作的實驗設置不具備一致性,如表1所示,難以僅根據現有結果對不同的基礎模型的性能進行公平一致的比較;
(2)當前主流的時間序列測評基準主要集中在特定模型,涉及基礎模型的測評基準很少;
(3)現有涉及基礎模型的測評基準對此類模型的分析還停留在定性分析或單一場景測評。
為了解決上述問題,這篇論文提出了一個新的測評基準 FoundTS,以實現對時間序列預測基礎模型進行全面、公平的評估和比較。FoundTS 涵蓋了各種時間序列預測基礎模型,包括基于多領域時間序列數據的預訓練模型(Pre-trained models)和基于大規模語言的預訓練模型(LLM-based models)。同時,FoundTS 支持不同的預測場景,如零樣本(zero-shot)、少樣本(few-shot)和全樣本(full-shot)。
2.FoundTS評測框架
FoundTS 提供了一個標準化評估流程,包含了三個核心模塊:數據(data)、模型(models)、評估(evaluation)。
數據模塊包含10個來自不同領域(Stock, Health, Energy, Electricity, Environment, Traffic, Nature, Banking, Web, Economics)、具有多種特征(Seasonality, Trend, Stationarity, Transition, Shifting, Correlation, Non-Gaussianity)的時間序列數據集,為下游時間序列預測提供了全面的數據支持。
模型模塊涵蓋了各類時間序列預測模型,并對其進行了細致的分類與介紹。
基于多領域時間序列數據的預訓練模型:論文中根據訓練方法從重建、自回歸、直接預測以及混合預測四個角度分別介紹此類模型;
基于大規模語言的預訓練模型:通過參數高效微調或設計prompt的方式,利用 LLMs 強大的表征能力和序列建模能力來捕捉時間序列的復雜模式;
特定模型:使用特定數據集進行訓練并在相應的數據集進行推理,常見框架有:基于CNN的模型、基于Transformer的模型、基于MLP的模型。
評估模塊提供全面的測評場景、可擴展的流程和統一的評估環境:
涵蓋 zero-shot、few-shot 和 full-shot 場景,全面評估時間序列預測基礎模型在不同測試場景下的表現。
支持對評測流程的多個方面進行靈活定制,如回看窗口、預測窗口、數據劃分與加載、采樣策略等,能夠對不同模型采用一致的評測流程,確保測試結果的公平與可靠。
提供各種評估指標(如平均絕對誤差(MAE)和均方誤差(MSE)),從不同角度提供深入的模型性能分析。
3.實驗分析
論文在多個不同領域的數據集上對比了不同的時間序列預測基礎模型以及端到端的特定模型在 zero-shot、few-shot 和 full-shot 場景下的性能表現,同時從不同角度對時間序列預測基礎模型的優缺點進行了分析。
論文比較了時間序列預測基礎模型在不同采樣策略下的性能,表明數據采樣策略在few-shot學習中起著至關重要的作用,只有在統一的實驗設置下才能對模型進行公平評估。
論文探索了多變量時間序列的通道依賴性對時間序列預測基礎模型性能影響,呼吁在構建基礎模型時應充分考慮多變量數據的通道依賴性。
論文分析了不同框架的時間序列預測基礎模型之間的性能差異,指出未來需要更深入地研究模型架構設計,找到性能和參數量之間的平衡。
論文在具有不同顯著特征的數據集上對比了時間序列預測基礎模型處理不同特征數據的能力。
論文評估了來自多領域時間序列數據或大規模語言數據的預訓練知識對下游時間序列預測任務的實際效益。
論文通過衡量時間序列預測基礎模型在 5% 數據的 few-shot 場景下微調時間與特定模型在 full-shot 場景下從頭訓練時間,討論了時間序列預測基礎模型的精度與應用效率。
4.發現與觀點
基礎模型是否優于特定模型?時間序列預測基礎模型,相比于特定模型,表現出優越的 zero-shot 和 few-shot 的學習能力。但當有足夠的訓練數據時,基礎模型并不總是優于特定模型。
哪些基礎模型更優?時間序列預測基礎模型的優勢取決于評估的不同方面,沒有任何一個基礎模型能夠在所有方面占據主導地位。
從哪些方面提升基礎模型? (1)時間序列預測基礎模型應具有更加通用的、處理多種預測場景的能力;(2)從訓練數據、模型架構、預訓練策略等角度優化設計以更充分利用大規模預訓練知識;(3)如何在下游任務甚至預訓練階段充分建模各個通道之間的依賴性,是基礎模型應對多變量時間序列的關鍵問題之一;(4)合理平衡預測精度與訓練、微調、推理成本,是將時間序列預測基礎模型進行實際應用不可忽視的問題。
本文轉載自 ??圓圓的算法筆記??,作者: Fareise
