成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

TFB:2024最新時間序列預測Benchmark

發布于 2024-5-9 10:10
瀏覽
0收藏

今天給大家介紹一篇VLDB 2024中時間序列預測Benchmark的工作,文章由華東師范大學,華為云,奧爾堡大學聯合發布。該論文提出了TFB(時間序列預測基準測試),這是一個新穎的自動化基準測試框架,旨在通過包含來自十個不同領域的數據集,并提供一個靈活、可擴展且一致的評估流程,對包括統計學習、機器學習和深度學習在內的多種時間序列預測方法進行全面且無偏見的評估。

該論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!

TFB:2024最新時間序列預測Benchmark-AI.x社區

論文標題:TFB: Towards Comprehensive and Fair Benchmarking of Time Series Forecasting Methods**

論文鏈接:??https://arxiv.org/pdf/2403.20150.pdf??

代碼鏈接:??https://github.com/decisionintelligence/TFB??

1、引言

這篇論文試圖解決的問題包括:

TFB:2024最新時間序列預測Benchmark-AI.x社區

問題1. 數據領域覆蓋不足:現有的時間序列預測方法評估通常只覆蓋有限的領域,無法全面反映方法在多樣數據集下的表現。

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

問題2. 對傳統方法的刻板影響:現有的評估往往忽略了傳統方法,如統計學習,機器學習方法,大部分只關注深度學習方法。

TFB:2024最新時間序列預測Benchmark-AI.x社區

問題3. 缺乏一致和靈活的流程。不同的評估基準使用不同的實驗設置,如數據劃分、歸一化方法選擇、超參數設置,drop-last操作的使用,這使得公平的比較變得困難。此外,大多數測試基準流程不靈活,無法支持統計學習、機器學習和深度學習方法的同時評估。

2、drop-last操作說明

現有的一些方法在測試階段使用“刪除最后一個批次的數據”的技巧。為了加速測試,通常將數據分成批次。然而,如果我們丟棄最后一個不完整批次:其中包含的樣本數量少于批次大小,這會導致不公平的比較。例如,在圖4中,ETTh2具有長度為2,880的測試序列長度,我們使用大小為512的回溯窗口預測336個未來時間步。如果我們選擇批次大小為32、64和128,那么最后一個批次中的樣本數量分別為17、49和113。除非所有方法都使用相同的批次大小,否則丟棄這些最后一個批次的測試樣本是不公平的,因為測試集的實際使用長度不一致。圖4顯示了在ETTh2上使用不同批次大小和“刪除最后一個批次”技巧的PatchTST、DLinear和FEDformer的測試結果。我們觀察到,在變化批次大小時,方法的性能會發生變化。

因此該論文呼吁testing不使用drop-last操作,該論文在testing中沒有使用drop-last操作。

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

3、時間序列特征說明

趨勢性(Trend):趨勢性是指時間序列隨著時間的推移而發生的長期變化或模式。直觀地說,它代表了數據漂移的大致方向。

季節性(Seasonality):季節性是指時間序列中的變化以特定的間隔重復的現象。

平穩性(Stationarity):平穩性是指時間序列的各階統計特征(如均值、方差…)不隨時間的變化而變化。

漂移性(Shifting):漂移性是指時間序列的概率分布隨時間變化的現象。這種行為可能源于系統內部的結構變化、外部影響或隨機事件的發生。

轉移(Transition):轉移捕捉了時間序列中存在的規律性和可識別的固定特征,例如趨勢、周期性的明確表現,或者季節性和趨勢同時存在。

相關性(Correlation):相關性是指多變量時間序列中不同變量可能共享的可能性共同的趨勢或模式,表明它們受到相似的因素或具有某種潛在的關系。

這些特征的公式可從原論文中獲取。

4、TFB:基準細節

數據集:TFB配備了25個多變量和8,068個單變量數據集。對時間序列數據進行特征化分析,確保所選數據集在不同特征上具有廣泛的分布。

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

對比方法:TFB包括了22種方法。

TFB:2024最新時間序列預測Benchmark-AI.x社區

評估設定:為了評估方法的預測準確性,TFB實現了兩種不同的評估策略:1) 固定預測;和2) 滾動預測。為了對預測性能進行全面評估,TFB采用了八個誤差度量指標。

TFB:2024最新時間序列預測Benchmark-AI.x社區

統一的流程:為了實現方法的公平和全面比較,TFB引入了一個統一的評估流程,分為數據層、方法層、評估層和報告層。

TFB:2024最新時間序列預測Benchmark-AI.x社區

5、實驗

單變量時間序列預測

TFB:2024最新時間序列預測Benchmark-AI.x社區

多變量時間序列預測

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

不同特征上的性能

根據實驗結果,總結了不同方法在各種數據特征上的表現和排名。討論了基于Transformer的方法、線性方法以及考慮通道依賴性的方法在不同場景下的性能差異。研究了深度學習方法在多變量時間序列預測中的推理時間和參數數量的表現。提供了關于如何選擇適合特定數據集和場景的預測方法的見解。

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

TFB:2024最新時間序列預測Benchmark-AI.x社區

? TFB:2024最新時間序列預測Benchmark-AI.x社區 圖片 ?

6、關鍵發現

在某些數據集中,統計方法VAR和LinearRegression的表現優于最近提出的SOTA方法。

當數據集呈現增長趨勢或明顯漂移時,基于線性的方法表現良好。

基于Transformer的方法在具有明顯季節性、非線性模式以及更明顯模式或強內部相關性的數據集上優于基于線性的方法。

考慮通道之間依賴關系的方法,與假設通道獨立性的方法相比,有時可以提高多變量時間序列預測的性能,特別是在具有強相關性的數據集上。未來的文章應該關注如何提取、利用變量間關系來進行預測。

測試過程中使用drop-last操作會對實驗結果產生很大影響,造成不公平比較現象,論文呼吁testing不使用drop-last操作,這一影響多個時序Baselines性能的代碼bug!

7、總結

本文提出了TFB,這是一個專門設計用于進一步提高時間序列預測方法公平比較的基準,包括單變量時間序列預測和多變量時間序列預測。TFB在8,068個單變量時間序列上測評了超過20種UTSF方法以及在25個多變量數據集上對14種MTSF方法進行了測評。

TFB確定、收集和處理先前提出的時間序列數據集,以確定涵蓋不同領域和特征的全面的數據集,并以標準化格式組織它們。然后,設計實驗來研究不同方法在不同特征數據集上的表現。

TFB提供了一個自動化的端到端流程,用于評估預測方法,簡化和標準化加載時間序列數據集、配置實驗和評估方法的步驟。這簡化了研究人員的評估過程。此外,所有數據集和代碼都可在https://github.com/decisionintelligence/TFB上獲得。

TFB評估、比較了一系列方法,涵蓋了統計學習、機器學習和深度學習方法以及豐富多樣的評估任務和策略。并將評估結果總結為一些關鍵發現。 

本文轉載自??? 圓圓的算法筆記???,作者: Fareise


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久久久久电影 | 中文字幕在线观看一区 | 999久久久 | 91精品免费视频 | 99在线精品视频 | 国产一区二区在线看 | 99精品在线观看 | 国产精品高潮呻吟久久久久 | 国内久久精品 | 中文字幕在线观看日韩 | 黄色毛片网站在线观看 | 91亚洲国产成人久久精品网站 | 亚洲顶级毛片 | 亚洲欧美日韩精品久久亚洲区 | 精品欧美一区二区三区久久久 | 777zyz色资源站在线观看 | 久久成人免费视频 | 亚洲二区在线 | 亚洲高清在线免费观看 | 午夜影院普通用户体验区 | 国产成人一区二区三区电影 | 亚洲一区二区精品视频 | 337p日韩| 污视频在线免费观看 | 成年人在线观看 | 国产精品成人品 | 毛片网站在线观看视频 | 亚洲色图综合 | 欧美在线一区二区三区 | 新超碰97 | 7777在线视频免费播放 | 成人av免费网站 | 成人免费观看男女羞羞视频 | a级毛片国产 | 色男人天堂av | 北条麻妃一区二区三区在线视频 | 欧美黄a | 免费久久精品视频 | 天天视频一区二区三区 | 欧美老少妇一级特黄一片 | 男女免费在线观看视频 |