谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024
今年2月,Google Research的研究人員提出了一個時序預測基礎模型TimesFM,在1000億個「真實世界時間點」上進行預訓練,僅僅用200M的參數規模就展現出了超強的零樣本學習能力。
論文鏈接:??https://arxiv.org/pdf/2310.10688.pdf??
當時權重還沒有發布,就已經有人在Reddit社區中表達了難以克制的興奮。
5月8日,這篇研究又掀起了一陣波瀾。
官方博客宣布這篇文章被ICML 2024接收,而且在GitHub和HuggingFace上公開了源代碼和模型權重。
開源后的短短幾天內,GitHub上項目標星數已經達到了1.5k。
DeepMind首席科學家Jeff Dean轉發了官方推特,為TimesFM的研究成果背書。
在官宣的消息下面,網友們紛紛為谷歌這波公開模型的操作點贊:
「非???,希望大多數公司經常做這樣的事。」
「非常高興看到谷歌擁抱開源模型和HuggingFace社區?!?/p>
也有網友稱贊TimesFM的零樣本表現。
讓時序模型實現「零樣本」預測
時間序列預測在零售、金融、制造業、醫療保健和自然科學等各個領域無處不在,比如預測股市、降雨量、流感病例、GDP等各種各樣的指標,是一種「基于過去預測未來」的科學。
然而,時序預測并不是一件容易的事,模型需要處理各種復雜且動態的模式,比如循環周期、季節性、頻率、趨勢、異常值、噪音等等。
傳統的深度學習方法需要大量數據和領域知識,卻只能針對特定的任務和數據集對模型進行訓練和微調。
與此同時,如ChatGPT等模型的問世讓我們看到了LLM超強的零樣本學習能力,只需要給出提示,不需要進一步訓練或微調即可讓模型完成各種類型的語言任務。
這就引出了一個問題:時間序列的基礎模型能否像自然語言一樣存在?在大量時間序列數據上進行預訓練的大模型,能否像在大量語料上訓練過的GPT一樣,對未見數據進行準確預測?
這就是谷歌研究人員聲稱要讓TimesFM實現的目標。
「類GPT」架構
相比非常容易大量爬取的文本數據,時間序列方面的公共數據集非常稀缺。而且為了訓練通用的時序模型,數據集中應該包含大量的(百萬級別)來自各種領域的多樣化數據,且有不同的時間粒度,比如每小時、每日、每周等。
TimesFM的研究團隊設法從三個特別渠道找到了這樣的時序數據:
- Google Trends中的隨時間變化的搜索興趣重新調整為時間序列
- Wikipedia頁面每小時瀏覽量隨時間變化的數據
- 合成數據:使用傳統的ARMA流程創建數據集
通過大量的數據集創建和評估工作,他們得到了包含1000億個數據點的數據集。
雖然和Llama含有1T token的語料庫依舊存在一定差距,但在時序預測領域是前所未有的大規模數據集。
在模型架構方面,TimesFM的靈感來自于Vision Transformer(ViT)和GPT,采用了decoder-only架構,主要由三個部分組成:輸入編碼器、解碼器和輸出解碼器。
對于輸入數據的表達,同時借鑒了計算機視覺中的patch以及自然語言中的token兩個概念。
輸入的時間序列數據會先被輸入編碼器表示為token,再被分割為許多相同長度的patch,再將每個patch映射為作為模型輸入的token。
解碼器是模型的核心組件,應用了自注意力和位置編碼機制,讓模型可以學習序列中不同token之間的依賴關系。最后,輸出解碼器將輸出token映射為最終的預測。
而且,TimesFM的關鍵功能之一是,它可以生成可變長度的輸出token,這意味著模型可以預測任意數量的未來時間點,而不需要任何重新訓練或微調。這是通過在模型輸入中加入預測長度(PL)token實現的。
預測結果媲美監督學習
研究人員使用Monash Forecasting Archive來評估TimesFM的「開箱即用」性能,該數據集包含來自各個領域的數萬個時間序列,如交通、天氣和需求預測,覆蓋頻率從幾分鐘到每年的數據。
可以看到,zero-shot(ZS)TimesFM比大多數監督方法都要好,包括最近的深度學習模型。論文還對比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術進行預測,結果證明了TimesFM的性能優于llmtime(ZS)。
在Monash數據集上,TimesFM(ZS)與其他有監督和零樣本方法的比例MAE(越低越好)
大多數Monash數據集都是短期或中期的,也就是說預測長度不會太長;研究人員還測試了TimesFM對常用基準長期預測對最先進的基線PatchTST(和其他長期預測基線)。
研究人員繪制了ETT數據集上的MAE,用于預測未來96和192個時間點的任務,在每個數據集的最后一個測試窗口上計算指標。
TimesFM(ZS)的最后一個窗口MAE(越低越好)相對于llmtime(ZS)以及ETT數據集上的長期預測基線
可以看到,TimesFM不僅超過了llmtime(ZS)的性能,而且與在相應數據集上顯式訓練的有監督PatchTST模型的性能相匹配。
本文轉自 新智元 ,作者:?新智元???
