成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024

發布于 2024-6-11 12:48
瀏覽
0收藏

今年2月,Google Research的研究人員提出了一個時序預測基礎模型TimesFM,在1000億個「真實世界時間點」上進行預訓練,僅僅用200M的參數規模就展現出了超強的零樣本學習能力。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

論文鏈接:??https://arxiv.org/pdf/2310.10688.pdf??


當時權重還沒有發布,就已經有人在Reddit社區中表達了難以克制的興奮。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

5月8日,這篇研究又掀起了一陣波瀾。


官方博客宣布這篇文章被ICML 2024接收,而且在GitHub和HuggingFace上公開了源代碼和模型權重。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

開源后的短短幾天內,GitHub上項目標星數已經達到了1.5k。


DeepMind首席科學家Jeff Dean轉發了官方推特,為TimesFM的研究成果背書。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

在官宣的消息下面,網友們紛紛為谷歌這波公開模型的操作點贊:


「非???,希望大多數公司經常做這樣的事。」

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

「非常高興看到谷歌擁抱開源模型和HuggingFace社區?!?/p>

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

也有網友稱贊TimesFM的零樣本表現。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

讓時序模型實現「零樣本」預測

時間序列預測在零售、金融、制造業、醫療保健和自然科學等各個領域無處不在,比如預測股市、降雨量、流感病例、GDP等各種各樣的指標,是一種「基于過去預測未來」的科學。


然而,時序預測并不是一件容易的事,模型需要處理各種復雜且動態的模式,比如循環周期、季節性、頻率、趨勢、異常值、噪音等等。


傳統的深度學習方法需要大量數據和領域知識,卻只能針對特定的任務和數據集對模型進行訓練和微調。


與此同時,如ChatGPT等模型的問世讓我們看到了LLM超強的零樣本學習能力,只需要給出提示,不需要進一步訓練或微調即可讓模型完成各種類型的語言任務。


這就引出了一個問題:時間序列的基礎模型能否像自然語言一樣存在?在大量時間序列數據上進行預訓練的大模型,能否像在大量語料上訓練過的GPT一樣,對未見數據進行準確預測?


這就是谷歌研究人員聲稱要讓TimesFM實現的目標。

「類GPT」架構

相比非常容易大量爬取的文本數據,時間序列方面的公共數據集非常稀缺。而且為了訓練通用的時序模型,數據集中應該包含大量的(百萬級別)來自各種領域的多樣化數據,且有不同的時間粒度,比如每小時、每日、每周等。


TimesFM的研究團隊設法從三個特別渠道找到了這樣的時序數據:

  • Google Trends中的隨時間變化的搜索興趣重新調整為時間序列
  • Wikipedia頁面每小時瀏覽量隨時間變化的數據
  • 合成數據:使用傳統的ARMA流程創建數據集


通過大量的數據集創建和評估工作,他們得到了包含1000億個數據點的數據集。


雖然和Llama含有1T token的語料庫依舊存在一定差距,但在時序預測領域是前所未有的大規模數據集。


在模型架構方面,TimesFM的靈感來自于Vision Transformer(ViT)和GPT,采用了decoder-only架構,主要由三個部分組成:輸入編碼器、解碼器和輸出解碼器。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

對于輸入數據的表達,同時借鑒了計算機視覺中的patch以及自然語言中的token兩個概念。


輸入的時間序列數據會先被輸入編碼器表示為token,再被分割為許多相同長度的patch,再將每個patch映射為作為模型輸入的token。


解碼器是模型的核心組件,應用了自注意力和位置編碼機制,讓模型可以學習序列中不同token之間的依賴關系。最后,輸出解碼器將輸出token映射為最終的預測。


而且,TimesFM的關鍵功能之一是,它可以生成可變長度的輸出token,這意味著模型可以預測任意數量的未來時間點,而不需要任何重新訓練或微調。這是通過在模型輸入中加入預測長度(PL)token實現的。

預測結果媲美監督學習

研究人員使用Monash Forecasting Archive來評估TimesFM的「開箱即用」性能,該數據集包含來自各個領域的數萬個時間序列,如交通、天氣和需求預測,覆蓋頻率從幾分鐘到每年的數據。


可以看到,zero-shot(ZS)TimesFM比大多數監督方法都要好,包括最近的深度學習模型。論文還對比了TimesFM和GPT-3.5使用llmtime(ZS)提出的特定提示技術進行預測,結果證明了TimesFM的性能優于llmtime(ZS)。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

在Monash數據集上,TimesFM(ZS)與其他有監督和零樣本方法的比例MAE(越低越好)


大多數Monash數據集都是短期或中期的,也就是說預測長度不會太長;研究人員還測試了TimesFM對常用基準長期預測對最先進的基線PatchTST(和其他長期預測基線)。


研究人員繪制了ETT數據集上的MAE,用于預測未來96和192個時間點的任務,在每個數據集的最后一個測試窗口上計算指標。

谷歌開源TimesFM:1000億個時間點訓練,入選ICML 2024-AI.x社區

TimesFM(ZS)的最后一個窗口MAE(越低越好)相對于llmtime(ZS)以及ETT數據集上的長期預測基線


可以看到,TimesFM不僅超過了llmtime(ZS)的性能,而且與在相應數據集上顯式訓練的有監督PatchTST模型的性能相匹配。


本文轉自 新智元 ,作者:?新智元???


原文鏈接:??https://mp.weixin.qq.com/s/2YUwUfkRzNdreKo02gGgcg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲精品播放 | 九九九视频精品 | 午夜精品久久久久久 | 中文字幕一区二区三区在线观看 | 亚洲成人一区 | 美女久久视频 | 日韩午夜一区二区三区 | 91免费高清| 噜久寡妇噜噜久久寡妇 | 亚洲国产成人在线视频 | 久久99精品国产 | 免费看一区二区三区 | 日韩av在线播 | 成人综合视频在线观看 | 日韩黄a | 国产精品一区久久久久 | 日本久久精品视频 | 国产精品一区在线 | 天堂一区在线观看 | av大全在线观看 | 欧美日韩一区二区视频在线观看 | 中文字幕亚洲在线 | 国产精品福利久久久 | 欧美日韩专区 | 午夜视频在线观看网址 | 欧美日韩国产高清视频 | 日本电影一区二区 | 99亚洲精品 | 怡红院免费的全部视频 | 国产成人精品一区二区 | 久久最新精品视频 | 欧美午夜一区二区三区免费大片 | 国产一区在线免费观看视频 | 久久激情视频 | 天天干天天插天天 | 91国在线| 欧美精品综合在线 | 久久久久亚洲 | 在线欧美a | 羞羞网站免费观看 | 在线免费观看欧美 |