預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升

發布于 2024-7-3 08:43

瀏覽

0收藏

今天給大家介紹一篇關于大模型在時間序列應用探討的工作。這篇文章質疑大語言模型在時間序列預測中是否有效，并對目前最先進的3個基于大語言模型的時間序列預測模型進行實驗，發現去掉大語言模型部分，改成一個attention網絡，也能取得相同甚至更優的效果。

預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升-AI.x社區

論文標題：Are Language Models Actually Useful for Time Series Forecasting?

下載地址：??https://arxiv.org/pdf/2406.16964v1??

1、背景

隨著大語言模型的興起，一些工作也將其應用到時間序列預測領域。這類方法一般基于預訓練好的NLP領域的語言模型，將時間序列轉換成文本形式輸入其中，通過finetune大模型，產出預測結果。典型的代表工作包括OneFitsAll、Time-LLM、LLaTA等工作。

預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升-AI.x社區

本文質疑的點就是大語言模型在時間序列預測中是否真的有效。通過一系列的對目前先進的大語言模型的實驗來看，引入大語言模型并不和提升效果，甚至會降低效果，并且白白浪費了更多的計算資源。

2、實驗方法

本文對3個目前業內最先進的基于大語言模型的時間序列預測方法進行實驗，分別是OneFitsAll、Time-LLM、LLaTA。

OneFitsAll：OneFitsAll是基于GPT4的時序預測模型，將時間序列歸一化并進行patch處理后，輸入預訓練GPT4中，finetune其中的position embedding和layer norm參數，其他參數freeze；

Time-LLM：Time-LLM將時間序列轉換成token后映射到低維表征，和數據集描述等信息拼接后輸入到預訓練大模型中，大模型的輸出結果再輸入到一個線性層進行生成預測結果；

LLaTA：模型分為文本分支和時序分支，文本分支部分將原始時間序列和大模型的word embedding對齊后，輸入到大模型中，生成文本表征。時序分支基于原始時間序列數據，使用一個adpater對預訓練大模型進行finetune，同時將時序分支和文本分支的表征拉近作為輔助任務。

預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升-AI.x社區

在實驗方法上，針對上述3個大模型時序預測模型，采用如下方法進行消融實驗，鑒別大模型在其中的作用。第一種是w/o LLM，直接將大模型部分去掉。第二種是LLM2Attn，將大模型改成一個參數隨機初始化multi-head attention結構。第三種是LLM2Trsf，將大模型部分改成一個隨機初始化的Transformer結構。通過對比這三種方式和原始模型的效果，就可以分辨出大模型的參數是否對時間序列預測起到作用。

預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升-AI.x社區

3、實驗結果

下表展示了一個基礎的消融實驗效果圖。從圖中可以看出，Time-LLM、LLaTA、OneFitsALL等模型中，將大語言模型部分直接改成Transformer，在不同的數據集上效果并沒有明顯下降。在一些數據集上效果反而提升了。消融模型的效果，所有case上都超過了Time-LLM，22個case超過了Time-LLM，19個數據集超過了OneFitsALL。這說明在這些方法中，預訓練的大語言模型并沒有發揮什么特別重要的作用。

預訓練大語言模型對時間序列預測真的有用嗎？去掉預訓練LLM效果反而提升-AI.x社區