基于GPT+Adaptor的時(shí)間序列多任務(wù)統(tǒng)一大模型
今天跟大家聊一聊大模型時(shí)間序列預(yù)測(cè)的最新工作,來自阿里巴巴達(dá)摩院,提出了一種基于adaptor的通用時(shí)間序列分析框架,在長(zhǎng)周期預(yù)測(cè)、短周期預(yù)測(cè)、zero-shot、few-shot、異常檢測(cè)、時(shí)間序列分類、時(shí)間序列填充等7項(xiàng)時(shí)間序列任務(wù)上都取得了顯著的效果。
論文標(biāo)題:One Fits All: Universal Time Series Analysis by Pretrained LM and Specially Designed Adaptors
下載地址:https://arxiv.org/pdf/2311.14782v1.pdf
1、背景
搭建時(shí)間序列預(yù)測(cè)領(lǐng)域的大模型的一個(gè)難點(diǎn)在于,比較難獲取到像NLP、CV領(lǐng)域中那樣海量充足的訓(xùn)練數(shù)據(jù)。為了解決這個(gè)問題,這篇文章提出以NLP或CV領(lǐng)域訓(xùn)練好的大模型為底座,結(jié)合Adaptor技術(shù),適配到時(shí)間序列中,解決各類時(shí)間序列問題。
Adaptor在NLP、CV等領(lǐng)域應(yīng)用很廣泛,尤其是最近大模型應(yīng)用中,adaptor經(jīng)常被用來進(jìn)行大模型的輕量級(jí)finetune。Adaptor是一個(gè)輕量級(jí)網(wǎng)絡(luò),通過將其插入到大模型中的一些模塊中,然后fix大模型參數(shù),只更新adaptor的參數(shù),就可以實(shí)現(xiàn)輕量級(jí)的大模型finetune。
圖片
下面,給大家介紹阿里達(dá)摩院這篇工作中,是如何利用adaptor結(jié)合預(yù)訓(xùn)練的NLP、CV模型搭建統(tǒng)一時(shí)間序列模型的。
2、整體結(jié)構(gòu)
本文提出的模型基于Freeze參數(shù)的預(yù)訓(xùn)練語言模型,結(jié)合4種類型的adaptor實(shí)現(xiàn)。整體模型結(jié)構(gòu)如下圖所示。
圖片
首先,對(duì)于輸入時(shí)間序列,使用RevIN的方式進(jìn)行歸一化,即減去每個(gè)時(shí)間序列的均值,除以每個(gè)時(shí)間序列的方差。然后使用PatchTST中的方式,將時(shí)間序列通過滑動(dòng)窗口切分成多個(gè)patch,生成patch embedding。處理好后的時(shí)間序列,會(huì)輸入到一個(gè)NLP領(lǐng)域的預(yù)訓(xùn)練語言模型中,整個(gè)訓(xùn)練過程中,語言模型的原始參數(shù)固定不變,只更新模型中新增的4類adaptor參數(shù)。
3、Adaptor設(shè)計(jì)
本文提出了4種類型的adaptor,插入到大模型中的不同位置,以此實(shí)現(xiàn)讓NLP、CV領(lǐng)域的大模型適配時(shí)間序列的目的。這4種adaptor分別是temporal adaptor、channel adaptor、frequency adaptor、anormaly adaptor。
Temporal Adaptor:temporal adaptor是一個(gè)時(shí)間維度的MLP網(wǎng)絡(luò),用來融合時(shí)間維度的信息,文中采用bottlenect的結(jié)構(gòu),先將時(shí)間維度或空間維度的高維信息映射到低維,然后再映射回高維空間,以此在提取時(shí)序關(guān)系的過程中防止過擬合的風(fēng)險(xiǎn)。
Channel Adaptor:channel adaptor的結(jié)構(gòu)和temporal adaptor相似,區(qū)別在于在空間維度進(jìn)行,用來提取多元序列各個(gè)變量之間的關(guān)系,也采用了bottlenect;
圖片
Frequency Adaptor:frequency adaptor在頻域進(jìn)行時(shí)間序列的信息提取,這部分將時(shí)間序列映射到頻域,在頻域做MLP,然后再映射回時(shí)域,以此實(shí)現(xiàn)頻域這種全局信息的提取。
Anomaly Adapter:這部分主要是實(shí)現(xiàn)了一種新的時(shí)間序列異常檢測(cè)方法,這里利用了attention score矩陣,對(duì)于正常序列attention score矩陣呈現(xiàn)周期重復(fù)的特性,而異常序列則沒有,因此文中使用一個(gè)高斯核作為anomaly adaptor,用attention的輸出結(jié)果和其計(jì)算KL散度進(jìn)行時(shí)間序列異常檢測(cè)。
圖片
此外,各個(gè)adaptor對(duì)不同數(shù)據(jù)的影響不同,因此文中使用了一個(gè)gate網(wǎng)絡(luò),進(jìn)行有選擇性的adaptor使用。
4、實(shí)驗(yàn)效果
文中在7種時(shí)間序列任務(wù)上進(jìn)行了效果對(duì)比,本文提出的時(shí)間序列統(tǒng)一大模型取得了超出各個(gè)任務(wù)業(yè)內(nèi)SOTA模型的效果,例如下面是長(zhǎng)周期預(yù)測(cè)任務(wù),基于GPT2+Adaptor的統(tǒng)一模型取得了最優(yōu)的效果。
圖片