成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

LLM用于時序預測真的不行,連推理能力都沒用到

人工智能 新聞
對于時序預測任務,使用語言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法,但前者所需的計算量比后者多幾個數(shù)量級。

語言模型真的能用于時序預測嗎?根據(jù)貝特里奇頭條定律(任何以問號結(jié)尾的新聞標題,都能夠用「不」來回答),答案應該是否定的。事實似乎也果然如此:強大如斯的 LLM 并不能很好地處理時序數(shù)據(jù)。

圖片

時序,即時間序列,顧名思義,是指一組按照時間發(fā)生先后順序進行排列的數(shù)據(jù)點序列。

在很多領(lǐng)域,時序分析都很關(guān)鍵,包括疾病傳播預測、零售分析、醫(yī)療和金融。在時序分析領(lǐng)域,近期不少研究者都在研究如何使用大型語言模型(LLM)來分類、預測和檢測時間序列中的異常。這些論文假設擅長處理文本中順序依賴關(guān)系的語言模型也能泛化用于時間序列數(shù)據(jù)中的順序依賴關(guān)系。這個假設并不令人意外,畢竟語言模型是現(xiàn)在機器學習領(lǐng)域的香餑餑。

那么,語言模型究竟能給傳統(tǒng)時序任務帶去多大助益?

近日,弗吉尼亞大學和華盛頓大學一個團隊嘗試解答了這一問題,并最終給出了一個簡單卻又重要的主張:對于時序預測任務,使用語言模型的常用方法的表現(xiàn)都接近或劣于基本的消融方法,但前者所需的計算量比后者多幾個數(shù)量級。

圖片

  • 論文標題:Are Language Models Actually Useful for Time Series Forecasting?
  • 論文地址:https://arxiv.org/pdf/2406.16964

這些發(fā)現(xiàn)是該團隊通過大量消融研究得到的,其中揭示出當前時序預測研究中存在一個「令人擔憂的趨勢」。

但該團隊也表示:「我們的目標并不是暗示語言模型永遠無法用于時間序列?!故聦嵣?,近期一些研究表明語言和時間序列之間具有很好的互動潛力,可以處理時間序列推理和社交理解等任務。

相反,他們的目標是強調(diào)這一驚人發(fā)現(xiàn):對于已有的時間序列任務,現(xiàn)有方法幾乎沒有用到預訓練語言模型那與生俱來的推理能力。

實驗設置

該團隊使用了三種最先進的時間序列預測方法,并為 LLM 提出了三種消融方法:w/o LLM、LLM2Attn、LLM2Trsf。

為了評估 LLM 在時間序列預測任務上的有效性,他們在 8 個標準數(shù)據(jù)集上對這些方法進行了測試。

用于語言模型和時間序列的參考方法

他們實驗了三種近期的使用 LLM 進行時間序列預測的方法。見表 2,這些方法使用的基礎模型為 GPT-2 或 LLaMA,同時使用了不同的對齊和微調(diào)策略。

圖片

OneFitsAll:OneFitsAll(有時也被稱為 GPT4TS)方法會先對輸入時間序列使用實例歸一化和 patching 技術(shù),然后將其饋送給一個線性層,以獲得用于語言模型的輸入表征。在訓練期間,語言模型的多頭注意力和前饋層會被凍結(jié),而位置嵌入和層歸一化會得到優(yōu)化。最終層的作用是將語言模型的最終隱藏狀態(tài)轉(zhuǎn)換成預測結(jié)果。

Time-LLM:使用 Time-LLM 時,輸入時間序列會被 patching 技術(shù) token 化,并且多頭注意力會將其與詞嵌入的低維表征對齊。之后,將這個對齊過程的輸出與描述性統(tǒng)計特征的嵌入一起輸送給一個凍結(jié)的預訓練語言模型。然后,將該語言模型的輸出表征展平,并使其通過一個線性層,從而得到預測結(jié)果。

LLaTA:LLaTA 嵌入輸入時間序列的方式是將每個通道都視為一個 token。該架構(gòu)的一半是「文本分支」,其使用交叉注意力來將時間序列表征與語言模型的詞嵌入的低維表征對齊。然后將該表征傳遞給一個凍結(jié)的預訓練語言模型,得到一個「文本式預測」。同時,該架構(gòu)的「時間」分支會基于輸入時間序列為預訓練語言模型學習一個低秩適應器,從而得到一個用于推理的「時間預測」。該模型包含考慮這些表征之間的相似度的額外損失項。

該團隊提出的消融方法

對于基于 LLM 的預測器,為了將 LLM 的影響隔離開,該團隊提出了三種消融方法:移除 LLM 組件或?qū)⑵涮鎿Q成一個簡單模塊。

圖片

具體來說,對于上述三種方法中的每一種,他們都進行了以下三項修改:

w/o LLM,見圖 1b。完全移除語言模型,直接將輸入 token 傳遞給參考方法的最終層。

LLM2Attn,見圖 1c。將語言模型替換成單個隨機初始化的多頭注意力層。

LLM2Trsf,見圖 1d。將語言模型替換成單個隨機初始化的 Transformer 模塊。

在上述消融研究中,預測器的其余部分都保持不變(可訓練)。比如,如圖 1b 所示,在移除了 LLM 之后,輸入編碼會被直接傳遞給輸出映射。而如圖 1c 和 1d 所示,在將 LLM 替換成注意力或 Transformer 后,它們會與原始方法的剩余結(jié)構(gòu)一起獲得訓練。

數(shù)據(jù)集和評估指標

基準數(shù)據(jù)集。評估使用了以下真實世界數(shù)據(jù)集:ETT(其包含 4 個子集:ETTm1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 給出了這些數(shù)據(jù)集的統(tǒng)計情況。另外還有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

圖片

評估指標。該研究報告的評估指標是預測時序值和真實時序值之間的平均絕對誤差(MAE)和均方誤差(MSE)。

結(jié)果

具體來說,該團隊探究了以下研究問題(RQ):

  • (RQ1)預訓練語言模型是否有助于提升預測性能?
  • (RQ2)基于 LLM 的方法是否值得其消耗的計算成本?
  • (RQ3)語言模型預訓練是否有助于執(zhí)行預測任務的性能?
  • (RQ4)LLM 能否表征時間序列中的順序依賴關(guān)系?
  • (RQ5)LLM 是否有助于少樣本學習?
  • (RQ6)性能從何而來?

預訓練語言模型是否有助于提升預測性能?(RQ1)

實驗結(jié)果表明,預訓練 LLM 對時間序列預測任務來說還不是很有用。

圖片

圖片

總體而言,如表 3 所示,在 8 個數(shù)據(jù)集和 2 個指標上,消融方法在 26/26 案例中優(yōu)于 Time-LLM 方法,在 22/26 案例中優(yōu)于 LLaTA,在 19/26 案例中優(yōu)于 OneFitsAll。

總之,很難說 LLM 可以有效地用于時間序列預測。

基于 LLM 的方法是否值得其消耗的計算成本?(RQ2)

這里,根據(jù)這些方法的名義性能來評估它們的計算強度。參考方法中的語言模型使用了數(shù)億乃至數(shù)十億參數(shù)來執(zhí)行時間序列預測。即使當這些語言模型的參數(shù)凍結(jié)時,它們在訓練和推理時依然會有很大的計算開銷。

舉個例子,Time-LLM 有 6642 M 參數(shù),在 Weather 數(shù)據(jù)集上耗時 3003 分鐘才完成訓練,而消融方法僅有 0.245 M 參數(shù),平均訓練時間僅有 2.17 分鐘。表 4 給出了在 ETTh1 和 Weather 數(shù)據(jù)集上訓練其它方法的相關(guān)信息。

圖片

至于推理時間,這里的做法是除以最大批量大小,以估計每個示例的推理時間。平均而言,相比于修改后的模型,Time-LLM、OneFitsAl、LLaTA 所用的推理時間多 28.2、2.3、1.2 倍。

圖片

圖 3 給出了一些示例,其中綠色標記(消融方法)通常低于紅色標記(LLM),并且集中于左側(cè),這說明它們計算成本更低但預測性能更好。

總之,在時間序列預測任務上,LLM 的計算強度無法為性能帶來相應的提升。

語言模型預訓練是否有助于執(zhí)行預測任務的性能?(RQ3)

評估結(jié)果表明,對于時間序列預測任務而言,使用大型數(shù)據(jù)集進行預訓練實在沒有必要。為了檢驗預訓練期間學到的知識能否給預測性能帶來有意義的提升,該團隊實驗了在時間序列數(shù)據(jù)上,對 LLaTA 進行不同組合的預訓練和微調(diào)的效果。


  • 預訓練 + 微調(diào)(Pre+FT):這是原始方法,即在時間序列數(shù)據(jù)上微調(diào)預訓練語言模型。對于這里的 LLaTA,做法是凍結(jié)基礎語言模型,學習一個低秩適應器(LoRA)。
  • 隨機初始化 + 微調(diào)(woPre+FT):預訓練得到的文本知識是否有助于時間序列預測?這里,隨機初始化語言模型的權(quán)重(由此清除了預訓練的效果),再在微調(diào)數(shù)據(jù)集上從頭開始訓練 LLM。
  • 預訓練 + 不使用微調(diào)(Pre+woFT):在時間序列數(shù)據(jù)上進行微調(diào)又能給預測性能帶來多大提升呢?這里是凍結(jié)語言模型,同時放棄學習 LoRA。這能反映語言模型自身處理時間序列的性能。
  • 隨機初始化 + 無微調(diào)(woPre+woFT):很明顯,這就是將輸入時間序列隨機投射到一個預測結(jié)果。該結(jié)果被用作與其它方法進行比較的基準。

圖片

整體結(jié)果見表 5。在 8 個數(shù)據(jù)集上,依照 MAE 和 MSE 指標,「預訓練 + 微調(diào)」有三次表現(xiàn)最佳,而「隨機初始化 + 微調(diào)」獲得了 8 次最佳。這說明語言知識對時間序列預測的幫助有限。但是,「預訓練 + 無微調(diào)」與基準「隨機初始化 + 無微調(diào)」各自有 5 和 0 次最佳,這說明語言知識對微調(diào)過程的幫助也不大。

總之,預訓練得到的文本知識對時間序列預測的幫助有限。

LLM 能否表征時間序列中的順序依賴關(guān)系?(RQ4)

大多數(shù)使用 LLM 來微調(diào)位置編碼的時間序列預測方法都有助于理解序列中時間步驟的位置。該團隊預計,對于一個有優(yōu)良位置表征的時間序列模型,如果將輸入的位置打亂,那么其預測性能將會大幅下降。他們實驗了三種打亂時間序列數(shù)據(jù)的方法:隨機混洗整個序列(sf-all)、僅隨機混洗前一半序列(sf-half)、交換序列的前半和后半部分(ex-half)。結(jié)果見表 6。

圖片

輸入混洗對基于 LLM 的方法與其消融方法的影響差不太多。這說明 LLM 在表征時間序列中的順序依賴關(guān)系方面并沒有什么突出能力。

LLM 是否有助于少樣本學習?(RQ5)

評估結(jié)果表明,LLM 對少樣本學習場景而言意義不大。

他們的評估實驗是取用每個數(shù)據(jù)集的 10%,再訓練模型及其消融方法。具體來說,這里評估的是 LLaMA(Time-LLM)。結(jié)果見表 7。

圖片

圖片

可以看到,有無 LLM 的表現(xiàn)差不多 —— 各自都有 8 個案例表現(xiàn)更好。該團隊也使用基于 GPT-2 的方法 LLaTA 進行了類似的實驗。結(jié)果見表 8,這里消融方法在少樣本場景中的表現(xiàn)還優(yōu)于 LLM。

性能從何而來?(RQ6)

這一節(jié)評估的是 LLM 時間序列模型中常用的編碼技術(shù)。結(jié)果發(fā)現(xiàn),將 patching 和單層注意力組合起來是一種簡單卻有效的選擇。

前面發(fā)現(xiàn)對基于 LLM 的方法進行簡單的消融并不會降低其性能。為了理解這一現(xiàn)象的原因,該團隊研究了 LLM 時間序列任務中常用的一些編碼技術(shù),比如 patching 和分解。一種基本的 Transformer 模塊也可用于輔助編碼。

結(jié)果發(fā)現(xiàn),一種組合了 patching 和注意力的結(jié)構(gòu)在小數(shù)據(jù)集(時間戳少于 100 萬)上的表現(xiàn)優(yōu)于其它大部分編碼方法,甚至能與 LLM 方法媲美。

圖片

其詳細結(jié)構(gòu)如圖 4 所示,其中涉及將「實例歸一化」用于時間序列,然后進行 patching 和投射。然后,在 patch 之間使用一層注意力進行特征學習。對于 Traffic(約 1500 萬)和 Electricity(約 800 萬)等更大的數(shù)據(jù)集,則使用了基本 Transformer 的單層線性模型的編碼表現(xiàn)更優(yōu)。在這些方法中,最后還要使用單層線性層來投射時間序列嵌入,從而得到預測結(jié)果。

總之,patching 對編碼而言非常重要。此外,基本的注意力和 Transformer 模塊也能為編碼帶來有效助益。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2021-09-02 10:40:24

索引Update語句

2024-01-02 10:20:42

清華大學人工智能

2024-07-05 15:06:00

2024-04-11 07:10:59

大語言模型AI人工智能

2024-04-22 08:49:13

大語言模型LLMAI

2023-05-03 20:27:49

獨立預測聯(lián)合預測多元時序

2025-04-24 10:26:40

2024-12-23 07:20:00

LLM逆向思維語言模型

2020-03-23 10:45:32

C語言C++Web

2025-03-03 09:40:00

2018-09-14 10:10:31

區(qū)塊鏈數(shù)字貨幣比特幣

2024-03-26 00:48:38

2025-03-07 09:34:14

2010-01-14 10:06:30

C++模板

2025-02-25 08:06:05

2023-09-01 15:22:49

人工智能數(shù)據(jù)

2025-05-30 10:50:27

2023-11-27 13:19:54

模型訓練

2024-09-09 08:31:15

2023-11-03 13:07:00

AI模型
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲成人黄色 | 国产.com | 日中文字幕在线 | 精品乱码一区二区 | 久久久久亚洲 | 亚洲国产精品福利 | 国产精品99久久久久久人 | 欧美午夜精品久久久久免费视 | 特a毛片| 久久久久国产精品午夜一区 | 亚洲+变态+欧美+另类+精品 | 精品一区二区三区入口 | 人人种亚洲 | 在线亚洲欧美 | 在线一区| 久久精品日产第一区二区三区 | 99久久精品国产一区二区三区 | 中文字幕 在线观看 | 国产综合视频 | 青青操91| 91综合在线视频 | 国产成人高清视频 | 午夜专区| 午夜视频一区二区 | 国产精品国产成人国产三级 | 精品久久久久久久久久久 | 精品久久久久久国产 | 日韩av一区二区在线 | 天天色图 | 国产一级在线 | 色偷偷噜噜噜亚洲男人 | 成人免费av | 欧美精品久久久久久久久久 | 欧美一区二区在线播放 | 日韩一级免费电影 | 日韩成人在线观看 | 久久99精品久久久久久秒播九色 | 91夜色在线观看 | 狠狠的干 | 国精久久 | 天堂久久网 |