MTBench:用于金融時序推理和回答的多模態時間序列基準
“MTBench: A Multimodal Time Series Benchmark for Temporal Reasoning and Question Answering”
時間序列與文本數據的結合對理解復雜現實現象至關重要,尤其在金融和天氣預測領域。現有基準缺乏對時間序列數據與文本之間復雜關聯的關注,未能處理文本與時間序列數據矛盾的情況。
本文提出MTBench基準,旨在評估LLMs在金融和天氣領域的多任務和多模態推理能力。MTBench通過將時間序列數據與相關文本信息對齊,促進跨模態互動,支持復雜推理任務。
摘要
本文提出MTBench(Multimodal Time Series Benchmark ,多模態時間序列基準),旨在評估大語言模型在金融和天氣領域的時間序列與文本理解能力。MTBench包含配對的時間序列和文本數據,如金融新聞與股票價格變動、天氣報告與歷史溫度記錄。
同時提供了一個綜合測試平臺,支持模型對結構化數值趨勢和非結構化文本敘述的聯合推理。設計了多樣化任務,包括時間序列預測、語義和技術趨勢分析、新聞驅動的問答,考察模型捕捉時間依賴性和提取文本關鍵信息的能力。評估當前最先進的LLM在MTBench上的表現,發現其在捕捉長期依賴性、解釋因果關系和融合多模態信息方面存在顯著挑戰。
簡介
時間序列與文本數據的結合對理解復雜現實現象至關重要,尤其在金融和天氣預測領域。現有的大型語言模型(LLMs)在跨時間序列和文本推理方面的能力尚未充分探索。現有的多模態時間序列-文本數據集主要集中于預測任務,忽視了因果推理和深度分析等推理驅動的挑戰。現有基準缺乏對時間序列數據與文本之間復雜關聯的關注,未能處理文本與時間序列數據矛盾的情況。
本文提出MTBench基準,旨在評估LLMs在金融和天氣領域的多任務和多模態推理能力。MTBench通過將時間序列數據與相關文本信息對齊,促進跨模態互動,支持復雜推理任務。研究發現,LLMs在需要細致時間理解和多模態信息整合的任務上表現不佳,但相關文本信息能提升時間序列任務的表現。
MTBench的貢獻包括:引入復雜推理和問答挑戰的多模態時間序列基準;強調時間序列與文本之間的關系;提供靈活的框架以生成可控的數據集。
相關工作
LLMs用于時間序列分析。用于大型語言模型(LLMs)在時間序列分析中的應用日益受到關注,涉及預測、異常檢測和金融建模等領域。一些方法通過對齊預訓練嵌入與時間序列數據,或使用文本原型重編輸入來提升推理能力。LLMs在可解釋的金融預測和社會事件驅動預測中取得了成功,強調了針對時間序列數據的基礎模型和標準化跨模態基準的需求。
時間序列基準數據集。現有的時間序列基準多基于經典任務特定數據集,逐漸關注文本-時間序列配對數據集的開發。Liu等人提出的Time-MMD數據集樣本點較少,Karger等人的ForecastBench主要針對事件預測,而Cai等人的TimeseriesExam未考慮具體應用。提出的基準將專注于基于應用特定使用場景評估模型在多任務上的表現。
金融新聞基準數據集。現有金融基準數據集主要集中于單一數據模態,FinanceBench和FinDABench僅評估文本任務,缺乏時間序列整合。Islam等人提出的金融援助預測基準專注于時間序列,不包含文本數據。PIXIU和FinBen集成了時間序列和文本,但主要來源于Twitter,而我們的基準則整理了金融新聞。最新的FNSPID數據集將股價時間序列與金融新聞對齊,專注于股價預測。我們的數據集不僅限于價格預測,還涵蓋更廣泛的金融任務,如金融指標預測,利用歷史金融記錄和新聞來源進行全面評估。
天氣基準數據集。天氣數據集基準主要有兩個方向:數值天氣預報模型的基準和時序預測的LLM評估。現有的大規模天氣基準數據集通常不適合評估LLM的零-shot性能。WeatherBench和WeatherBench 2是標準化的基準,使用重分析數據,提供更高分辨率和額外變量。Huber等人提出Weather2K,結合結構化和非結構化天氣數據。評估時序LLM性能仍面臨高質量文本-時間序列數據對的缺乏。提議的基準數據集通過生成嚴重天氣事件的新聞來解決這一問題,并擴展了時間跨度和地點數量。
數據集收集與預處理
本文選擇金融和天氣領域進行數據集收集,因其在評估大語言模型的多模態整合和推理能力方面具有重要應用意義。金融市場中,理解股價與新聞情緒的關系對風險評估、算法交易和經濟預測至關重要。天氣預測在氣候監測、供應鏈物流和災害準備中發揮關鍵作用。這兩個領域因動態外部因素、不確定性和事件驅動的波動性而具有內在復雜性。
原始數據收集
金融數據集:
- 收集了200,000個金融新聞文章URL,涵蓋2021年5月至2023年9月。
- 從中提取了20,000篇新聞,確保文章長度分布均衡。
- 使用GPT-4o為每篇文章注釋元數據,包括內容類型、時間效應范圍和情感。
- 股票時間序列數據與新聞文章對應,采用不同粒度的歷史股價數據。
- 預測設置:短期預測(7天股價,5分鐘粒度)和長期預測(30天股價,1小時粒度)。
天氣數據集:
- 選擇50個美國機場,使用GHCN-H數據集,數據時間范圍為2003至2020年,記錄溫度等多個氣象屬性。
- 重點關注溫度數據,未來可擴展為多通道天氣分析。
- 使用風暴事件數據庫記錄1950至2020年間的風暴事件,包括類型、地點、傷亡等信息,提供復雜天氣條件的上下文。
數據對齊和預處理
財務新聞與股票價格的匹配
通過時間戳對齊新聞與股票時間序列,進行語義分析,發現并非所有新聞準確反映未來股價趨勢。
數據集分類:
- 一致新聞數據集:80%對齊對,新聞情感與未來趨勢一致。
- 不一致新聞數據集:20%對齊對,情感與實際價格變化不符。
一致數據集用于評估LLM對有用信息的預測能力,不一致數據集用于測試模型識別誤導信息的能力。
天氣事件報告與記錄對齊
將風暴事件與最近機場天氣數據配對,采用50公里半徑進行匹配,合并相關事件。利用LLM生成合成新聞文章,補充缺失的敘述信息。
使用新聞文章結束時間作為錨點,獲取前7天的天氣數據預測次日溫度。處理NCEI數據集中的不規則時間間隔,通過計算每小時平均溫度并插值填補缺失值,得到每日24小時和過去7天168個數據點。將插值后的7天和14天溫度數據與40篇最長新聞文章配對。研究兩種預測場景:短期預測(用過去7天預測次日)和長期預測(用過去14天預測未來3天)。
數據統計
金融數據集:包含20,000篇預處理和標記的金融新聞文章,分析市場趨勢、情感和敘事;還有兩個配對的文章-時間序列數據集,各20,000對,研究金融新聞與市場波動的關系。
天氣數據集:為50個美國氣象站生成2,000對時間序列和新聞,每站40對,包含7或14天的溫度數據和描述嚴重天氣事件的合成新聞。
金融數據集分類:
- 內容類型:市場新聞與分析、投資與股票分析、交易與投機投資。
- 時間效應范圍:回顧性分析、當前市場洞察、預測與展望。
- 情感:根據潛在市場影響標記情感極性。
天氣數據集分布:主要為短期、高頻天氣事件,常見有雷暴風、閃電洪水和冰雹,短期事件(少于六小時)占主導,長時間事件較少,適合短期氣象擾動研究。
任務設計
時序預測任務
任務目標:基于歷史觀察預測未來時間序列值,結合文本新聞進行多模態信息整合。
領域:金融和天氣,需捕捉時間依賴性。
評估設置:金融長期預測基于30天歷史數據,天氣長期預測基于14天歷史數據。
評估指標:金融使用MAE和MAPE,天氣使用MSE和MAE。
語義趨勢分析
趨勢計算:金融時間序列通過最后與第一個數據點的百分比變化計算趨勢;天氣數據通過計算輸入天數的日均溫度斜率來確定趨勢,短期預測則比較最后輸入日與未來日的日均溫度差。
趨勢標簽分箱:為便于分類,計算的百分比變化被離散化為預定義的區間,金融數據有3-way和5-way分類,天氣數據僅有3-way分類。
評估指標:使用標簽分類準確率評估模型對趨勢標簽的正確分配能力。
技術指標預測
技術指標預測任務評估LLM在金融和天氣相關指標預測的能力。
金融數據指標:
- MACD:12日與26日指數移動平均的差值,識別動量變化和趨勢反轉。
- 布林帶上軌:上軌 = 簡單移動平均 + k · 標準差,評估波動性和超買情況。
天氣數據指標:
- 次日最高和最低溫度預測。
- 次日溫差預測。
任務為回歸任務,使用均方誤差(MSE)和平均絕對誤差(MAE)評估,幫助人們做出決策。
新聞驅動的問答
現有的多模態時間序列數據集忽視了推理密集型任務,如問答(QA),限制了評估LLM整合文本和時間序列數據的能力。提出了一個基于新聞的QA任務,包括兩個子任務:相關性預測和多項選擇QA。
相關性預測旨在評估LLM識別金融新聞情感與未來股價趨勢之間關系的能力,分為3類(正面、中性、負面)和5類(強正面、適度正面、無關系、適度負面、強負面)。真實標簽通過GPT-4o生成,確保與實際市場波動一致,挑戰LLM整合文本情感與數值時間序列數據的理解。許多股票-新聞對表現出負相關性,給LLM帶來挑戰。
多項選擇QA評估LLM在多模態文本分析和時間序列理解上的能力。通過生成正確和錯誤的陳述,基于股票價格時間序列和相關新聞。正確陳述基于新聞內容、時間序列趨勢或有效因果關系。錯誤陳述源于虛假聲明、誤解事件或因果推理錯誤。任務挑戰模型理解文本和數值數據的語義及其因果關系。
實驗
實驗設置
評估任務使用的模型包括GPT-4o、Claude-Sonnet-3.5-20241022、Gemini-2.0-Flash、LLaMA 3.1-8B和DeepSeek-Chat,特定金融任務還使用OpenAIo1。
模型在時間序列和時間序列+文本設置下進行評估,除了新聞驅動的問答任務。
金融數據集模型溫度設置:所有任務0.7,天氣回歸任務0.5,天氣分類任務0.2。
實驗結果
時間序列預測在短期(如7天輸入,1天輸出)表現優于長期預測,因捕捉復雜時間依賴性更具挑戰。融入文本信息顯著提升預測準確性:股票預測平均提高9.78%,溫度預測提高6.63%。
股票預測中,文本信息的優勢更明顯,因市場受金融新聞影響較大;而溫度預測受物理規律影響較穩定。DeepSeek模型在長期溫度預測中,文本整合反而降低準確性,可能存在模態干擾。LLM在生成特定長度輸出時常出現不一致,尤其在長期設置中,需進一步優化模型訓練以滿足輸出要求。
股票趨勢預測:LLMs在短期(7天)和長期(30天)股票價格趨勢預測中表現不同,短期預測更具挑戰性。使用Chain-of-Thought(CoT)提示技術提高了預測的可靠性。文本數據的引入通常提升了預測準確性,但在過去趨勢分類中有時會降低性能。
技術指標計算:在預測MACD和布林帶上限時,文本數據的加入顯著提高了預測準確性。OpenAI-o1在大多數任務中表現最佳,MACD對文本輸入的依賴性較低。
溫度差異預測:結合文本數據的溫度預測表現更佳,但溫度差異預測最具挑戰性,誤差較高。整體趨勢顯示多模態學習在時間序列預測中的重要性。
短期與長期預測:LLMs在30天預測中表現優于7天,表明短期市場波動更難預測。短期多項選擇問答(MCQA)相對簡單,模型在處理長期推理時面臨更多復雜性。
模型偏差:在5類分類設置中,LLMs傾向于將新聞與股票價格運動的關系分類為中等正相關,顯示出對相關性動態的捕捉能力不足,難以分析負相關或弱相關。
總結和未來工作
MTBench是一個評估LLM在多模態時間序列和文本數據推理能力的基準,強調文本敘述與數值趨勢的語義和時間對齊。評估結果顯示,LLM在某些方面表現良好,但在復雜的時間推理、因果推斷和跨模態綜合方面存在困難。MTBench主要關注金融和天氣數據,未來可擴展至醫療和社會科學等領域。研究評估了現成的LLM,未來研究可探索微調策略和架構改進以提升時間推理能力。
本文轉載自??靈度智能??,作者:靈度智能
