KDD'25|適用于時間序列的頻域數據增強方法,顯著提升表示學習效果
今天給大家介紹的這篇文章來自KDD 2025,提出了一種適用于時間序列的數據增強方法,核心思路是在頻域進行重要成分的保留和非重要成分的變換,使得增強后的數據既能保證和原始數據語義相同,又能提升數據的多樣性。
論文標題:FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification
下載地址:??https://arxiv.org/pdf/2505.23181v1??
1.研究背景
數據增強是深度學習中常用的一種方法,特別是在對比學習等表示學習方法中,數據增強更是必不可少的一環。對于原始數據,通過數據增強生成變體數據作為正樣本,隨機負采樣作為負樣本,讓模型拉近正樣本對之間的距離,推遠負樣本對之間的距離,是表示學習的核心。因此,數據增強對于表示學習的效果至關重要。
在時間序列領域,目前使用的數據增強方法,大多數還來自于圖像領域。例如對時間序列進行縮放、增加趨勢項、增加噪聲等。然而,這些方法是否真的適用于時間序列領域呢?文中通過計算原始序列和其類別標簽之間的互信息如下圖,可以發現,大部分數據增強方法都會降低互信息,表明這些數據增強方法對原始數據的語義改變很大。
為了解決上述問題,本文提出了一種更適用于時間序列的數據增強方法。相比原來方法在時域進行數據增強,本文在頻域進行數據增強,充分利用頻域中的獨立性(每個成分語義獨立)、全局性(頻域表示描述時間序列全局信息)。
2.建模方法
數據增強生成的數據,保持和原始數據相同語義,且具有多樣性,是生成質量好壞的兩個核心點。針對該需求,文中提出在頻域進行數據增強。一方面,頻域表示下,各個主成分是相對獨立的,可以比較清晰的判斷各個成分對語義的貢獻;另一方面,頻域信息描述的是序列的全局信息,不像時域每個片段描述的是局部信息。
具體來說,文中的數據增強方法可以表示成如下公式,xf對應時間序列映射到頻域的頻域表示,兩個w對應兩組參數。第一組參數的作用是篩選對語義影響大的關鍵頻域成分,第二組參數的作用是對影響不大的頻域成分進行變換。
在具體實現上,首先使用一個輕量級的網絡生成一個向量,向量每個值對應每個頻域成分的重要度。兩組w參數都基于這個向量生成。第一組參數使用gumble softmax進行建模,生成一組接近1和0的數值,用來篩選各個頻域成分中的重要部分。第二組參數先使用重要度分劃定閾值篩選出不重要的頻域成分,再使用一個縮放因子,對不重要的頻域成分進行變換,進而實現對原始數據的數據增強,生成多樣性數據。
在訓練方法上,主要采用對比學習的方式訓練上述輕量級網絡。對于原始數據,以及經過上述方式生成的數據,視為正樣本對,拉近二者距離,推遠其他負樣本距離。此外,引入了一個正則化loss,約束重要度高的頻域不能太多。
訓練好的數據增強網絡,可以靈活的用于各類時間序列分類方法中,用于數據。
3.實驗效果
整體的實驗結果如下表,本文提出的數據增強方法可以大幅提升各個數據集上時間序列分類的效果。
對于各個模塊和超參數,文中也進行了相應的消融實驗。
本文轉載自?????圓圓的算法筆記?????,作者:Fareise
