一區直接寫!CEEMDAN分解 + Informer-LSTM +XGBoost組合預測模型
前言
本期我們推出創新性預測模型:CEEMDAN分解+Informer-LSTM+XGBoost組合預測模型。通過CEEMDAN自適應信號分解將原始序列解耦為多頻分量,構建高頻-低頻兩級預測通道:
- 高頻分量由于其復雜性,采用參數豐富的 Informer-LSTM 并行模型,這種結合了注意力機制和長短期記憶網絡的模型能更好地捕獲長程依賴和復雜動態變化;
- 低頻分量則使用 XGBoost,這是一種高效的梯度提升決策樹模型,能夠快速處理簡單且低頻的特征,避免過擬合。
各模型分別對其對應的分量進行預測,生成每個 IMFs 的預測值;然后將所有預測的 IMFs 重新組合,構建出完整的預測信號。通過合理分配復雜模型和簡單模型的任務,我們能夠在不同頻率特征的信號上實現最佳的預測性能。
1 創新模型簡介
1.1 模型評估:
1.2 預測可視化:
2 模型創新點介紹
2.1 分解-組合預測策略
使用復雜模型去預測數據的分量特征,因為復雜模型參數量大,適合預測高頻復雜分量特征,但是低頻分量特征比較簡單,要是還用復雜模型的話,就容易過擬合,反而效果不好,所以對于低頻分量特征 我們采用簡單模型(或者機器學習模型)去預測,然后進行預測分量的重構以實現高精度預測。
2.2 數據預處理與分解
原始時間序列數據被輸入到 CEEMDAN 算法中進行分解。CEEMDAN 是一種改進的集合經驗模態分解方法,能夠有效地將信號分解為若干固有模態函數(IMFs),這些 IMFs 各自代表不同頻率的信號成分。
樣本熵是一種用于衡量序列復雜度的方法,可以通過計算序列中的不確定性來評估其復雜性。樣本熵越高,表示序列的復雜度越大。依據每個分量的頻率特性和復雜程度,將其分類為高頻復雜分量和低頻簡單分量
2.3 高頻復雜分量預測
- Informer:擅長處理長時間序列,能夠并行計算,提高了計算效率和預測性能。Informer在Transformer的基礎上進行了改進,使其更適合時序數據,特別是具有長時間依賴的序列數據。
- LSTM:在捕捉序列數據的短期和長期依賴性方面表現出色,能夠很好地處理序列數據中的時序關系。
通過將這兩種模型并行使用,可以更好地捕捉不同時間尺度上的模式,提高預測的準確性和魯棒性。
2.4 低頻復雜分量預測
利用 XGBoost 進行建模。XGBoost 以其快速的訓練速度和強大的泛化能力,能夠在低頻特征上提供穩定的預測性能。
2.5 預測結果重構與評估:
將所有預測的 IMFs 重新組合,構建出完整的預測信號。這個過程確保了各個分量的預測結果被整合為一個整體,保持了原始信號的結構和特征。對組合后的預測結果進行驗證,通過與真實數據的比較,評估模型的預測精度,并根據反饋進行優化調整。
3 數據CEEMDAN分解與可視化
3.1 導入數據
3.2 CEEMDAN分解
根據分解結果看,CEEMDAN一共分解出11個分量,然后通過計算每個分量的樣本熵值進行分析。樣本熵是一種用于衡量序列復雜度的方法,可以通過計算序列中的不確定性來評估其復雜性。樣本熵越高,表示序列的復雜度越大。
我們把前6個高樣本熵值復雜分量作為Informer-LSTM并行模型的輸入進行預測,后5個低樣本熵值簡單分量作為XGBoost模型的輸入進行預測.
3.3 數據集制作與預處理
詳細介紹見提供的文檔!
4 基于CEEMDAN分解 + Informer-LSTM + XGBoost的組合預測模型
4.1 定義Informer-LSTM并行預測網絡模型
4.2 設置參數,訓練模型
50個epoch,MSE 為0.000879, Informer-LSTM并行預測效果顯著,模型能夠充分利用Informer的長時間依賴建模能力和LSTM的短期依賴捕捉能力征,收斂速度快,性能優越,預測精度高,適當調整模型參數,還可以進一步提高模型預測表現。
4.3 基于XGBoost的模型預測
數據加載,訓練數據、測試數據分組,5個分量,劃分5個數據集
保存預測的數據,其他分量預測與上述過程一致,保留最后模型結果即可。
5 結果可視化和模型評估
5.1 分量預測結果可視化
5.2 組合預測結果可視化
5.3 模型評估
由分量預測結果可見,前6個復雜分量在Informer-LSTM并行預測模型下擬合效果良好,后5個簡單分量在XGBoost模型的預測下,擬合程度特別好,組合預測效果顯著!
模型評估.png
本文轉載自????建模先鋒????,作者:小蝸愛建模
