成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

計算時間序列周期的三種方法

開發 前端
周期是數據中出現重復模式所需的時間長度。更具體地說,它是模式的一個完整周期的持續時間。在這篇文章中,將介紹計算時間序列周期的三種不同方法。

周期是數據中出現重復模式所需的時間長度。更具體地說,它是模式的一個完整周期的持續時間。在這篇文章中,將介紹計算時間序列周期的三種不同方法。

圖片

我們使用City of Ottawa 數據集,主要關注的是每天的服務呼叫數量。所以不需要對病房名稱進行初始數據處理。Ottawa 數據集在渥太華市提供的數據門戶網站上免費提供。

讓我們加載2019-2022年的這些數據,并將它們連接起來得到一個df。

from google.colab import drive
drive.mount('/content/gdrive')
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

file_path = '/content/gdrive/My Drive/Colab Notebooks/Data/SR-2019.xlsx'
records2019 = pd.read_excel(file_path)#,encoding='utf16')

file_path = '/content/gdrive/My Drive/Colab Notebooks/Data/SR-2020.xlsx'
records2020 = pd.read_excel(file_path)#,encoding='utf16')

file_path = '/content/gdrive/My Drive/Colab Notebooks/Data/2021_Monthly_Service_Requests_EN.xlsx'
records2021 = pd.read_excel(file_path)#,encoding='utf16')

file_path = '/content/gdrive/My Drive/Colab Notebooks/Data/2022_Monthly_Service_Requests.csv'
records2022 =pd.read_csv(file_path)

records=pd.concat([records2019,records2020,records2021,records2022],axis=0)

讓我們根據服務調用日期聚合這些數據,并得到一個簡單的圖。

records["DATE_RAISED"]=pd.to_datetime(records.DATE_RAISED)
record_by_date=records.groupby("DATE_RAISED")["TYPE"].count().sort_index()
record_by_date.plot(figsize = (25, 10))
plt.ylabel('Number of requests')
plt.grid(visible=True,which='both')
plt.figure()

record_by_date.iloc[100:130].plot(figsize = (25, 10))
plt.ylabel('Number of requests')
plt.grid(visible=True,which='both')

圖片

填充缺失

讓我們檢查一下我們的數據是否包含了所有的日期。

start_date = record_by_date.index.min()
end_date = record_by_date.index.max()

# create a complete date range for the period of interest
date_range = pd.date_range(start=start_date, end=end_date, freq='D')

# compare the date range to the index of the time series
missing_dates = date_range[~date_range.isin(record_by_date.index)]

if len(missing_dates) > 0:
print("Missing dates:", missing_dates)
else:
print("No missing dates")

正如所預期的那樣,數據缺少一些日期的值。讓我們用相鄰日期的平均值填充這些值。

# Reindex to fill missing dates
idx = pd.date_range(start=record_by_date.index.min(), end=record_by_date.index.max(), freq='D')
record_by_date = record_by_date.reindex(idx, fill_value=0)

# Add missing dates with average of surrounding values
for date in missing_dates:
prev_date = date - pd.DateOffset(days=1)
next_date = date + pd.DateOffset(days=1)
prev_val = record_by_date.loc[prev_date] if prev_date in record_by_date.index else np.nan
next_val = record_by_date.loc[next_date] if next_date in record_by_date.index else np.nan
avg_val = np.nanmean([prev_val, next_val])
record_by_date.loc[date] = avg_val

這就是我們要做的所有預處理了,在所有這些步驟之后,我們嘗試檢測這個時間序列的周期。一般來說,基于假日模式和一般的人類習慣,我們希望在數據中看到七天的周期,我們來看看是不是有這樣的結果。

1、目測

最簡單的方法就是目測。這是一種主觀的方法,而不是一種正式的或統計的方法,所以我把它作為我們列表中的原始方法。

圖片

如果我們看一下這張圖的放大部分,我們可以看到7天的周期。最低值出現在5月14日、21日和28日。但最高點似乎不遵循這個模式。但在更大的范圍內,我們仍然可以說這個數據集的周期是7天。

下面我們來正式的進行分析:

2、自相關分析

我們將繪制時間序列的自相關值。查看acf圖中各種滯后值的峰值。與第一個顯著峰值對應的滯后可以給出周期的估計。

對于這種情況,我們看看50個滯后值,并使用statmodels包中的方法繪制acf。

from statsmodels.graphics.tsaplots import plot_acf

fig, ax = plt.subplots(figsize=(14,7))
plot_acf(record_by_date.values.squeeze(), lags=50,ax=ax,title='Autocorrelation', use_vlines=True);
lags = list(range(51))
ax.set_xticks(lags);
ax.set_xticklabels(lags);

圖片

從上圖可以看出,在7、1、21等處有峰值。這證實了我們的時間序列有7天的周期。

3、快速傅里葉變換

對時間序列進行傅里葉變換,尋找主頻分量。主頻率的倒數可以作為周期的估計值。

傅里葉變換是一種數學運算,它把一個復雜的信號分解成一組更簡單的正弦和余弦波。傅里葉變換廣泛應用于信號處理、通信、圖像處理以及其他許多科學和工程領域。它允許我們在頻域中分析和操作信號,這通常是一種比在時域中更自然和直觀的理解和處理信號的方法。

from scipy.fft import fft

# Calculate the Fourier transform
yf = np.fft.fft(record_by_date)
xf = np.linspace(0.0, 1.0/(2.0), len(record_by_date)//2)

# Find the dominant frequency
# We have to drop the first element of the fft as it corresponds to the
# DC component or the average value of the signal
idx = np.argmax(np.abs(yf[1:len(record_by_date)//2]))
freq = xf[idx]

period =(1/freq)
print(f"The period of the time series is {period}")

輸出為:The period of the time series is 7.030927835051545。這與我們使用acf和目視檢查發現的每周周期相似。

4、周期圖

周期圖 Periodogram 是一個信號或序列的功率譜密度(PSD)圖。換句話說它是一個顯示信號中每個頻率包含多少總功率的圖表。周期圖是通過計算信號的傅里葉變換的幅值平方得到的,常用于信號處理和頻譜分析。在某種意義上,只是前面給出的基于fft的方法的擴展。

from scipy.signal import periodogram

freq, power = periodogram(record_by_date)
period = 1/freq[np.argmax(power)]
print(f"The period of the time series is {period}")

plt.plot(freq, power)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Power spectral density')
plt.show()

圖片

周期圖可以清楚地看出,信號的最高功率在0.14,對應于7天的周期。

總結

本文,我們介紹了尋找時間序列周期的三種不同方法,通過使用這三種方法,我們能夠識別信號的周期性,并使用常識進行確認。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2009-07-08 12:56:32

編寫Servlet

2023-09-15 16:25:50

2011-06-10 10:43:12

Ubuntu應用安裝

2009-06-23 10:45:18

Hibernate支持

2009-07-30 16:27:33

C#比較時間

2010-09-14 15:10:49

CSS注釋

2022-07-13 16:06:16

Python參數代碼

2011-04-18 15:32:45

游戲測試測試方法軟件測試

2009-12-11 18:49:39

預算編制博科資訊

2024-11-15 07:00:00

Python發送郵件

2023-08-14 17:58:13

RequestHTTP請求

2010-09-08 13:29:48

CSS

2010-11-16 16:11:28

Oracle身份驗證

2016-10-12 13:53:38

JavaByteBufferRandomAcces

2020-06-17 10:52:00

DDoS攻擊網絡攻擊網絡安全

2013-01-04 15:47:54

Android開發平鋪UI設計

2021-09-10 18:09:42

SQL注入漏洞網絡攻擊

2021-07-13 12:31:27

IT組織改進首席技術官

2023-05-16 16:07:07

大數據數據管理工具

2023-09-25 15:08:43

Python方離群值
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区视频在线 | 亚洲欧洲色视频 | 日韩黄 | 91视频中文 | 91精品综合久久久久久五月天 | 一区二区国产在线 | 成人不卡| 天堂网中文字幕在线观看 | 日韩欧美在线一区 | 亚洲欧美日韩精品久久亚洲区 | 国产免费观看久久黄av片涩av | 黄色一级电影在线观看 | 欧美日韩不卡合集视频 | 日韩在线中文字幕 | 尤物在线精品视频 | 日本一区二区不卡 | 亚洲在线免费观看 | 免费在线观看一区二区三区 | 国产亚洲精品精品国产亚洲综合 | 美女久久视频 | 一级片网址 | 精品欧美一区二区中文字幕视频 | 日韩中文字幕视频 | 欧美一区二区三区视频 | 久久国内精品 | 在线一级片 | 精品一区二区久久久久久久网站 | 一区二区三区高清 | 色综合99| 欧美成人手机视频 | 超碰成人免费 | 天天成人综合网 | 天天干天天色 | 国产欧美日韩在线 | 国产成人免费视频 | 手机看片在线播放 | 国产一区二区三区免费 | 黄色片免费看视频 | 日本不卡免费新一二三区 | 三级国产三级在线 | 亚洲狠狠 |