成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

統計學入門:時間序列分析基礎知識詳解

開發 前端
時間序列分析中包含了許多復雜的數學公式,它們往往難以留存于記憶之中。為了更好地掌握這些內容,本文將整理并總結時間序列分析中的一些核心概念,如自協方差、自相關和平穩性等,并通過Python實現和圖形化展示這些概念,使其更加直觀易懂。希望通過這篇文章幫助大家更清楚地理解時間序列分析的基礎框架和關鍵點。

時間序列分析中包含了許多復雜的數學公式,它們往往難以留存于記憶之中。為了更好地掌握這些內容,本文將整理并總結時間序列分析中的一些核心概念,如自協方差、自相關和平穩性等,并通過Python實現和圖形化展示這些概念,使其更加直觀易懂。希望通過這篇文章幫助大家更清楚地理解時間序列分析的基礎框架和關鍵點。

1.什么是時間序列?-自協方差、自相關和平穩性

時間序列與時間有關,隨著時間的推移觀察到的數據稱為時間序列數據:例如,心率監測,每日最高溫度等。雖然這些例子是有規律的間隔觀察到的,但也有不規則間隔觀察到的時間序列數據,如盤中股票交易、臨床試驗等。我們將使用定期觀察跨度的時間序列數據,并且只有一個變量(單變量時間序列)。從數學上我們可以這樣定義時間序列:

如果我們把X _l看作一個隨機變量,可以定義一個依賴于觀測時間t的均值和方差。

對于時間序列數據,可能想要比較過去和當前的數據。所以就引出了兩個基本概念,自協方差和自相關

自協方差

從技術上講,自協方差和協方差是一樣的。協方差有如下公式:

協方差計算兩個變量X和y之間的關系。在計算樣本協方差時,我們將每個觀測值與平均值之間的差除以n-1,類似于樣本方差。對于自協方差則計算前一個觀測值與當前觀測值之間的樣本協方差。公式如下:

這里的h被稱為滯后。滯后的X是前一個X值偏移了h位置。所以公式與協方差相同。

自相關

自相關也和相關一樣,相關關系有如下公式。

相關性將協方差除以變量X和y的標準差,我們可以認為相關性類似于標準化協方差除以標準差。對于自相關,計算以前和當前觀測值之間的相關性。h在公式中也表示滯后性。

當協方差和相關取較大的正值時,X和Y兩個變量呈正相關關系。那么自協方差和自相關呢?我們來看看可視化。

對于第一個示例,從AR(1)流程生成數據(稍后我們將看到它)。它看起來像嘈雜的數據。

在這種情況下,自協方差和自相關圖如下圖所示。x軸表示滯后。

可以看到自協方差和自相關有相似的趨勢。因此可以想象自相關可以被認為是標準化的自協方差。

對于下面的示例將使用真實世界的數據,例如AirPassengers[4]。airpassenger數據有明顯的上升趨勢。

自協方差和自相關圖如下圖所示。x軸表示滯后。

自協方差和自相關也有類似的趨勢。這個數據比第一個例子有更多的相關性和更大的滯后。

我們了解了兩個關鍵概念,自協方差和自相關。接下來,我們討論一個叫做平穩性的新概念。平穩時間序列意味著數據屬性,如均值、方差和協方差,不依賴于觀測時間。平穩性有兩種類型:

弱平穩(二階平穩)

該過程具有以下關系,稱為弱平穩性,二階平穩性或協方差平穩性。(有很多稱呼它的方式。)

其中μ是常數,且 ??? 不依賴于??。這些公式表明,隨著時間的推移,均值和方差是穩定的,協方差取決于時滯。例如,上一段中的第一個例子具有弱平穩性。

嚴格平穩性(強平穩性)

令Fx(?)表示聯合密度函數時,嚴格平穩性描述為:

如果所有時間序列數據的聯合分布不隨時間的變化而變化,則該時間序列具有嚴格的平穩性。嚴格平穩意味著弱平穩。這個性質在現實世界中是非常受限的。因此許多應用程序依賴于弱平穩性。

有一些統計檢驗來檢驗時間序列數據是否平穩,我們后面進行介紹

2.時間序列過程

我們將介紹代表性的時間序列過程,如白噪聲、自回歸(AR)、移動平均(MA)、ARMA和ARIMA過程。

白噪聲

當我們擁有具有以下屬性的時間序列數據時,該時間序列數據具有白噪聲。

白噪聲的均值為零,其方差在時間步長上是相同的。它具有零協方差,這意味著時間序列與其滯后版本是不相關的。所以自相關也是零。一般用于時間序列回歸分析中殘差項滿足的假設。白噪聲圖如下圖所示。

我們可以很容易地從標準正態分布中抽樣產生白噪聲序列。正如你所看到的,除了滯后0之外,似乎沒有任何相關性,隨著時間的推移,方差似乎幾乎相同,平均值似乎為零。

自回歸(AR)的過程

一些時間序列數據的值與前面步驟的值相似。在這種情況下,自回歸(AR)過程可以很好地解釋數據。AR過程有一個表示序列中先前值的數量的順序,該順序用于預測當前值。我們用AR(order)表示。下式表示AR(1)過程。

U?假定為白噪聲,??來說是一個未知參數對應于一步前一個值。它也被稱為shock。當我們沿著前面的步驟解(1)式時,可以得到下面的公式。

由上式可知,????僅影響Y系列。由此,可以認識到以下幾點:

如果| ??? | < 1,則過去值的影響隨著步驟的增加而變小。

如果| ???| = 1,無論滯后與否,過去值的影響是恒定的。

如果| ???| > 1,則隨著步驟的推移,過去值的影響會影響當前值。

讓我們看看每種情況的可視化。

隨著???值變大,當前一級跟隨前一級的值隨著值的增加,它看起來更平滑,直到??? = 1。當???值大于1時,這些值會像無窮大一樣增加,所以序列看起來像最終的結果。

注意:| ??? | < 1的情況有弱平穩過程。當AR(1)過程滿足弱平穩性時,均值和協方差為:

對于平均值,我們使用隨時間變化的平均值作為常數。利用白噪聲的平均值為零的事實,可以推導出如下公式:

對于協方差,我們需要先改變公式(1)

然后,按這個順序推導方差和協方差。對于方差,可以通過對上述推導公式取平方來推導。

對于協方差,可以通過將前一步值減去平均值來推導。

圖片

可以類似地考慮AR(p)過程。

一般情況下,當滿足(5)(6)條件時,AR(p)過程是弱平穩的。

公式(5)和(6)意味著所有的根公式(5)必須在單位圓之外。盡管我們可以擴展p值,但在現實世界中先考慮幾個步驟就足夠了。

3.移動平均線(MA)過程

移動平均線(MA)過程由當前和以前的shock的總和組成。MA過程有一個表示先前殘差或shock(U?)的數量的順序。我們用MA(階)來表示。為簡單起見,我們介紹MA(1)流程。下式表示MA(1)過程。

假設U?為白噪聲,θ?為未知參數,對應前一步shock。MA(1)過程由白噪聲組成,其均值始終為μ。另一方面,方差和協方差可以推導為:

可以推導出方差如下:

同樣可以推導出協方差如下:

白噪聲假設每個變量是相互獨立的,所以可以消去它們。因此對于任意參數θ?,MA(1)過程都是弱平穩過程。現在用可視化的方法來驗證一下。

與AR(1)過程相比,均值和方差似乎保持不變。隨著參數值的增大,序列變得相對平滑。注意MA(1)過程和白噪聲方差不同。

一般來說,MA(q)過程也是弱平穩的。

均值和協方差可以表示為:

盡管我們可以擴展q值,但考慮現實世界中的前幾個步驟就足夠了。

4.自回歸移動平均(ARMA)過程和ARIMA過程

顧名思義,自回歸移動平均(ARMA)過程結合了AR和MA過程。直觀上,ARMA過程可以相互彌補缺點,在表示數據時獲得更大的靈活性。數學表示如下:

我們將ARMA過程記為ARMA(p, q),參數p和q對應于AR和MA過程的參數。由于MA過程總是具有弱平穩性,因此ARMA過程的弱平穩性取決于AR部分。所以式(14)的AR部分滿足式(5)(6),其平穩性較弱。

通過可視化來檢查它是如何看起來像ARMA過程的。AR(p=1,q=1)過程如下:

AR(p=3, q=2)過程如下圖所示。

可以看到它可以比單獨的AR和MA過程更好地掌握更復雜的數據結構。參數值越大,圖形越平滑。

最后自回歸積分移動平均(ARIMA)過程與ARMA過程有一些共同之處。不同之處在于ARIMA有一個積分部分(I),積分部分是指為了獲得平穩性需要對數據進行差分的次數。

首先,我們定義差分算子?:

當想要更多的差分時,可以通過迭代將其擴展到冪:

使用差分參數,可以將ARIMA(p, d, q)過程定義為:

p為AR過程的階數,d為待微分的次數,q為MA過程的階數。在對數據進行區分之后,ARIMA過程就變成了ARMA過程。當時間序列的平均值不同時,ARIMA過程是有用的,這意味著時間序列不是平穩的。我們這里使用的是AirPassengers數據集。因為不是所有序列的均值都相同,當我們對這個系列應用nabla時,圖形看起來如下所示:

與左圖的原始數據相比,右圖的平均值在時間序列中似乎是穩定的。

還有最后一個問題,我們想要在微分后擬合ARMA過程,如何定義參數?

有一些方法來確定它們如下。

用自相關函數(ACF)圖確定MA過程的階數(q),用部分自相關函數(PACF)圖確定AR過程的階數(p),或使用AIC或BIC來確定最佳擬合參數。

第一種方法,我們使用ACF和PACF圖來確定MA和AR過程的順序。PACF也是自相關的,但是在0 < n < k的范圍內,消除了滯后n的Y′′和Y′′+?之間的間接相關關系。我們有時不能僅用圖來確定參數,所以使用第二種方法。AIC和BIC是用來估計相對于其他模型的模型質量的信息標準。借助庫pmdarima[7],可以很容易地根據上述信息標準找到最佳參數。例如,當使用pmdarima來估計AirPassengers數據時,結果將如下所示。

# fit stepwise auto-ARIMA
 arima = pm.auto_arima(y_train, start_p=1, start_q=1,
                              max_p=3, max_q=3, # m=12,
                              seasnotallow=False,
                              d=d, trace=True,
                              error_actinotallow='ignore', # don't want to know if an order does not work
                              suppress_warnings=True, # don't want convergence warnings
                              stepwise=True) # set to stepwise
 arima.summary()

只需寫幾行代碼,就可以很好地擬合和預測數據。此外pmdarima可以使用更高級的模型(如SARIMA)來估計時間序列。所以pmdarima在實際用例中非常有用。

5.時間序列的統計檢驗

最后我門將介紹兩個著名的時間序列統計檢驗。這些檢驗通常用于檢查數據是否平穩或殘差項是否具有自相關。在深入每個測試之前,有一個重要的概念叫做單位根。如果時間序列有單位根,它就不是平穩的。如果AR(p)過程滿足式(5)= 1的至少一個根,這意味著AR(p)過程不是平穩的,所以可以說AR(p)過程具有單位根的。有幾個統計測試使用了這個概念。

增強Dickey-Fuller(ADF)檢驗

增強的Dickey-Fuller (ADF)檢驗評估在給定的單變量時間序列中是否存在單位根。

ADF檢驗采用由式(10)導出的下式。

然后,它設置以下零假設和備擇假設。

統計數據如下公式所示。

當時間序列平穩時,分子必須為負。有幾個庫允許我們計算ADF測試,因此不需要自己實現它們。下面的示例顯示了三個時間序列數據示例。左邊的是AR(1)過程,中間的是MA(1)過程,最后一個是AirPassenger數據集。圖標題顯示ADF檢驗的進程名和p值。

平穩數據(左和中)小于閾值的顯著性,因此我們可以拒絕零假設,這意味著數據是平穩的。非平穩數據(右)比閾值更大,所以我們不能拒絕零假設,這意味著數據不是平穩的。

Durbin-Watson檢驗

Durbin-Watson檢驗用于評價時間序列回歸模型中殘差項是否具有自相關性。當我們使用時間序列假設以下回歸模型時,我們可以使用最小二乘法估計參數。

如果U?不遵循白噪聲,模型質量就不好。可以考慮U?具有某種自相關或序列相關,我們應該將它們包含在我們的模型中。為了驗證這一點,我們可以使用Durbin-Watson測試。Durbin-Watson檢驗假設殘差項具有AR(1)模型。

然后設置以下零假設和備擇假設。

我們使用下面的統計。

這個公式可能不太直觀,所以我們把它改一下。我們假設T對于下面的關系足夠大。

我們將Durbin-Watson統計量變換為:

??表示一階自相關。當自相關趨近于0時,DW統計量趨近于2,這意味著時間序列中幾乎沒有自相關。如果時間序列中存在自相關,則DW統計量小于2。

讓我們使用在2.4節中創建的ARIMA模型檢查DW統計量。

from statsmodels.stats.stattools import durbin_watson
 
 arima = pm.arima.ARIMA(order=(2,1,2))
 arima.fit(y_train)
 
 dw = durbin_watson(arima.resid())
 print('DW statistic: ', dw)
 # DW statistic: 1.6882339836228373

DW統計量小于2,因此仍然存在自相關或序列相關。下面的殘差圖顯示殘差仍然有一定的相關性。

在這種情況下,我們需要使用更高級的模型來正確擬合數據。例如SARIMA,循環神經網絡,prophets等。

責任編輯:華軒 來源: DeepHub IMBA
相關推薦

2020-08-13 18:19:24

OpenSSL密碼學Linux

2015-06-01 13:35:43

數據中心DCIM

2009-04-17 14:22:40

XPathXML基礎

2009-09-14 14:49:12

LINQ查詢基礎知識

2025-06-16 15:27:51

統計學空難事件計算

2015-10-22 10:54:24

小數據統計

2015-10-29 09:56:23

小數據大數據統計學

2010-01-11 09:47:57

程控交換機

2009-10-20 17:39:57

服務器基礎知識

2010-07-30 16:38:10

路由器網絡

2009-10-20 09:26:53

綜合布線系統

2010-08-06 08:49:00

2010-11-15 10:02:31

UPS電源技術

2017-07-25 16:35:12

LSTM深度學習自然語言

2012-05-25 13:12:57

TitaniumMobile WebHTML5

2009-09-09 16:21:13

.NET序列化基礎知識

2019-10-08 16:35:53

Java網絡爬蟲webmagic

2019-07-03 15:21:47

數據科學統計數據數據結構

2023-05-12 09:40:53

ContextGolang

2015-07-29 11:27:28

大數據時代數據分析統計學
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 精品视频99| 日韩一区二区免费视频 | 欧美久久一级 | 国产成人一区二区三区精 | 中文字幕乱码一区二区三区 | 国产精品成人一区二区三区 | 精品久久影院 | 午夜丰满寂寞少妇精品 | 黑人巨大精品欧美一区二区免费 | 北条麻妃99精品青青久久主播 | 亚洲电影一区二区三区 | 一区二区三区韩国 | 久久高清| 久久天堂 | 亚洲www.| 亚洲精品免费在线 | 国产精品 欧美精品 | 国产www在线 | 色欧美综合| 国产成人精品久久二区二区91 | 欧美精品在线一区 | 久久精品国产99国产精品 | 91在线看片 | 久久久久国产 | 亚洲午夜三级 | 视频一区二区三区四区五区 | www.天天操 | 成人黄页在线观看 | 国产日韩欧美在线观看 | 亚洲男人天堂av | 久久极品 | 亚洲 中文 欧美 日韩 在线观看 | 精品综合视频 | 黄色网址在线播放 | 亚洲成人一区二区 | 欧美精品在欧美一区二区少妇 | 免费色网址 | 精品一区二区三区四区 | 欧美无乱码久久久免费午夜一区 | 黄a在线播放| www.亚洲精品|