成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用Python分析時序數據集中的缺失數據

開發 前端
在本教程中,已經了解到理解時間序列中缺失數據模式的重要性,以及有效的分析方法如何揭示缺失信息的奧秘。無論是電信、醫療、能源還是金融等所有收集時間序列數據的行業,都會在某個時候面臨缺失數據的問題,并需要決定處理和從中提取所有可能知識的最佳方法。

簡介

時間序列數據幾乎每秒都會從多種來源收集,因此經常會出現一些數據質量問題,其中之一是缺失數據。

在序列數據的背景下,缺失信息可能由多種原因引起,包括采集系統的錯誤(例如傳感器故障)、傳輸過程中的錯誤(例如網絡連接的故障)或者數據收集過程中的錯誤(例如數據記錄過程中的人為錯誤)。這些情況經常會在數據集中產生零散和明確的缺失值,對應于采集數據流中的小缺口。

此外,缺失信息也可能由于領域本身的特性而自然產生,從而在數據中形成較大的缺口。例如,某個特征在一段時間內停止采集,從而產生非顯性的缺失數據。

無論底層原因如何,時間序列中存在缺失數據會對預測和預測模型產生嚴重的不利影響,并且可能對個人(例如誤導的風險評估)和業務結果(例如偏差的業務決策、收入和機會的損失)造成嚴重后果。

因此,在為建模方法準備數據時,一個重要的步驟是能夠識別這些未知信息的模式,因為它們將幫助我們決定處理數據的最佳方法,以提高數據的一致性和效率,可以通過某種形式的對齊校正、數據插值、數據填補,或者在某些情況下,進行逐案刪除(即,在特定分析中對具有缺失值的特征省略案例)。

因此,進行全面的探索性數據分析和數據剖析是不可或缺的,這不僅有助于理解數據特征,還能就如何為分析準備最佳數據做出明智決策。

在這個實踐教程中,我們將探索如何使用新版本ydata-profiling最近推出的功能來解決這些相關問題。本文將使用Kaggle上提供的美國污染數據集(許可證DbCL v1.0),該數據集詳細記錄了美國各州的NO2、O3、SO2和CO污染物的信息。

【ydata-profiling】:https://github.com/ydataai/ydata-profiling

【Kaggle上提供的美國污染數據集】:https://www.kaggle.com/datasets/sogun3/uspollution?resource=download

實踐教程:對美國污染數據集進行剖析

為了開始我們的教程,首先需要安裝最新版本的ydata-profiling:

pip install ydata-profiling==4.5.1

然后就可以加載數據,刪除不必要的特征,并專注于我們要研究的內容。為了本例的目的,我們將重點研究亞利桑那州馬里科帕縣斯科茨代爾站測量的空氣污染物的特定行為:

import pandas as pd
 
data = pd.read_csv("data/pollution_us_2000_2016.csv")
data = data.drop('Unnamed: 0', axis = 1) # 刪除不必要的索引
 
# 從亞利桑那州,馬里科帕縣,斯科茨代爾站(站點編號:3003)選擇數據
data_scottsdale = data[data['Site Num'] == 3003].reset_index(drop=True)

現在,準備開始對數據集進行剖析!請記住,在使用時間序列剖析時,我們需要傳遞參數tsmode=True,以便ydata-profiling可以識別與時間相關的特征:

# 將'Date Local'改為日期時間格式
data_scottsdale['Date Local'] = pd.to_datetime(data_scottsdale['Date Local'])
 
# 創建概述報告
profile_scottsdale = ProfileReport(data_scottsdale, tsmode=True, sortby="Date Local")
profile_scottsdale.to_file('profile_scottsdale.html')

時間序列概述

輸出報告將與我們已經知道的內容一樣熟悉,但在體驗上有所改進,并新增了時間序列數據的匯總統計:

圖片圖片

從概述中可以通過查看所提供的匯總統計數據,從而對該數據集有一個整體的了解:

  • 它包含14個不同的時間序列,每個時間序列有8674個記錄值;
  • 該數據集報告了2000年1月至2010年12月的10年數據;
  • 時間序列的平均時間間隔為11小時零7分鐘左右。這意味著平均而言每11小時就進行一次測量。

還可以獲取數據中所有序列的概覽圖,可以選擇以原始值或縮放值顯示:可以很容易地把握序列的總體變化情況,以及正在測量的組分(二氧化氮、臭氧、二氧化硫、一氧化碳)和特征(平均值、第一最大值、第一最大小時、空氣質量指數)。

檢查缺失數據

在對數據有一個總體了解之后,我們可以關注每個時間序列的具體情況。

在最新版本的ydata-profiling中,分析報告在針對時間序列數據方面進行了大幅改進,即針對“時間序列”和“間隙分析”指標進行報告。這些新功能極大地方便了趨勢和缺失模式的識別,現在還提供了具體的匯總統計數據和詳細的可視化。

所有時間序列都會呈現不穩定模式,其中在連續測量之間似乎存在某種“跳躍”。這表明存在缺失數據(缺失信息的“間隙”),應該對其進行更仔細的研究。本文以S02 Mean為例來看一下。

圖片圖片

圖片圖片

在研究間隙分析所提供的細節時,可以獲得對于已識別間隙特征的信息描述。總體而言,時間序列中有25個間隙,最短間隔為4天,最長為32周,平均為10周。

從所呈現的可視化效果中,可以注意到較為“隨機”的細條紋代表的是較小的間隙,而較大的間隙似乎遵循著一種重復的模式。這表明我們的數據集中存在兩種不同的缺失數據模式。

較小的間隙對應于產生缺失數據的零星事件,很可能是由于采集過程中的錯誤而發生的,通??梢院苋菀椎貙祿M行插值或從數據集中刪除。反之,較大的間隙則更為復雜,需要進行更詳細的分析,因為它們可能揭示了需要更徹底解決的潛在模式。

在本文的例子中,如果我們調查較大的間隙,實際上會發現它們反映了一個季節性模式:

df = data_scottsdale.copy()
for year in df["Date Local"].dt.year.unique():
    for month in range(1,13):
        if ((df["Date Local"].dt.year == year) & (df["Date Local"].dt.month ==month)).sum() == 0:
            print(f'Year {year} is missing month {month}.')
# Year 2000 is missing month 4.
# Year 2000 is missing month 5.
# Year 2000 is missing month 6.
# Year 2000 is missing month 7.
# Year 2000 is missing month 8.
# (...)
# Year 2007 is missing month 5.
# Year 2007 is missing month 6.
# Year 2007 is missing month 7.
# Year 2007 is missing month 8.
# (...)
# Year 2010 is missing month 5.
# Year 2010 is missing month 6.
# Year 2010 is missing month 7.
# Year 2010 is missing month 8.

正如我們所猜測的那樣,時間序列中呈現出一些較大的信息間隙,它們似乎具有重復性,甚至是季節性的:在大多數年份中,從5月到8月(第5至8個月)之間未收集數據。出現這種情況可能是由于不可預測的原因,或者與業務決策有關,例如與削減成本有關的決定,或者僅僅是與天氣模式、溫度、濕度和大氣條件相關的污染物的季節性變化有關。

根據這些發現,我們可以進一步調查為什么會發生這種情況,是否應該采取措施防止今后出現這種情況,以及如何處理我們目前擁有的數據。

最后的思考:填補、刪除、重新對齊?

在本教程中,已經了解到理解時間序列中缺失數據模式的重要性,以及有效的分析方法如何揭示缺失信息的奧秘。無論是電信、醫療、能源還是金融等所有收集時間序列數據的行業,都會在某個時候面臨缺失數據的問題,并需要決定處理和從中提取所有可能知識的最佳方法。

通過全面的數據分析,我們可以根據手里擁有的數據特征做出明智而高效的決策:

  • 信息間隙可能是由于采集、傳輸和收集過程中的零星事件導致的。我們可以通過修復問題以防止其再次發生,并根據間隙的長度進行插值或填補缺失數據。
  • 信息間隙也可能表示季節性或重復性模式。我們可以選擇重構我們的流程,開始收集缺失的信息,或者用來自其他分布式系統的外部信息替代缺失的間隙。我們還可以確定檢索過程是否失?。ㄒ苍S是在數據工程方面輸入錯誤的查詢)。

希望本教程能夠幫助你正確識別和描述時間序列數據中的缺失數據,期待你在間隙分析中的發現!

責任編輯:武曉燕 來源: Python學研大本營
相關推薦

2022-07-11 10:45:12

數據庫分析

2022-07-11 11:12:32

數據分析

2017-11-20 11:37:19

時序數據數據存儲HBase

2022-07-06 15:41:55

數據庫

2021-09-26 10:08:33

TSDB時序數據庫壓縮解壓

2021-03-08 10:18:55

數據庫數據Prometheus

2021-03-15 10:10:29

數據庫數據查詢

2022-09-23 07:44:48

時序數據庫物聯網

2020-03-11 09:50:21

時序數據庫快速檢索

2022-12-18 19:38:31

時序數據庫數據庫

2023-06-01 15:48:40

GMM算法

2021-02-22 10:37:47

存儲Prometheus

2021-08-31 14:01:59

時序數據庫數據庫數據

2021-03-01 10:20:52

存儲

2022-07-07 12:23:29

數據庫

2024-01-03 14:44:00

2020-10-25 11:33:57

PythonKNN算法

2022-06-10 17:37:37

數據庫

2022-07-07 12:37:27

數據

2018-05-28 11:03:22

交叉驗證時序數據數據集
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品夜间视频香蕉 | 亚洲1区 | 国产精品特级片 | 天天干天天草 | 欧美一区二区视频 | 日本不卡一区二区 | 日韩一区中文字幕 | 91精品国产91久久久久久最新 | 免费观看www7722午夜电影 | 激情久久av一区av二区av三区 | 91高清视频在线观看 | 成人免费一区二区三区视频网站 | 日本色婷婷 | 成人在线视频网 | 精品久久久久久红码专区 | 久久国产精品一区 | 视频一区在线 | 在线观看中文字幕av | 精品久久久久久久久久久久 | 亚洲精品视频播放 | 午夜精品久久久久久久久久久久久 | 玖玖国产精品视频 | 国产日韩一区二区三区 | 午夜精品久久久久久久久久久久 | 四虎成人av | 国产精品综合色区在线观看 | 久久久久国产 | 国产成人在线视频播放 | 国产精品视频一区二区三区 | 亚洲欧美激情精品一区二区 | 国产区精品 | 免费观看黄色一级片 | 国产一区二区在线免费视频 | 天天拍天天操 | 亚洲男人的天堂网站 | 二区亚洲 | 精品综合视频 | 久久精品黄色 | 日韩av资源站 | 在线播放国产一区二区三区 | 在线视频一区二区 |