成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Python Pandas數(shù)據(jù)預(yù)處理:你知道數(shù)據(jù)標(biāo)準(zhǔn)化嗎?

大數(shù)據(jù) 數(shù)據(jù)分析
z 映射的值是用當(dāng)前特征值與比較數(shù)組的平均值之差,除以比較數(shù)組的標(biāo)準(zhǔn)差計(jì)算得來的。例如,我們可以計(jì)算列 deceduti 的 z-map,使用列 terapia_intenva 作為比較數(shù)組。我們可以使用 scipy.stats? 庫的 zmap() 函數(shù)實(shí)現(xiàn)。


數(shù)據(jù)預(yù)處理包括以下幾個(gè)方面:

  • 缺失值處理
  • 數(shù)據(jù)格式化
  • 數(shù)據(jù)規(guī)范化
  • 數(shù)據(jù)標(biāo)準(zhǔn)化
  • 數(shù)據(jù)分箱(分組)

標(biāo)準(zhǔn)化經(jīng)常容易與規(guī)范化混淆,但它們指的是不同的東西。規(guī)范化涉及將不同比例的度量值調(diào)整到一個(gè)共同的比例,而標(biāo)準(zhǔn)化則是將特征值轉(zhuǎn)換為均值為零,標(biāo)準(zhǔn)差為1的分布。標(biāo)準(zhǔn)化也是通過 z-score 轉(zhuǎn)換來實(shí)現(xiàn)的,其中新值是用當(dāng)前值與平均值之間的差,除以標(biāo)準(zhǔn)差計(jì)算得來的。

Z-score 是一種統(tǒng)計(jì)度量值,用于確定單個(gè)數(shù)據(jù)點(diǎn)與數(shù)據(jù)集其余部分的距離,它可以用來檢測數(shù)據(jù)集中的異常值。

在本教程中,我們將考慮兩種類型的標(biāo)準(zhǔn)化:

  • z 得分(z-score)
  • z 映射(z-map)

一、數(shù)據(jù)準(zhǔn)備(Data Preparation)

本教程的示例數(shù)據(jù)集還是繼續(xù)沿用上一個(gè)教程(Part 3)中的新冠肺炎數(shù)據(jù)集,獲取方式見上一個(gè)教程的文末。

首先,我們需要導(dǎo)入 Python pandas 庫,并通過 read_csv() 函數(shù)讀取數(shù)據(jù)集。然后我們可以刪除所有具有 NaN 值的列,通過 dropna() 函數(shù)來實(shí)現(xiàn)的。

import pandas  as pd


df = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')
df.dropna(axis=1, inplace=True)
df.tail(10)

圖片圖片

二、z 得分(Z-Score)

前面說過,標(biāo)準(zhǔn)化是將數(shù)據(jù)集中的特征值轉(zhuǎn)換為具有均值為 0 和標(biāo)準(zhǔn)差為 1 的分布。Z-Score 標(biāo)準(zhǔn)化的公式為:

其中  是當(dāng)前特征值, 是均值, 是標(biāo)準(zhǔn)差。

例如,我們可以計(jì)算列 deceduti 的 z 得分。我們可以使用 scipy.stats 庫的 zscore() 函數(shù)實(shí)現(xiàn)。

from scipy.stats import zscore


df['zscore-deceduti'] = zscore(df['deceduti'])
df['zscore-deceduti']

圖片圖片

三、z 映射(Z-Map)

z 映射的值是用當(dāng)前特征值與比較數(shù)組的平均值之差,除以比較數(shù)組的標(biāo)準(zhǔn)差計(jì)算得來的。例如,我們可以計(jì)算列 deceduti 的 z-map,使用列 terapia_intenva 作為比較數(shù)組。我們可以使用 scipy.stats 庫的 zmap() 函數(shù)實(shí)現(xiàn)。

from scipy.stats import zmap


df['zmap-deceduti'] = zmap(df['deceduti'], df['terapia_intensiva'])
df['zmap-deceduti']

圖片圖片

四、異常值檢測(Detect Outliers)

標(biāo)準(zhǔn)化可以用來檢測和刪除異常值。例如,可以定義一個(gè)閾值來指定哪些值可以被視為異常值。在本例中,我們設(shè)置 threshold = 2。我們可以在原始數(shù)據(jù)框中添加一個(gè)新的列 outliers,如果特征值小于-2或大于2,則將異常標(biāo)記列的值設(shè)置為 True,否則為 False。我們可以使用 numpy 庫的 where() 函數(shù)來執(zhí)行比較。

import numpy as np


threshold = 2
df['outliers'] = np.where((df['zscore-deceduti'] - threshold > 0), True, 
                          np.where(df['zscore-deceduti'] + threshold < 0, True, False))
df['outliers']

圖片圖片

現(xiàn)在,我們可以使用 drop() 函數(shù)刪除異常值。

df.drop(df[df['outliers'] == True].index, inplace=True)
df

圖片圖片

五、總結(jié)(Summary)

在本教程中,我解釋了規(guī)范化和標(biāo)準(zhǔn)化之間的區(qū)別,規(guī)范化在某種程度上包括標(biāo)準(zhǔn)化。

數(shù)據(jù)標(biāo)準(zhǔn)化的方法有兩種:z-score 和 z-map。

標(biāo)準(zhǔn)化可用于檢測和刪除數(shù)據(jù)集中的異常值。此外,它還可以用于在不同的數(shù)據(jù)集之間進(jìn)行比較。


責(zé)任編輯:武曉燕 來源: 自由學(xué)習(xí)屋
相關(guān)推薦

2021-07-17 22:41:53

Python數(shù)據(jù)技術(shù)

2019-01-28 17:42:33

Python數(shù)據(jù)預(yù)處理數(shù)據(jù)標(biāo)準(zhǔn)化

2020-06-24 11:59:31

PythonPandas數(shù)據(jù)處理

2021-05-14 13:57:01

數(shù)據(jù)標(biāo)準(zhǔn)組織技術(shù)

2023-08-30 09:16:38

PandasPython

2015-09-01 10:28:56

云計(jì)算標(biāo)準(zhǔn)化需求標(biāo)準(zhǔn)化組織

2015-09-02 13:09:32

大數(shù)據(jù)標(biāo)準(zhǔn)化

2021-05-18 11:19:28

數(shù)據(jù)標(biāo)準(zhǔn)化大數(shù)據(jù)技術(shù)

2023-07-19 08:58:00

數(shù)據(jù)管理數(shù)據(jù)分析

2024-05-20 09:31:53

PandasPython大數(shù)據(jù)集

2020-12-14 14:16:34

Pandas數(shù)據(jù)預(yù)處理

2020-08-14 10:45:26

Pandas可視化數(shù)據(jù)預(yù)處理

2025-01-22 14:00:12

2009-12-18 16:33:14

ADO.NET標(biāo)準(zhǔn)化

2020-07-02 09:58:16

數(shù)據(jù)中心新基建技術(shù)

2021-03-28 08:57:57

Python 文本數(shù)據(jù)

2016-10-07 22:09:59

2018-03-13 12:51:12

Python數(shù)據(jù)函數(shù)

2018-06-07 15:58:52

Python函數(shù)數(shù)據(jù)

2010-04-20 14:55:58

Oracle標(biāo)準(zhǔn)化
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 久久av一区二区三区 | 夜操| 国产精品国产成人国产三级 | 国产精品成av人在线视午夜片 | 精品日韩一区 | 精品视频国产 | 狠狠影院 | 中文在线一区二区 | 欧美在线高清 | 亚洲精品3 | 国产日韩中文字幕 | 祝你幸福电影在线观看 | 国产精品日韩 | 91最新视频 | 久久久精品久久 | 视频二区在线观看 | 国产精品一区2区 | 国产成人亚洲精品 | 狠狠的干 | 亚洲精品视频一区二区三区 | 国产精品美女久久久av超清 | 亚洲大片 | 亚洲精品99999| 丁香婷婷久久久综合精品国产 | 欧美v免费 | 又爽又黄axxx片免费观看 | aaa国产大片 | 久久久久网站 | 日韩国产中文字幕 | 免费视频二区 | 日本久久久久久 | 国产在线观看一区 | 国产色在线 | 精品欧美一区二区在线观看视频 | 成人深夜福利网站 | 精品一区二区三区av | 国产7777| www久久久 | 国产成人综合亚洲欧美94在线 | 中文字幕一区在线观看视频 | 精品一二区|