成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數據預處理的10個小技能,附Pandas實現

大數據
數據預處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等,下面使用 pandas 解決這些最常見的預處理任務。

數據預處理常用的處理步驟,包括找出異常值、處理缺失值、過濾不合適值、去掉重復行、分箱、分組、排名、category轉數值等,下面使用 pandas 解決這些最常見的預處理任務。

[[357540]]

找出異常值常用兩種方法:

  • 標準差法:異常值平均值上下1.96個標準差區間以外的值
  • 分位數法:小于 1/4分位數減去 1/4和3/4分位數差的1.5倍,大于3/4減去 1/4和3/4分位數差的1.5倍,都為異常值

技能1 :標準差法

  1. import pandas as pd 
  2.  
  3. df = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]}) 
  4.  
  5. # 異常值平均值上下1.96個標準差區間以外的值 
  6. meangrade = df['a'].mean() 
  7. stdgrade = df['a'].std() 
  8. toprange = meangrade + stdgrade * 1.96 
  9. botrange = meangrade - stdgrade * 1.96 
  10.  
  11. # 過濾區間外的值 
  12. copydf = df 
  13. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  14.         > toprange].index) 
  15. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  16.         < botrange].index) 
  17. copydf 

技能2:分位數法

  1. q1 = df['a'].quantile(.25) 
  2. q3 = df['a'].quantile(.75) 
  3. iqr = q3-q1 
  4. toprange = q3 + iqr * 1.5 
  5. botrange = q1 - iqr * 1.5 
  6.  
  7. copydf = df 
  8. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  9.         > toprange].index) 
  10. copydfcopydf = copydf.drop(copydf[copydf['a'] 
  11.         < botrange].index) 
  12. copydf 

技能3:處理空值

np.nan 是 pandas 中常見空值,使用 dropna 過濾空值,axis 0 表示按照行,1 表示按列,how 默認為 any ,意思是只要有一個 nan 就過濾某行或某列,all 所有都為 nan

  1. # axis 0 表示按照行,all 此行所有值都為 nan 
  2. df.dropna(axis=0how='all'

技能4:充填空值

空值一般使用某個統計值填充,如平均數、眾數、中位數等,使用函數 fillna:

  1. # 使用a列平均數填充列的空值,inplace true表示就地填充 
  2. df["a"].fillna(df["a"].mean(), inplace=True

技能5:修復不合適值

假如某門課最高分100,如果出現 -2, 120 這樣的值,顯然不合理,使用布爾類型的Series對象修改數值:

  1. df.loc[(df['a'] < -2,'a')] = 0 
  2. df.loc[(df['a'] >= 100,'a')] = 100 

技能6:過濾重復值

過濾某列重復值,使用 drop_duplicated 方法,第一個參數為列名,keep關鍵字等于last:最后一次出現此值行:

  1. df.drop_duplicates(['Names'], keep='last'

技能7:apply 元素級:去掉特殊字符

某列單元格含有特殊字符,如標點符號,使用元素級操作方法 apply 干掉它們:

  1. import string 
  2. exclude = set(string.punctuation) 
  3.  
  4. def remove_punctuation(x): 
  5.     x = ''.join(ch for ch in x if ch not in exclude) 
  6.     return x 
  7. # 原df 
  8. Out[26]:  
  9.       a       b 
  10. 0   c,d  edc.rc 
  11. 1     3       3 
  12. 2  d ef       4 
  13.  
  14. # 過濾a列標點 
  15. In [27]: dfdf.a = df.a.apply(remove_punctuation)  
  16. In [28]: df                 
  17. Out[28]:  
  18.       a       b 
  19. 0    cd  edc.rc 
  20. 1     3       3 
  21. 2  d ef       4 

技能8:cut 數據分箱

將百分制分數轉為A,B,C,D四個等級,bins 被分為 [0,60,75,90,100],labels 等于['D', 'C', 'B', 'A']:

  1. # 生成20個[0,100]的隨機整數 
  2. In [30]: a = np.random.randint(1,100,20)                    
  3. In [31]: a                                     
  4. Out[31]:  
  5. array([48, 22, 46, 84, 13, 52, 36, 35, 27, 99, 31, 37, 15, 31,  5, 46, 98,99, 60, 43]) 
  6.  
  7. # cut分箱 
  8. In [33]: pd.cut(a, [0,60,75,90,100], labels = ['D', 'C', 'B', 'A'])              
  9. Out[33]:  
  10. [D, D, D, B, D, ..., D, A, A, D, D] 
  11. Length: 20 
  12. Categories (4, object): [D < C < B < A

技能9:rank 排名

rank 方法,生成數值排名,ascending 為False,分值越大,排名越靠前:

  1. In [36]: df = pd.DataFrame({'a':[46, 98,99, 60, 43]} ))  
  2. In [53]: df['a'].rank(ascending=False)                    
  3. Out[53]:  
  4. 0    4.0 
  5. 1    2.0 
  6. 2    1.0 
  7. 3    3.0 
  8. 4    5.0 

技能10:category列轉數值

某列取值只可能為有限個枚舉值,往往需要轉為數值,使用get_dummies,或自己定義函數:

  1. pd.get_dummies(df['a']) 

自定義函數,結合 apply:

  1. def c2n(x): 
  2.     if x=='A': 
  3.         return 95 
  4.     if x=='B': 
  5.         return 80 
  6.  
  7. df['a'].apply(c2n) 

以上結合數據預處理的十個小任務,分別找到對應pandas中的實現。

 

責任編輯:趙寧寧 來源: Python與算法社區
相關推薦

2020-08-14 10:45:26

Pandas可視化數據預處理

2019-06-12 16:21:52

時間序列PythonPandas

2023-11-27 13:58:00

數據預處理數據標準化

2024-05-13 11:43:39

Python數據分析CSV

2023-03-24 16:41:36

Pandas技巧數據處理

2019-04-29 08:31:25

PythonPandas數據

2018-12-12 14:57:17

大數據制造工業互聯網

2019-04-19 15:00:29

工業大數據數據分析企業

2019-02-21 15:34:08

數據分析師大數據可視化

2024-10-24 16:54:59

數據預處理機器學習

2025-04-03 10:00:00

數據分析Pandas數據合并

2025-03-07 08:00:00

數據數據集集神經網絡數據預處理

2021-10-18 06:54:47

數據源數據預處理

2024-10-30 10:00:00

Python函數

2022-06-13 16:09:17

PandasPython

2022-12-30 15:29:35

數據分析工具Pandas

2021-03-28 08:57:57

Python 文本數據

2022-08-30 09:24:47

數據算法

2022-10-19 15:20:58

pandas數據處理庫技巧

2020-03-08 13:43:57

前端開發前端開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 男女久久久 | 亚洲网站在线观看 | 精品美女 | 操网站| 国产日韩一区二区三区 | 久久国产欧美日韩精品 | 国产露脸国语对白在线 | av网站在线看 | 在线观看免费av片 | a免费在线| 成人免费毛片在线观看 | 欧美一级二级三级视频 | 久久国产欧美日韩精品 | 成人在线电影在线观看 | 精品国产乱码久久久久久牛牛 | 成人午夜视频在线观看 | 久久国产婷婷国产香蕉 | 北条麻妃99精品青青久久 | 国产精品1区 | 好姑娘影视在线观看高清 | 国产精品综合色区在线观看 | 国产精品一区二区久久精品爱微奶 | av在线一区二区三区 | 国产精品免费看 | 天天看夜夜 | 国产精品伦一区二区三级视频 | 一区二区三区观看视频 | 色一阁| 99久久精品免费看国产四区 | 特级一级黄色片 | 国产日韩欧美在线观看 | 狠狠爱免费视频 | 日本高清不卡视频 | 波多野吉衣久久 | 婷婷色国产偷v国产偷v小说 | 日韩视频在线免费观看 | 久久久蜜桃| 亚洲一区二区三区免费在线 | 夜夜爽99久久国产综合精品女不卡 | 天天澡天天操 | 精品久久久久香蕉网 |