總結了Pandas實現數據清洗的7種方式
最近在做“對比excel,學習pandas系列”,前面發了一篇 很受讀者喜愛,今天給大家介紹一下excel和pandas實現數據清洗的種方式
1.處理數據中的空值
我們在處理真實的數據時,往往會有很多缺少的的特征數據,就是所謂的空值,必須要進行處理才能進行下一步分析
空值的處理方式有很多種,一般是刪除或者填充
Excel通過“查找和替換”功能實現空值的統一替換:
通過“定位”刪除空值:
pandas處理空值的方式比較靈活,可以使用dropna函數刪除空值
- import pandas as pd
- data=pd.read_csv('成績表.csv',encoding='gbk')
- data.dropna(how='any')
用fillna函數實現空值的填充
①使用數字0填充數據表中的空值
- data.fillna(value=0)
②使用平均值填充數據表中的空值
- data['語文'].fillna(data['語文'].mean())
2.刪除空格
excel中清理空格很簡單,直接替換即可
pandas刪除空格也很方便,主要使用map函數
- data['姓名']=data['姓名'].map(str.strip)
- data
3.大小寫轉換
excel中大小寫轉換函數分別為upper()和lower()
pandas中轉換函數也為upper()和lower()
- data['拼音']=data['拼音'].str.upper()
- data
- data['拼音']=data['拼音'].str.lower()
- data
4.更改數據格式
excel中更改數據格式通過快捷鍵“ctrl+1”打開“設置單元格格式”:
pandas使用astype來修改數據格式,以將“語文”列改成整數為例
- data['語文'].dropna(how='any').astype('int')
5.更改列名稱
excel中更改列名稱就不說了,大家都會
pandas使用rename函數更改列名稱,代碼如下:
- data.rename(columns={'語文':'語文成績'})
6.刪除重復值
excel的功能區“數據”下有“刪除重復項”,可以用來刪除表中的重復值,默認保留最第一個重復值,把后面的刪除:
pandas使用drop_duplicates函數刪除重復值:
- data['數學'].drop_duplicates() #默認刪除后面的重復值
- data['數學'].drop_duplicates(keep='last') #刪除第一項重復值
7.修改及替換數據
excel中使用“查找和替換”功能實現數值的替換
pandas中使用replace函數實現數據替換
- data['姓名'].replace('成 功','失 敗')
本文轉載自微信公眾號「python數據分析之禪」,可以通過以下二維碼關注。轉載本文請聯系python數據分析之禪公眾號。