Python Pandas模塊數據統計與分析常用方法
Pandas模塊數據統計與分析常用方法
- df.describe():按各列返回基本統計量和分位數
- df.count():計算非NA值的數量,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.max():計算***值,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.min():計算最小值,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.sum():計算和,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.mean():計算平均值,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.median():計算中位數,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.var():計算方差,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.std():計算標準差,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.mad():根據平均值計算平均絕對偏差,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.cumsum():計算累計求和,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df.cov():計算協方差矩陣,axis=0 按列計算,axis=1 按行計算,默認axis=0。
- df1.corrwith(df2):計算相關系數
- df1['col1'].groupby(df1['col2']):列1 按照列2 分組,即列2為Key。
- grouped.agg({ 'col1':'fun1' , 'col2':'fun2' }):通過分組系列,還可以傳遞函數的列表或字典來進行聚合。對不同的列應用不同的函數的聚合,函數可以是多個。
示例數據集說明
接下來,我們將以如下數據集,分享各函數的使用方法。

df.describe()
按各列返回基本統計量和分位數。

df.count()
計算非NA值的數量,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.max()
計算***值,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.min()
計算最小值,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.sum()
計算和,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.mean()
計算平均值,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.median()
計算中位數,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.var()
計算方差,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.std()
計算標準差,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.mad()
根據平均值計算平均絕對偏差,axis=0 按列計算,axis=1 按行計算,默認axis=0。
{!-- PGC_COLUMN --}

df.cumsum()
計算累計求和,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df.cov()
計算協方差矩陣,axis=0 按列計算,axis=1 按行計算,默認axis=0。

df1.corrwith(df2)
計算相關系數。

df1['col1'].groupby(df1['col2'])
列1 按照列2 分組,即列2為Key。

df.groupby('col1')
DataFrame按照列1分組。

grouped.agg(['fun1','fun2'])
根據多個函數聚合,表現成多列,函數名為列名。

grouped.agg({ 'col1':'fun1' , 'col2':'fun2' })
通過分組系列,還可以傳遞函數的列表或字典來進行聚合。對不同的列應用不同的函數的聚合,函數可以是多個。
