Pandas庫常用方法、函數集合
作者:朱衛軍Python
Pandas是Python數據分析處理的核心第三方庫,它使用二維數組形式,類似Excel表格,并封裝了很多實用的函數方法,讓你可以輕松地對數據集進行各種操作。
這里列舉下Pandas中常用的函數和方法,方便大家查詢使用。
讀取 寫入
- read_csv:讀取CSV文件
- to_csv:導出CSV文件
- read_excel:讀取Excel文件
- to_excel:導出Excel文件
- read_json:讀取Json文件
- to_json:導出Json文件
- read_html:讀取網頁中HTML表格數據
- to_html:導出網頁HTML表格
- read_clipboard:讀取剪切板數據
- to_clipboard:導出數據到剪切板
- to_latex:導出數據為latex格式
- read_sas:讀取sas格式數據(一種統計分析軟件數據格式)
- read_spss:讀取spss格式數據(一種統計分析軟件數據格式)
- read_stata:讀取stata格式數據(一種統計分析軟件數據格式)
- read_sql:讀取sql查詢的數據(需要連接數據庫),輸出dataframe格式
- to_sql:向數據庫寫入dataframe格式數據
連接 合并 重塑
- merge:根據指定鍵關聯連接多個dataframe,類似sql中的join
- concat:合并多個dataframe,類似sql中的union
- pivot:按照指定的行列重塑表格
- pivot_table:數據透視表,類似excel中的透視表
- cut:將一組數據分割成離散的區間,適合將數值進行分類
- qcut:和cut作用一樣,不過它是將數值等間距分割
- crosstab:創建交叉表,用于計算兩個或多個因子之間的頻率
- join:通過索引合并兩個dataframe
- stack: 將數據框的列“堆疊”為一個層次化的Series
- unstack: 將層次化的Series轉換回數據框形式
- append: 將一行或多行數據追加到數據框的末尾
分組 聚合 轉換 過濾
- groupby:按照指定的列或多個列對數據進行分組
- agg:對每個分組應用自定義的聚合函數
- transform:對每個分組應用轉換函數,返回與原始數據形狀相同的結果
- rank:計算元素在每個分組中的排名
- filter:根據分組的某些屬性篩選數據
- sum:計算分組的總和
- mean:計算分組的平均值
- median:計算分組的中位數
- min和 max:計算分組的最小值和最大值
- count:計算分組中非NA值的數量
- size:計算分組的大小
- std和 var:計算分組的標準差和方差
- describe:生成分組的描述性統計摘要
- first和 last:獲取分組中的第一個和最后一個元素
- nunique:計算分組中唯一值的數量
- cumsum、cummin、cummax、cumprod:計算分組的累積和、最小值、最大值、累積乘積
數據清洗
- dropna: 丟棄包含缺失值的行或列
- fillna: 填充或替換缺失值
- interpolate: 對缺失值進行插值
- duplicated: 標記重復的行
- drop_duplicates: 刪除重復的行
- str.strip: 去除字符串兩端的空白字符
- str.lower和 str.upper: 將字符串轉換為小寫或大寫
- str.replace: 替換字符串中的特定字符
- astype: 將一列的數據類型轉換為指定類型
- sort_values: 對數據框按照指定列進行排序
- rename: 對列或行進行重命名
- drop: 刪除指定的列或行
數據可視化
- pandas.DataFrame.plot.area:繪制堆積圖
- pandas.DataFrame.plot.bar:繪制柱狀圖
- pandas.DataFrame.plot.barh:繪制水平條形圖
- pandas.DataFrame.plot.box:繪制箱線圖
- pandas.DataFrame.plot.density:繪制核密度估計圖
- pandas.DataFrame.plot.hexbin:繪制六邊形分箱圖
- pandas.DataFrame.plot.hist:繪制直方圖
- pandas.DataFrame.plot.line:繪制線型圖
- pandas.DataFrame.plot.pie:繪制餅圖
- pandas.DataFrame.plot.scatter:繪制散點圖
- pandas.plotting.andrews_curves:繪制安德魯曲線,用于可視化多變量數據
- pandas.plotting.autocorrelation_plot:繪制時間序列自相關圖
- pandas.plotting.bootstrap_plot:用于評估統計數據的不確定性,例如均值,中位數,中間范圍等
- pandas.plotting.lag_plot:繪制時滯圖,用于檢測時間序列數據中的模式、趨勢和季節性
- pandas.plotting.parallel_coordinates:繪制平行坐標圖,用于展示具有多個特征的數據集中各個樣本之間的關系
- pandas.plotting.scatter_matrix:繪制散點矩陣圖
- pandas.plotting.table:繪制表格形式可視化圖
日期時間
- to_datetime: 將輸入轉換為Datetime類型
- date_range: 生成日期范圍
- to_timedelta: 將輸入轉換為Timedelta類型
- timedelta_range: 生成時間間隔范圍
- shift: 沿著時間軸將數據移動
- resample: 對時間序列進行重新采樣
- asfreq: 將時間序列轉換為指定的頻率
- cut: 將連續數據劃分為離散的箱
- period_range: 生成周期范圍
- infer_freq: 推斷時間序列的頻率
- tz_localize: 設置時區
- tz_convert: 轉換時區
- dt: 用于訪問Datetime中的屬性
- day_name, month_name: 獲取日期的星期幾和月份的名稱
- total_seconds: 計算時間間隔的總秒數
- rolling: 用于滾動窗口的操作
- expanding: 用于展開窗口的操作
- at_time, between_time: 在特定時間進行選擇
- truncate: 截斷時間序列
責任編輯:姜華
來源:
今日頭條