成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Pandas:用于數據分析和數據科學的最熱門 Python 庫

開發(fā)
Pandas 是一個十分流行的 Python 第三方庫。本文介紹了 Pandas 庫中的一些特性和函數,并且我們鼓勵讀者親手使用 Pandas 庫,來解決實際的業(yè)務問題。

Pandas 為 Python 中數據分析提供了基礎和高級的構建組件。Pandas 庫是用于數據分析與數據操作的最強大和最靈活的開源分析工具之一,并且它還提供了用于建模和操作表格數據(以行和列組織的數據)的數據結構

Pandas 庫有兩個主要的數據結構:第一個是 “系列Series”,該數據結構能夠很方便地從 Python 數組或字典中按位置或指定的索引名稱來檢索數據;第二個是“數據幀DataFrames”,該數據結構將數據存儲在行和列中。列可以通過列名訪問,行通過索引訪問。列可以有不同類型的數據,包括列表、字典、序列、數據幀、NumPy 數組等。

Pandas 庫可以處理各種文件格式

有各種各樣的文件格式。用于數據分析的工具必須能夠提供處理各種文件格式的方法。

Pandas 可以讀取各種文件格式,例如 CSV 文件、JSON 文件、XML 文件、Parquet 文件、SQL 文件,詳見下表。

 

寫入

讀取

CSV 文件

??to_csv?? 函數

??read_csv?? 函數

JSON 文件

??to_json?? 函數

??read_json?? 函數

Parquet 文件

??to_parquet?? 函數

??read_parquet?? 函數

SQL 文件

??to_sql?? 函數

??read_sql??? 函數,??read_sql_query??? 函數,??read_sql_table?? 函數

XML 文件

??to_xml?? 函數

??read_xml?? 函數

使用 Pandas 進行數據清理

在現實場景中,很多數據集存在數據缺失、數據格式錯誤、錯誤數據或重復數據的情況,如果要對使數據分析更加準確,就需要對這些沒有用的數據進行處理。此外,數據還會有需要 屏蔽mask

Pandas 清洗空值:

a. 空行可以使用 ??df.dropna(inplace=True)?? 方法來刪除。

b. 空值可以使用 ??df.fillna(<value>, inplace=True)?? 方法來替換。還可以指定某一個列來替換該列的空數據。

Pandas 屏蔽數據:

c. 要屏蔽所有不滿足條件 ??my_list.where(my_list < 5)?? 的敏感數據的值,可以使用 ??my_list.mask(my_list < 5)??。

Pandas 清洗重復數據:

d. 要刪除重復數據,可以使用 ??drop_duplicates()?? 方法:

df.drop_duplicates(<column>, keep = False)df.drop_duplicates(<column>, keep = ‘first’)df.drop_duplicates(<column>, keep = ‘last’)

使用 Pandas 進行數據分析

下面的表格列出了 Pandas 中進行數據分析的各種函數,以及其語法。(請注意:??df?? 代表一個 數據幀DataFrame

< 如顯示不全,請左右滑動 >

語法

描述

??df.head(x)??

??head()?? 函數用于讀取前面的 x 行,如果不填參數 x,默認返回 5 行

??df.tail(x)??

??tail()?? 函數用于讀取尾部的 x 行,如果不填參數 x ,默認返回最后 5 行,空行各個字段的值返回 NaN

??loc(x:y)??

Loc 函數返回指定行的數據,也可以對數據進行切片

??groupby('<column>')??

對指定列的數據進行分組

??df['column'].sum()??

計算指定列數據的總和

??df['column']. mean()??

計算指定列數據的算術平均值

??df['column'].min()??

計算指定列數據的最小值

??df['column'].max()??

計算指定列數據的最大值

??df.sort_values(['column'])??

在指定列上根據數值進行排序,默認升序

??df.size??

返回元素的個數,即為行數 * 列數

??df.describe??

返回對各列的統(tǒng)計匯總

??pd.crosstab(df['column1'], df['column2'], margins = True)??

創(chuàng)建 ??column1??? 和 ??column2?? 的交叉表

??df.duplicated([column1, 'column2'])??

根據 ??column1??? 和 ??column2??? 中的重復值,返回 ??True??? 或 ??False??

Pandas 的優(yōu)點

  • 支持多索引(層次索引),方便分析多維數據。
  • 支持數據透視表的創(chuàng)建,堆棧和取消堆棧操作。
  • 可以使用 Pandas 處理有限值的分類數據。
  • 支持分組和聚合運算。
  • 可以禁用排序。
  • 支持行級過濾(獲取滿足過濾條件的行)和列級過濾(只選擇需要的列)。
  • 有助于重塑數據集(數組的維度變換)。還可以轉置數組的值,并轉換為列表。當你使用 Python 處理數據時,可以將 Pandas 數據幀轉換為多維 NumPy 數組。
  • 支持面向標簽的數據切片。

Pandas 的不足

Pandas 的代碼和語法與 Python 不同,所以人們需要額外再學習 Pandas。此外,相較于 Pandas,像三維數據這樣的高維數據會在 NumPy 等其他庫有更好的處理。

總結

Pandas 能夠大幅提升數據分析的效率。它與其他庫的兼容性使它在其他 Python 庫中都能有效地使用。

責任編輯:龐桂玉 來源: Linux中國
相關推薦

2023-11-24 08:47:36

ScipyPython

2022-11-14 10:36:55

數據科學數據分析

2023-11-21 09:11:31

2019-08-12 10:32:30

大數據數據科學云計算

2016-05-10 10:43:02

2020-05-15 10:22:07

Python開發(fā)工具

2022-04-19 08:00:00

數據分析數據科學大數據

2018-08-19 15:39:56

數據分析數據科學數據工程師

2018-09-18 23:25:49

Python數據科學

2015-07-28 17:00:30

2017-09-15 09:34:51

R語言Python機器學習

2020-09-09 11:23:22

數據科學與分析

2017-09-01 09:52:20

PythonPandas數據分析

2023-09-04 15:35:54

2020-06-05 14:29:07

PythonPandas數據分析

2018-04-23 14:01:04

數據科學機器學習開發(fā)

2023-12-10 14:06:04

數據庫pythonduckdb

2024-01-09 13:58:22

PandasPython數據分析

2015-12-03 09:46:29

2018-04-16 11:11:56

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠操你 | 欧美在线视频一区二区 | 美女久久 | 精品永久 | 成人欧美一区二区三区白人 | 国产精品视频久久 | www国产成人免费观看视频,深夜成人网 | 久久久综合精品 | 亚洲精品一区二区三区蜜桃久 | www国产精品 | 超碰日韩 | 成人国产精品久久 | 亚洲欧美国产精品一区二区 | www久久99 | 在线国产一区 | 亚洲精品一区二区在线 | 亚洲视频欧美视频 | 日日噜噜夜夜爽爽狠狠 | 美女天堂 | 91精品一区二区三区久久久久 | 在线国产一区 | 久久99深爱久久99精品 | www.婷婷| 久久久久国产精品www | 91免费在线 | 日韩欧美视频 | 亚洲国产中文字幕 | 精品视频一区二区三区在线观看 | 国产精品揄拍一区二区 | 欧美久久一区二区 | 亚洲精品视频在线 | 中文在线www | 操人网站 | 九色视频网站 | 四虎永久免费影院 | 欧美一级二级三级视频 | 在线视频亚洲 | 久久久久国产一区二区三区 | 日本欧美大片 | 一级毛片视频在线 | 一区二区三区日韩精品 |