成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何成為Python的數據操作庫Pandas的專家?

開發 后端

Pandas庫是Python中最流行的數據操作庫。受到R語言的frames啟發,它提供了一種通過其data-frame API操作數據的簡單方法。下面我們給大家介紹Pandas在Python中的定位。

 

如何成為Python的數據操作庫Pandas的專家?

 

了解Pandas

要很好地理解pandas,關鍵之一是要理解pandas是一系列其他python庫的包裝器。主要的有Numpy、SQL alchemy、Matplot lib和openpyxl。

data frame的核心內部模型是一系列NumPy數組和pandas函數。

pandas利用其他庫來從data frame中獲取數據。例如,SQL alchemy通過read_sql和to_sql函數使用;openpyxl和xlsx writer用于read_excel和to_excel函數。而Matplotlib和Seaborn則用于提供一個簡單的接口,使用諸如df.plot()這樣的命令來繪制data frame中可用的信息。

Numpy的Pandas-高效的Pandas

您經常聽到的抱怨之一是Python很慢,或者難以處理大量數據。通常情況下,這是由于編寫的代碼的效率很低造成的。原生Python代碼確實比編譯后的代碼要慢。不過,像Pandas這樣的庫提供了一個用于編譯代碼的python接口,并且知道如何正確使用這個接口。

向量化操作

與底層庫Numpy一樣,pandas執行向量化操作的效率比執行循環更高。這些效率是由于向量化操作是通過C編譯代碼執行的,而不是通過本機python代碼執行的。另一個因素是向量化操作的能力,它可以對整個數據集進行操作,而不只是對一個子數據集進行操作。

應用接口允許通過使用CPython接口進行循環來獲得一些效率:

df.apply(lambda x: x['col_a'] * x['col_b'], axis=1)

但是,大部分性能收益可以通過使用向量化操作本身獲得,可以直接在pandas中使用,也可以直接調用它的內部Numpy數組。

通過DTYPES高效地存儲數據

當通過read_csv、read_excel或其他數據幀讀取函數將數據幀加載到內存中時,pandas會進行類型推斷,這可能是低效的。這些api允許您明確地利用dtypes指定每個列的類型。指定dtypes允許在內存中更有效地存儲數據。

df.astype({'testColumn': str, 'testCountCol': float})

Dtypes是來自Numpy的本機對象,它允許您定義用于存儲特定信息的確切類型和位數。

例如,Numpy的類型np.dtype(' int32 ')表示一個32位長的整數。pandas默認為64位整數,我們可以節省一半的空間使用32位:

 

如何成為Python的數據操作庫Pandas的專家?

 

處理帶有塊的大型數據集

pandas允許按塊(chunk)加載數據幀中的數據。因此,可以將數據幀作為迭代器處理,并且能夠處理大于可用內存的數據幀。

 

如何成為Python的數據操作庫Pandas的專家?

 

在讀取數據源時定義塊大小和get_chunk方法的組合允許panda以迭代器的方式處理數據,如上面的示例所示,其中數據幀一次讀取兩行。然后我們可以遍歷這些塊:

i = 0for a in df_iter: # do some processing chunk = df_iter.get_chunk() i += 1 new_chunk = chunk.apply(lambda x: do_something(x), axis=1) new_chunk.to_csv("chunk_output_%i.csv" % i )

它的輸出可以被提供到一個CSV文件,pickle,導出到數據庫,等等…

 

責任編輯:趙寧寧
相關推薦

2011-09-01 15:01:38

網頁設計

2023-01-06 08:24:00

PandasPython

2014-04-14 16:50:15

Linux專家

2018-05-16 09:00:24

數據質量數據管理數據科學家

2019-07-29 08:59:14

主管阿里專家Leader

2020-06-24 11:59:31

PythonPandas數據處理

2024-09-25 20:32:16

2021-08-12 08:00:00

Pandas數據分析SQL

2019-07-05 11:20:31

PythonMySQL數據庫

2010-08-24 08:58:42

開發者

2015-03-19 14:56:08

程序員專專家級的程序員

2023-01-28 10:09:00

Pandas數據分析Python

2020-11-19 15:26:36

SQLPandas代碼

2014-02-27 09:39:30

PHP技巧

2010-03-08 11:35:22

2021-02-01 07:40:55

架構師阿里技專家

2009-02-24 10:19:49

Oracle DBA深入解析Oracle求職

2021-02-09 10:53:21

數據科學數據分析IT

2010-05-05 15:45:52

Oracle數據庫

2023-09-25 13:19:41

pandasPython
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 超碰91在线 | 亚洲欧美日本在线 | 三级国产三级在线 | 一区二区三区不卡视频 | 色播久久久 | 精品亚洲一区二区三区 | 成人午夜电影在线观看 | 久久久91 | 久久国产欧美日韩精品 | 日韩视频一区二区在线 | 亚洲精品日韩精品 | 精品av| 欧美精品一区三区 | 日韩欧美精品在线 | 国外激情av | 中文字幕视频在线 | 日韩网站在线观看 | 亚洲精品国产电影 | 国产在线观看一区二区三区 | 国产美女一区二区 | 国产精品观看 | 日本高清aⅴ毛片免费 | 久草电影网 | 欧美成人不卡 | 天天夜干| 日韩高清成人 | 中文字幕精品一区二区三区在线 | 中文在线a在线 | 91精品久久久久久久久久入口 | 色综合视频 | 久久综合一区二区三区 | 日韩福利在线 | 一区二区三区精品在线 | 亚洲成人a v | h视频在线观看免费 | 91久久久久久久久久久久久 | 亚洲欧美另类在线观看 | 久久精品视频91 | 国产高清视频一区二区 | 操久久| 久久久91精品国产一区二区三区 |