成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

如何使Pandas來加速你的代碼?

開發 后端 大數據
Pandas是為一次性處理整個行或列的矢量化操作而設計的—循環遍歷每個單元格、行或列并不是這個庫的設計用途。因此,在使用Pandas時,你應該考慮到矩陣操作是高度并行化的。

 Pandas對數據科學界來說是一份天賜的禮物。問任何一個數據科學家,他們喜歡如何使用Python處理他們的數據集,他們無疑會談到Pandas。

[[279448]]

Pandas是一個偉大的編程庫的縮影:簡單、直觀、功能廣泛。

然而,對數據科學家的一項常規任務,使用Pandas進行數千甚至數百萬次的計算,仍然是一個挑戰。你不能只是將數據放入,編寫Python for循環,然后期望在合理的時間內處理數據。

Pandas是為一次性處理整個行或列的矢量化操作而設計的—循環遍歷每個單元格、行或列并不是這個庫的設計用途。因此,在使用Pandas時,你應該考慮到矩陣操作是高度并行化的。

本指南將教你如何使用Pandas的方式,它被設計用來使用矩陣運算。在此過程中,我將向你展示一些實用的節省時間的技巧和技巧,它們將使你的Pandas代碼運行得比那些可怕的Python for循環快得多!

設置

在本教程中,我們將使用經典的鳶尾花數據集。我們通過使用seaborn加載數據集并打印出前5行來開始。


現在讓我們建立一個基線,用Python for循環來測量我們的速度。我們將通過循環遍歷每一行來設置要在數據集上執行的計算,然后測量整個操作的速度。這將為我們提供一個基準,看看我們的新優化能在多大程度上幫助我們加速。

如何使用pandas來加速你的代碼?

在上面的代碼中,我們創建了一個基本函數,它使用If-Else語句根據花瓣的長度選擇花的類。我們編寫了一個for循環,通過循環dataframe對每一行使用這個函數,然后測量循環的總運行時間。

在我的i7-8700k計算機上,循環運行5次平均需要0.01345秒。

使用.iterrows()來實現循環

我們可以立即做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows()函數。

在上一節中編寫for循環時,我們使用了 range()函數。然而,當我們在Python中對大范圍的值進行循環時,生成器往往要快得多。在本文中(https://towardsdatascience.com/5-advancedfeaturesof-python-and-how-use-them-73bffa373c84),你可以閱讀更多關于生成器如何工作的信息,并加快運行速度。

Pandas中的 .iterrows()函數在內部實現了一個生成器函數,它將在每次迭代中“生成”一行數據。更準確地說, .iterrows()為DataFrame中的每一行生成(index, Series) 的對(元組)。這實際上與在原始Python中使用類似于 enumerate()的東西是一樣的,但是運行速度要快得多。

下面我們修改了代碼,使用 .iterrows()替常規的for循環。在我上一節測試所用的同一臺機器上,平均運行時間為0.005892秒—提高了2.28倍!

如何使用pandas來加速你的代碼?

使用.apply()完全丟掉循環

.iterrows()函數極大地提高了速度,但還遠遠不夠。請始終記住,當使用為向量操作設計的庫時,可能有一種方法可以在完全沒有for循環的情況下很高效地完成任務。

提供這種功能的Pandas函數是 .apply()函數。我們的函數 .apply()接受另一個函數作為它的輸入,并沿著DataFrame的軸(行、列等)應用它。在傳遞函數的這種情況下,lambda通常可以方便地將所有內容打包在一起。

在下面的代碼中,我們已經完全用 .apply()和lambda函數替換了for循環來封裝我們想要的計算。在我的機器上,這段代碼的平均運行時間是0.0020897秒—比原來的for循環快6.44倍。

如何使用pandas來加速你的代碼?

.apply()之所以要快得多,是因為它在內部嘗試遍歷Cython迭代器。如果你的函數恰好為Cython進行了很好的優化, .apply()將使你的速度更快。額外的好處是,使用內置函數可以生成更干凈、更可讀的代碼。

最后是使用cut

前面我提到過,如果你正在使用一個為向量化操作設計的庫,那么你應該始終尋找一種不使用for循環進行任何計算的方法。

類似地,許多以這種方式設計的庫,包括Pandas,都具有方便的內置函數,可以執行你正在尋找的精確計算—但是速度更快。

Pandas的 .cut()函數接受一組 bins為輸入,其中定義每個If-Else的范圍,以及一組 labels作為輸入,其中定義為每個范圍返回哪個值。然后,它執行與我們用 compute_class()函數手動編寫的操作完全相同的操作。

查看下面的代碼,看看 .cut()是如何工作的。我們又一次得到了更干凈、更可讀的代碼。最后, .cut()函數平均運行0.001423秒—比原來的for循環快了9.39倍!

如何使用pandas來加速你的代碼?

 

 

責任編輯:華軒 來源: AI公園
相關推薦

2017-02-14 08:33:48

CPULinux內核

2013-10-30 09:37:19

LinuxLinux命令

2013-03-25 09:41:20

PythonCython

2020-07-23 14:15:42

Cython的Python代碼

2021-08-12 08:00:00

Pandas數據分析SQL

2019-12-25 14:08:50

Pandas數據計算

2017-04-13 11:20:56

機器學習代碼

2022-09-20 10:50:34

PandasNumPy

2016-10-12 13:37:09

LombokIDEidea

2020-05-21 08:53:12

Python技術代碼

2010-05-20 09:07:30

jQuery

2024-01-19 13:45:00

Pandas代碼深度學習

2021-08-25 23:03:58

區塊鏈數據安全

2018-02-26 15:14:25

Linuxlftp下載加速器

2020-09-02 14:00:05

Python代碼腳本

2021-01-01 14:36:03

Python開發語言

2021-06-09 08:00:00

Python編程語言開發

2012-06-18 15:18:32

JS

2021-11-17 21:58:02

Python編程語言

2020-01-03 08:34:18

pandas代碼開發
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天干天天玩天天操 | 免费日本视频 | 九九热精品视频在线观看 | 在线视频 中文字幕 | 国产精品久久久久久久久久久久 | 黑人精品 | 日本不卡免费新一二三区 | 在线免费激情视频 | 久久一区二区三区电影 | 欧美一二三 | 精品免费国产视频 | 国产精品国产a | 一区二区三区四区在线播放 | 99re在线视频精品 | 亚洲欧美日韩在线不卡 | 男女网站免费观看 | 国产精品久久精品 | 一区二区成人 | 在线视频一区二区 | 紧缚调教一区二区三区视频 | 毛片av免费看 | 亚州成人| 国产二区精品视频 | 亚洲国产成人av | 国产精品乱码一区二区三区 | xx视频在线观看 | 91亚洲精品在线 | 超碰在线播| 99精品在线免费观看 | 亚洲 欧美 激情 另类 校园 | 亚洲激情第一页 | 一区二区三区视频 | 久在线视频播放免费视频 | 国产欧美精品区一区二区三区 | 欧美日韩中文字幕在线播放 | 麻豆av一区二区三区久久 | 国产一区欧美一区 | 日韩精品在线免费观看 | 免费在线看黄 | 逼逼视频| 免费人成在线观看网站 |