成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<input id="uq2s0"><em id="uq2s0"></em></input>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

十個Pandas的另類數據處理技巧

作者：Dmytro Samchuk 2023-03-24 16:41:36

本文所整理的技巧與以前整理過10個Pandas的常用技巧不同，你可能并不會經常的使用它，但是有時候當你遇到一些非常棘手的問題時，這些技巧可以幫你快速解決一些不常見的問題。

本文所整理的技巧與以前整理過10個Pandas的常用技巧不同，你可能并不會經常的使用它，但是有時候當你遇到一些非常棘手的問題時，這些技巧可以幫你快速解決一些不常見的問題。

1、Categorical類型

默認情況下，具有有限數量選項的列都會被分配object 類型。但是就內存來說并不是一個有效的選擇。我們可以這些列建立索引，并僅使用對對象的引用而實際值。Pandas 提供了一種稱為 Categorical的Dtype來解決這個問題。

例如一個帶有圖片路徑的大型數據集組成。每行有三列：anchor, positive, and negative.。

如果類別列使用 Categorical 可以顯著減少內存使用量。

# raw data
 +----------+------------------------+
 |  class   |        filename        |
 +----------+------------------------+
 | Bathroom | Bathroom\bath_1.jpg    |
 | Bathroom | Bathroom\bath_100.jpg  |
 | Bathroom | Bathroom\bath_1003.jpg |
 | Bathroom | Bathroom\bath_1004.jpg |
 | Bathroom | Bathroom\bath_1005.jpg |
 +----------+------------------------+
 
 # target
 +------------------------+------------------------+----------------------------+
 |         anchor         |        positive        |          negative          |
 +------------------------+------------------------+----------------------------+
 | Bathroom\bath_1.jpg    | Bathroom\bath_100.jpg  | Dinning\din_540.jpg        |
 | Bathroom\bath_100.jpg  | Bathroom\bath_1003.jpg | Dinning\din_1593.jpg       |
 | Bathroom\bath_1003.jpg | Bathroom\bath_1004.jpg | Bedroom\bed_329.jpg        |
 | Bathroom\bath_1004.jpg | Bathroom\bath_1005.jpg | Livingroom\living_1030.jpg |
 | Bathroom\bath_1005.jpg | Bathroom\bath_1007.jpg | Bedroom\bed_1240.jpg       |
 +------------------------+------------------------+----------------------------+

filename列的值會經常被復制重復。因此，所以通過使用Categorical可以極大的減少內存使用量。

讓我們讀取目標數據集，看看內存的差異：

triplets.info(memory_usage="deep")
 
 #   Column   Non-Null Count   Dtype  
 # --- ------   --------------   -----  
 # 0   anchor   525000 non-null category
 # 1   positive 525000 non-null category
 # 2   negative 525000 non-null category
 # dtypes: category(3)
 # memory usage: 4.6 MB
 
 # without categories
 triplets_raw.info(memory_usage="deep")
 
 #   Column   Non-Null Count   Dtype
 # --- ------   --------------   -----
 # 0   anchor   525000 non-null object
 # 1   positive 525000 non-null object
 # 2   negative 525000 non-null object
 # dtypes: object(3)
 # memory usage: 118.1 MB

差異非常大，并且隨著重復次數的增加，差異呈非線性增長。

2、行列轉換

sql中經常會遇到行列轉換的問題，Pandas有時候也需要，讓我們看看來自Kaggle比賽的數據集。census_start .csv文件:

可以看到，這些按年來保存的，如果有一個列year和pct_bb，并且每一行有相應的值，則會好得多，對吧。

cols = sorted([col for col in original_df.columns \
               if col.startswith("pct_bb")])
 df = original_df[(["cfips"] + cols)]
 df = df.melt(id_vars="cfips",
              value_vars=cols,
              var_name="year",
              value_name="feature").sort_values(by=["cfips", "year"])

看看結果，這樣是不是就好很多了：

3、apply()很慢

我們上次已經介紹過，最好不要使用這個方法，因為它遍歷每行并調用指定的方法。但是要是我們沒有別的選擇，那還有沒有辦法提高速度呢？

可以使用swifter或pandarallew這樣的包，使過程并行化。

Swifter

import pandas as pd
 import swifter
 
 def target_function(row):
     return row * 10
 
 def traditional_way(data):
     data['out'] = data['in'].apply(target_function)
 
 def swifter_way(data):
     data['out'] = data['in'].swifter.apply(target_function)

Pandarallel

import pandas as pd
 from pandarallel import pandarallel
 
 def target_function(row):
     return row * 10
 
 def traditional_way(data):
     data['out'] = data['in'].apply(target_function)
 
 def pandarallel_way(data):
     pandarallel.initialize()
     data['out'] = data['in'].parallel_apply(target_function)

通過多線程，可以提高計算的速度，當然當然，如果有集群，那么最好使用dask或pyspark

4、空值，int, Int64

標準整型數據類型不支持空值，所以會自動轉換為浮點數。所以如果數據要求在整數字段中使用空值，請考慮使用Int64數據類型，因為它會使用pandas.NA來表示空值。

5、Csv, 壓縮還是parquet?

盡可能選擇parquet。parquet會保留數據類型，在讀取數據時就不需要指定dtypes。parquet文件默認已經使用了snappy進行壓縮，所以占用的磁盤空間小。下面可以看看幾個的對比

|        file            |  size   |
 +------------------------+---------+
 | triplets_525k.csv      | 38.4 MB |
 | triplets_525k.csv.gzip |  4.3 MB |
 | triplets_525k.csv.zip  |  4.5 MB |
 | triplets_525k.parquet  |  1.9 MB |
 +------------------------+---------+

讀取parquet需要額外的包，比如pyarrow或fastparquet。chatgpt說pyarrow比fastparquet要快，但是我在小數據集上測試時fastparquet比pyarrow要快，但是這里建議使用pyarrow，因為pandas 2.0也是默認的使用這個。

6、value_counts ()

計算相對頻率，包括獲得絕對值、計數和除以總數是很復雜的，但是使用value_counts，可以更容易地完成這項任務，并且該方法提供了包含或排除空值的選項。

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]})
 df["a"] = df["a"].astype("Int64")
 print(df.info())
 print(df["a"].value_counts(normalize=True, dropna=False),
      df["a"].value_counts(normalize=True, dropna=True), sep="\n\n")

這樣是不是就簡單很多了

7、Modin

注意：Modin現在還在測試階段。

pandas是單線程的，但Modin可以通過縮放pandas來加快工作流程，它在較大的數據集上工作得特別好，因為在這些數據集上，pandas會變得非常緩慢或內存占用過大導致OOM。

!pip install modin[all]
 
 import modin.pandas as pd
 df = pd.read_csv("my_dataset.csv")

以下是modin官網的架構圖，有興趣的研究把：

8、extract()

如果經常遇到復雜的半結構化的數據，并且需要從中分離出單獨的列，那么可以使用這個方法：

import pandas as pd
 
 regex = (r'(?P<title>[A-Za-z\'\s]+),'
          r'(?P<author>[A-Za-z\s\']+),'
          r'(?P<isbn>[\d-]+),'
          r'(?P<year>\d{4}),'
          r'(?P<publisher>.+)')
 addr = pd.Series([
     "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",
     "The Alchemist's Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",
     "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",
     "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",
     "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children's Books"
  ])
 addr.str.extract(regex)

9、讀寫剪貼板

這個技巧有人一次也用不到，但是有人可能就是需要，比如：在分析中包含PDF文件中的表格時。通常的方法是復制數據，粘貼到Excel中，導出到csv文件中，然后導入Pandas。但是，這里有一個更簡單的解決方案:pd.read_clipboard()。我們所需要做的就是復制所需的數據并執行一個方法。

有讀就可以寫，所以還可以使用to_clipboard()方法導出到剪貼板。

但是要記住，這里的剪貼板是你運行python/jupyter主機的剪切板，并不可能跨主機粘貼，一定不要搞混了。

10、數組列分成多列

假設我們有這樣一個數據集，這是一個相當典型的情況:

import pandas as pd
 df = pd.DataFrame({"a": [1, 2, 3],
              "b": [4, 5, 6],
              "category": [["foo", "bar"], ["foo"], ["qux"]]})
 
 # let's increase the number of rows in a dataframe
 df = pd.concat([df]*10000, ignore_index=True)

我們想將category分成多列顯示，例如下面的

先看看最慢的apply：

def dummies_series_apply(df):
    return df.join(df['category'].apply(pd.Series) \
                                  .stack() \
                                  .str.get_dummies() \
                                  .groupby(level=0) \
                                  .sum()) \
              .drop("category", axis=1)
 %timeit dummies_series_apply(df.copy())
 #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

sklearn的MultiLabelBinarizer

from sklearn.preprocessing import MultiLabelBinarizer
 def sklearn_mlb(df):
    mlb = MultiLabelBinarizer()
    return df.join(pd.DataFrame(mlb.fit_transform(df['category']), columns=mlb.classes_)) \
              .drop("category", axis=1)
 %timeit sklearn_mlb(df.copy())
 #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

是不是快了很多，我們還可以使用一般的向量化操作對其求和：

def dummies_vectorized(df):
    return pd.get_dummies(df.explode("category"), prefix="cat") \
              .groupby(["a", "b"]) \
              .sum() \
              .reset_index()
 %timeit dummies_vectorized(df.copy())
 #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

使用第一個方法(在StackOverflow上的回答中非常常見)會給出一個非常慢的結果。而其他兩個優化的方法的時間是非?？焖俚?。

總結

我希望每個人都能從這些技巧中學到一些新的東西。重要的是要記住盡可能使用向量化操作而不是apply()。此外，除了csv之外，還有其他有趣的存儲數據集的方法。不要忘記使用分類數據類型，它可以節省大量內存。感謝閱讀!

責任編輯：華軒來源： DeepHub IMBA

Pandas 技巧數據處理

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板： 99pao成人国产永久免费视频 | 91伊人网 | 精品久久久久久久久久 | 一区二区三区国产精品 | 午夜久久久| 久久999 | 操久久久| 成人二区 | 狠狠做深爱婷婷综合一区 | 日韩欧美一区二区三区免费观看 | 国产激情视频网址 | 91精品国产91| 一区二区三区在线观看免费视频 | 国产精品一区二区三区免费观看 | 天天天操操操 | 亚洲国产二区 | 久久久蜜桃一区二区人 | 国产精品有限公司 | 国产精品毛片久久久久久 | 男人天堂社区 | 亚洲免费三区 | 国产精品海角社区在线观看 | 99国产精品久久久久老师 | 日韩福利在线 | 91视频.| 久久久久国产精品 | 国产精品亚洲一区 | 国产精品综合色区在线观看 | 久久精品电影 | 成人欧美一区二区三区黑人孕妇 | 日韩影院在线观看 | 久久久久久久国产精品视频 | 亚洲国产精品激情在线观看 | 精品久久电影 | 久草www | 毛片一级片| 国产粉嫩尤物极品99综合精品 | 欧美vide| 青青草一区 | 国产91亚洲精品一区二区三区 | 日韩av一区二区在线观看 |

<menu id="ssaem"><pre id="ssaem"></pre></menu>

<noframes id="ssaem"><tfoot id="ssaem"></tfoot></noframes>

<abbr id="ssaem"><pre id="ssaem"></pre></abbr>

<tfoot id="ssaem"><abbr id="ssaem"></abbr></tfoot>

<nav id="ssaem"></nav>

<pre id="ssaem"><small id="ssaem"></small></pre>