一文了解 Pandas 的 apply 函數妙用

作者：用戶007 2025-05-12 08:50:00

在眾多方法中，apply() 函數以其靈活性脫穎而出，是處理復雜數據轉換和應用自定義邏輯的強大工具。本文將介紹apply() 函數的用途、原理以及如何在實際工作中發揮它的“妙用”。

在數據處理和分析領域，Pandas DataFame 是我們最常用的數據結構之一。它提供了豐富的功能來清洗、轉換和分析數據。在眾多方法中，apply() 函數以其靈活性脫穎而出，是處理復雜數據轉換和應用自定義邏輯的強大工具。本文將介紹apply() 函數的用途、原理以及如何在實際工作中發揮它的“妙用”。

一、apply 函數介紹

apply() 是 Pandas Series 和 DataFrame 對象的一個方法，用于沿軸（axis）應用函數。簡單來說，就是把一個函數批量地作用于 DataFrame 的行、列或 Series 的元素。

DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)
Series.apply(func, convert_dtype=True, args=(), **kwds)

其中最重要的參數是 axis：

axis=0 (默認): 將函數應用到每一列。此時，函數接收一個 Series 對象（即 DataFrame 的每一列）。
axis=1: 將函數應用到每一行。此時，函數接收一個 Series 對象（即 DataFrame 的每一行）。

對于 Series 的 apply 方法，axis 參數不存在，函數直接作用于 Series 的每個元素（或 Series 本身，取決于函數定義）。

二、apply() 的應用場景與優勢

Pandas 提供了大量高度優化的內置函數（如 sum(), mean(), fillna(), str.contains() 等）和向量化操作（如直接的四則運算 df['A'] + df['B']）。這些方法通常效率最高，應優先使用。

那么，什么時候需要 apply() 呢？apply() 的妙用體現在以下場景：

函數無法直接向量化: 當你需要應用的邏輯比較復雜，無法用簡單的數學運算、布爾索引或 Pandas 內置方法直接表示時，可以將其封裝在一個 Python 函數中，然后使用 apply() 應用。
處理行級別或列級別的復雜邏輯: 尤其是 axis=1 時，你的函數可以訪問到一整行的所有列的數據，從而基于行內多個值進行判斷、計算或生成結果。這在需要上下文信息的處理中非常有用。
返回值多樣化: apply() 可以返回一個 Series (對應原始 Series 或 DataFrame 的新一列/一行)，也可以在特定配置下返回多個值（展開為新的多列）。

相比于直接使用 Python 循環遍歷 DataFrame 的行（如 for index, row in df.iterrows():），apply() 在內部通常會做一些優化，雖然可能不如純粹的向量化操作快，但通常比顯式 Python 循環要高效且代碼更簡潔、更具“Pandas風格”。

三、apply() 函數的妙用示例

為了更好地理解 apply() 的強大之處，我們來看幾個實際案例。

首先，創建一個示例 DataFrame：

import pandas as pd
import numpy as np

data = {
    'StudentID': [1, 2, 3, 4, 5, 6, 7, 8],
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank', 'Grace', 'Henry'],
    'Gender': ['F', 'M', 'M', 'M', 'F', 'M', 'F', 'M'],
    'MathScore': [85, 90, 78, np.nan, 92, 70, 88, 95],
    'EnglishScore': [90, 88, 85, 92, np.nan, 75, 91, 89],
    'Class': ['A', 'B', 'A', 'C', 'B', 'C', 'A', 'B']
}
df = pd.DataFrame(data)
print("--- 原始 DataFrame ---")
print(df)
print("\n")

案例 1: 對列應用統計函數 (axis=0)

# 定義一個計算極差的函數
def range_score(col):
    # 需要處理缺失值，這里選擇忽略NaN
    return col.max() - col.min()

# 對數值列應用 range_score 函數 (axis=0 是默認值，可省略)
# 僅選擇數值列進行計算
numeric_cols = df.select_dtypes(include=np.number).columns
score_ranges = df[numeric_cols].apply(range_score, axis=0)

print("--- 各數值列的分數極差 ---")
print(score_ranges)
print("\n")

當 axis=0 時，apply() 會將 DataFrame 的每一列（作為一個 Series）依次傳遞給 range_score 函數。函數計算后返回一個值，這些值最終組合成一個新的 Series，索引是原始 DataFrame 的列名。

案例 2: 對行應用判斷邏輯 (axis=1)

根據一個學生的數學和英語成績總分來判斷其等級。這個邏輯需要同時考慮一行中的兩個列的值。

# 定義一個根據總分判斷等級的函數
def judge_grade(row):
    # 訪問行中的列數據
    total_score = row['MathScore'] + row['EnglishScore']

    # 處理總分因缺失值而為 NaN 的情況
    if pd.isna(total_score):
        return'待定'# Or 'N/A', '未知'
    elif total_score >= 180:
        return'優秀'
    elif total_score >= 150:
        return'良好'
    else:
        return'及格'

# 對 DataFrame 的每一行應用 judge_grade 函數
# axis=1 表示按行應用，函數的輸入是每一行的數據 (一個 Series)
df['OverallGrade'] = df.apply(judge_grade, axis=1)

print("--- 添加等級列后的 DataFrame (部分) ---")
print(df[['StudentID', 'MathScore', 'EnglishScore', 'OverallGrade']])
print("\n")

axis=1 是此例的關鍵。它讓 apply() 將 DataFrame 的每一行作為參數（一個 Series，其中索引是原始列名）傳遞給 judge_grade 函數。在函數內部，我們可以方便地通過 row['列名'] 的方式獲取該行對應列的值，進行復雜的邏輯判斷。函數的返回值（一個字符串）會組成新的 Series，被賦值給新列 'OverallGrade'。

案例 3: 行級別復雜計算并返回多個結果 (axis=1, result_type='expand')

有時，一個行級別的計算或處理可能需要返回多個值，例如從一個包含全名的列中提取姓和名，或者計算某行數據的多個統計指標。

# 定義一個函數，從 Name 列中提取姓和名
def split_name_parts(row):
    full_name = row['Name']
    parts = full_name.split(' ', 1) # 最多分割一次
    first_name = parts[0]
    last_name = parts[1] if len(parts) > 1else''# 如果沒有空格，則姓為空

    # 返回一個 Series 或 List
    return pd.Series([first_name, last_name])

# 對 DataFrame 的每一行應用 split_name_parts 函數
# axis=1 按行應用
# result_type='expand' 將函數返回的 Series/List 展開成多列
name_parts = df.apply(split_name_parts, axis=1, result_type='expand')

# 將新生成的列添加到原 DataFrame 中
df[['FirstName', 'LastName']] = name_parts
# 也可以直接這樣寫：
# df[['FirstName', 'LastName']] = df.apply(split_name_parts, axis=1, result_type='expand')


print("--- 添加姓和名列后的 DataFrame (部分) ---")
df[['Name', 'FirstName', 'LastName']]

函數 split_name_parts 處理每一行的 'Name' 列，并返回一個包含兩個元素的 Series。通過設置 result_type='expand'，Pandas 會將這個 Series 的每個元素作為新列添加到結果中。這種方法非常適合批量解析、分解或從復雜數據中提取多個字段。

案例 4: 結合 Lambda 表達式的簡潔用法

對于簡單的、單行的函數邏輯，可以使用 Lambda 表達式與 apply() 結合，使代碼更簡潔。

# 場景：根據 MathScore 是否大于等于 90 創建一個布爾列 'MathExcellent'
# 使用 apply 結合 lambda 和 axis=1
df['MathExcellent_apply'] = df.apply(lambda row: row['MathScore'] >= 90 if pd.notna(row['MathScore']) else False, axis=1)

# (對比向量化寫法，通常更簡潔高效)
# df['MathExcellent_vec'] = df['MathScore'] >= 90 # 會將 NaN 結果為 False/True, 需額外處理 NaN

print("--- 使用 Lambda 和 apply 添加布爾列 (部分) ---")
print(df[['StudentID', 'MathScore', 'MathExcellent_apply']]) # , 'MathExcellent_vec'
print("\n")

Lambda 表達式提供了一種創建小型匿名函數的快捷方式。在 apply() 中，尤其是在 axis=1 需要快速訪問單行數據時，Lambda 表達式非常方便。雖然此處向量化寫法更優，但對于涉及更復雜條件或多列組合判斷的布爾邏輯，apply(lambda row: ..., axis=1) 結合 if/else 是常見的模式。

四、使用 apply() 的注意事項

盡管 apply() 非常靈活，但需要注意其潛在的性能問題：

優先使用向量化操作: Pandas 的許多操作都是經過高度優化的 C 實現。如果你的任務可以通過向量化運算、Pandas 內置方法或 Numpy 函數直接完成，應優先考慮它們，它們通常比 apply() 快得多。
apply() 與循環: 在許多情況下，apply() 比顯式的 Python for 循環遍歷行要快，因為它在底層可能進行了部分向量化或更好的內存管理。但在某些極端場景或非常簡單的操作中，性能差異可能不明顯。
apply(axis=1) 的開銷: 對行應用函數 (axis=1) 通常比對列應用 (axis=0) 開銷更大，因為它需要為每一行創建一個 Series 對象并調用 Python 函數。
避免在 apply 中進行昂貴的重復計算: 如果函數內部有可以在外部一次性計算并傳入的參數，盡量這樣做。

總的來說，apply() 是一個強大的工具，尤其適用于處理那些無法簡單向量化，需要訪問行或列的全部上下文的復雜邏輯。在處理大型數據集對性能要求極高時，可以考慮 Numba 或 Cython 等更底層的優化工具，但對于大多數日常任務，apply() 提供的便利性是無可替代的。

責任編輯：趙寧寧來源： Python數智工坊

apply()Pandas 函數

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看