成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一行 Python 代碼實現數據清洗的18種方法

開發 后端
今天,我們就來學習如何用一行代碼完成數據清洗的十八個小絕招。準備好,讓我們一起化繁為簡,成為數據清洗的高手!

數據清洗可能是你們遇到的第一個大挑戰,但別擔心,Python的魔力在于能用簡潔的代碼解決復雜問題。今天,我們就來學習如何用一行代碼完成數據清洗的十八個小絕招。準備好,讓我們一起化繁為簡,成為數據清洗的高手!

1. 去除字符串兩邊空格

data = "   Hello World!   "
cleaned_data = data.strip()  # 神奇的一行,左右空格拜拜

解讀:strip()方法去掉字符串首尾的空白字符,簡單高效。

2. 轉換數據類型

num_str = "123"
num_int = int(num_str)  # 字符串轉整數,就是這么直接

注意:轉換時要確保數據格式正確,否則會報錯。

3. 大小寫轉換

text = "Python is Awesome"
lower_text = text.lower()  # 全部變小寫,便于統一處理
upper_text = text.upper()  # 或者全部大寫,隨你心情

4. 移除列表中的重復元素

my_list = [1, 2, 2, 3, 4, 4]
unique_list = list(set(my_list))  # 集合特性,去重無壓力

小貼士:這招雖好,但改變了原列表順序哦。

5. 快速統計元素出現次數

from collections import Counter
data = ['apple', 'banana', 'apple', 'orange']
counts = dict(Counter(data))  # 想要知道誰最受歡迎?

解讀:Counter是統計神器,輕松獲取頻率。

6. 字符串分割成列表

sentence = "Hello world"
words = sentence.split(" ")  # 分割符默認為空格,一句話變單詞列表

7. 列表合并

list1 = [1, 2, 3]
list2 = [4, 5, 6]
merged_list = list1 + list2  # 合并列表,就這么簡單

8. 數據填充

my_list = [1, 2]
filled_list = my_list * 3  # 重復三次,快速填充列表

9. 提取日期時間

from datetime import datetime
date_str = "2023-04-01"
date_obj = datetime.strptime(date_str, "%Y-%m-%d")  # 日期字符串變對象

關鍵點:%Y-%m-%d是日期格式,按需調整。

10. 字符串替換

old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改頭換面,一言既出old_string = "Python is fun."
new_string = old_string.replace("fun", "awesome")  # 改頭換面,一言既出

11. 快速排序

numbers = [5, 2, 9, 1, 5]
sorted_numbers = sorted(numbers)  # 自然排序,升序默認

進階:reverse=True可降序排列。

12. 提取數字

mixed_str = "The year is 2023"
nums = ''.join(filter(str.isdigit, mixed_str))  # 只留下數字,其余走開

解密:filter函數配合isdigit,只保留數字字符。

13. 空值處理(假設是列表)

data_list = [None, 1, 2, None, 3]
filtered_list = [x for x in data_list if x is not None]  # 拒絕空值,干凈利落

語法糖:列表推導式,簡潔優雅。

14. 字典鍵值對互換

my_dict = {"key1": "value1", "key2": "value2"}
swapped_dict = {v: k for k, v in my_dict.items()}  # 翻轉乾坤,鍵變值,值變鍵

15. 平均值計算

numbers = [10, 20, 30, 40]
average = sum(numbers) / len(numbers)  # 平均數,一步到位

16. 字符串分組

s = "abcdef"
grouped = [s[i:i+2] for i in range(0, len(s), 2)]  # 每兩個一組,分割有道

應用:適用于任何需要分組的場景。

17. 數據標準化

import numpy as np
data = np.array([1, 2, 3])
normalized_data = (data - data.mean()) / data.std()  # 數學之美,標準分布

背景:數據分析必備,讓數據符合標準正態分布。

18. 數據過濾(基于條件)

data = [1, 2, 3, 4, 5]
even_numbers = [x for x in data if x % 2 == 0]  # 只留偶數,排除異己

技巧:列表推導結合條件判斷,高效篩選。

進階實踐與技巧

既然你已經掌握了基礎的十八種方法,接下來讓我們深入一些,探討如何將這些技巧結合起來,解決更復雜的數據清洗問題,并分享一些實戰中的小技巧。

1. 復雜字符串處理:正則表達式

正則表達式是數據清洗中不可或缺的工具,雖然嚴格來說可能超過一行,但它能高效地處理模式匹配和替換。

import re
text = "Email: example@email.com Phone: 123-456-7890"
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
phones = re.findall(r'\b\d{3}-\d{3}-\d{4}\b', text)

這段代碼分別提取了文本中的電子郵件和電話號碼,展示了正則表達式的強大。

2. Pandas庫的魔法

對于數據分析和清洗,Pandas是不二之選。雖然Pandas的命令通常不止一行,但其高效性和簡潔性值得學習。

import pandas as pd
df = pd.read_csv('data.csv')
# 刪除含有缺失值的行
df_clean = df.dropna()
# 替換特定值
df['column_name'] = df['column_name'].replace('old_value', 'new_value')

注意:Pandas雖然強大,但對于初學者可能需要更多時間來熟悉。

3. 錯誤處理和日志記錄

在處理大量數據時,錯誤幾乎是不可避免的。學會用try-except結構捕獲異常,并使用logging記錄日志,可以大大提升調試效率。

import logging
logging.basicConfig(level=logging.INFO)
try:
    result = some_function_that_might_fail()
    logging.info(f"成功執行!結果:{result}")
except Exception as e:
    logging.error(f"執行失敗:{e}")

這樣,即使出現問題,也能迅速定位。

4. 批量操作與函數封裝

將常用的數據清洗步驟封裝成函數,可以大大提高代碼的復用性和可讀性。

def clean_phone(phone):
    """移除電話號碼中的非數字字符"""
    return ''.join(c for c in phone if c.isdigit())

phone_numbers = ['123-456-7890', '(555) 555-5555']
cleaned_numbers = [clean_phone(phone) for phone in phone_numbers]

通過定義clean_phone函數,我們可以輕松地清理一批電話號碼。

實戰建議:

  • 分步進行:不要試圖一次性完成所有清洗任務,分步驟處理,逐步優化。
  • 測試數據:在實際數據上測試你的清洗邏輯前,先用小樣本或模擬數據驗證代碼的正確性。
  • 文檔和注釋:即使是簡單的數據清洗腳本,良好的注釋也能為未來的自己或其他開發者提供巨大幫助。
責任編輯:趙寧寧 來源: 手把手PythonAI編程
相關推薦

2024-06-19 10:53:45

2022-04-09 09:11:33

Python

2016-12-02 08:53:18

Python一行代碼

2020-08-19 10:30:25

代碼Python多線程

2019-10-08 10:28:36

Python程序員鏡音雙子

2021-11-02 16:25:41

Python代碼技巧

2020-08-12 14:54:00

Python代碼開發

2024-11-08 17:22:22

2017-04-05 11:10:23

Javascript代碼前端

2017-04-13 19:20:18

Python代碼并行任務

2021-04-29 22:38:04

Python數據庫SQL

2021-04-30 15:34:23

Python 開發編程語言

2020-09-28 12:34:38

Python代碼開發

2019-04-10 09:39:42

代碼存儲系統RPC

2022-02-23 14:37:48

代碼Pythonbug

2022-05-03 17:04:08

CSS前端

2021-01-25 09:36:00

Python代碼文件

2020-08-24 08:25:48

Python開發工具

2014-02-12 13:43:50

代碼并行任務

2020-04-02 10:45:48

多云云計算云平臺
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 涩涩导航 | 国产一区二区三区亚洲 | 欧美视频第二页 | 熟女毛片 | 一级特黄在线 | 中文字幕乱码一区二区三区 | 一区二区蜜桃 | 美女福利视频 | 国产一区二区在线播放视频 | 国产精品人人做人人爽 | 精品一区在线 | 在线天堂免费中文字幕视频 | 在线第一页 | 毛片的网址 | 亚洲一区二区三区在线播放 | 密乳av| 不卡在线一区 | 久久久久久久久久爱 | 欧美freesex黑人又粗又大 | 久久综合一区 | 日本成人综合 | 久久91精品国产一区二区 | 国内精品久久久久 | 色狠狠一区 | 国产人久久人人人人爽 | 午夜电影网| 日韩精品四区 | 欧美多人在线 | 久久久无码精品亚洲日韩按摩 | 精品1区2区 | 美女爽到呻吟久久久久 | www.久久.com| 欧美日韩一卡二卡 | 在线播放国产一区二区三区 | 日韩中文字幕在线观看 | 一级一级毛片免费看 | 欧美精品一区二区在线观看 | 欧美一区二区在线播放 | 黄色免费网址大全 | 国产免费让你躁在线视频 | 狠狠干美女 |