成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

簡單好用,分享四款 Pandas 自動數據分析神器!

開發 后端
本文會對比介紹 4 款常用的EDA工具,最后一款絕了,完全是拋棄代碼的節奏。

我們做數據分析,在第一次拿到數據集的時候,一般會用統計學或可視化方法來了解原始數據。

了解列數、行數、取值分布、缺失值、列之間的相關關系等等,這個過程叫做 EDA(Exploratory Data Analysis,探索性數據分析)。

如果你現在做EDA還在用pandas一行行寫代碼,那么福音來了!

目前已經有很多EDA工具可以自動產出基礎的統計數據和圖表,能為我們節省大量時間。

本文會對比介紹 4 款常用的EDA工具,最后一款絕了,完全是拋棄代碼的節奏。

正式介紹這些工具之前,先來加載數據集。

import numpy as np
import pandas as pd
iris = pd.read_csv('iris.csv')
iris

iris是下面用到的數據集,是一個150行 * 4列的 DataFrame。

1. PandasGUI

PandasGUI提供數據預覽、篩選、統計、多種圖表展示以及數據轉換。

# 安裝
# pip install pandasgui
from pandasgui import show
show(iris)

PandasGUI操作界面

PandasGUI更側重數據展示,提供了10多種圖表,通過可視的方式配置。

但數據統計做的比較簡單,沒有提供缺失值、相關系數等指標,數據轉換部分也只開放了一小部分接口。

2. Pandas Profiling

Pandas Profiling 提供了整體數據概況、每列的詳情、列之間的關圖、列之間的相關系數。

# 安裝:
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension
from pandas_profiling import ProfileReport
profile = ProfileReport(iris, title='iris Pandas Profiling Report', explorative=True)
profile

Pandas Profiling操作界面

每列的詳情包括:缺失值統計、去重計數、最值、平均值等統計指標和取值分布的柱狀圖。

列之間的相關系數支持Spearman、Pearson、Kendall 和 Phik 4 種相關系數算法。

與 PandasGUI 相反,Pandas Profiling沒有豐富的圖表,但提供了非常多的統計指標以及相關系數。

3. Sweetviz

Sweetviz與Pandas Profiling類似,提供了每列詳細的統計指標、取值分布、缺失值統計以及列之間的相關系數。

# 安裝
# pip install sweetviz
import sweetviz as sv
sv_report = sv.analyze(iris)
sv_report.show_html()

Sweetviz操作界面

Sweetviz還有有一個非常好的特性是支持不同數據集的對比,如:訓練數據集和測試數據集的對比。

Sweetviz數據集對比

藍色和橙色代表不同的數據集,通過對比可以清晰發現數據集之前的差異。

4. dtale

最后重磅介紹dtale,它不僅提供豐富圖表展示數據,還提供了很多交互式的接口,對數據進行操作、轉換。

dtale操作界面

dtale的功能主要分為三部分:數據操作、數據可視化、高亮顯示。

4.1 數據操作(Actions)

dtale將pandas的函數包裝成可視化接口,可以讓我們通過圖形界面方式來操作數據。

# pip install dtale
import dtale
d = dtale.show(iris)
d.open_browser()

Actions

右半部分圖是左邊圖的中文翻譯,用的是 Chrome 自動翻譯,有些不是很準確。

舉一個數據操作的例子。

Summarize Data

上圖是Actions菜單中Summarize Data的功能,它提供了對數據集匯總操作的接口。

上圖我們選擇按照species列分組,計算sepal_width列的平均值,同時可以看到左下角dtale已經自動為該操作生成了pandas代碼。

4.2 數據可視化(Visualize)

提供比較豐富的圖表,對每列數據概況、重復行、缺失值、相關系數進行統計和展示。

Visualize

舉一個數據可視化的例子。

Describe

上圖是Visualize菜單中Describe的功能,它可以統計每列的最值、均值、標準差等指標,并提供圖表展示。

右側的Code Export可以查看生成這些數據的代碼。

4.3 高亮顯示(Highlight)

對缺失值、異常值做高亮顯示,方便我們快速定位到異常的數據。

Highlight

上圖顯示了將sepal_width字段的異常值。

dtale非常強大,功能也非常多,大家可以多多探索、挖掘。

最后,簡單總結一下。如果探索的數據集側重數據展示,可以選PandasGUI;如果只是簡單了解基本統計指標,可以選擇Pandas Profiling和Sweetviz;如果需要做深度的數據探索,那就選擇dtale。

責任編輯:龐桂玉 來源: Python開發者
相關推薦

2022-06-28 22:13:33

Polars數據處理與分析

2017-07-20 16:40:36

大數據分析工具

2024-06-13 11:54:03

2019-01-29 15:43:28

數據分析數據挖掘分析方法

2024-01-09 13:58:22

PandasPython數據分析

2023-12-01 08:09:45

開源圖片編輯器

2022-11-11 11:35:14

2022-02-06 11:35:53

SQL數據函數

2017-02-21 17:01:32

JavaScript數據分析可視化

2020-06-05 14:29:07

PythonPandas數據分析

2022-07-08 06:01:37

D-Tale輔助工具

2019-11-04 15:00:01

DatatableR語言數據科學

2021-12-24 10:45:19

PandasLambda數據分析

2022-05-10 09:33:50

Pandas技巧代碼

2017-09-01 09:52:20

PythonPandas數據分析

2024-01-25 10:40:11

AutoProfil開源分析工具

2016-03-21 11:09:52

Tableau/大數據

2025-04-02 09:33:01

2023-11-21 09:11:31

2023-01-28 10:09:00

Pandas數據分析Python
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产一区二区视频 | 一级片aaa | 亚洲精品黑人 | 国产精品亚洲一区 | 成人在线h| 国产精品一区二区三区四区 | 5060网一级毛片 | 最新国产精品 | 精品久久久久久久久久久久久久久久久 | 日韩欧美在线观看视频 | 亚洲在线一区 | 国产日韩免费观看 | 亚洲综合精品 | 一区二区免费在线 | 色先锋影音| 久久国产一区二区三区 | 欧美嘿咻 | 欧美日韩手机在线观看 | 国产成人久久av免费高清密臂 | 91极品欧美视频 | 国产毛片视频 | 亚洲伦理自拍 | 在线播放中文字幕 | 日韩视频―中文字幕 | 欧美成人精品激情在线观看 | www.亚洲成人网 | 一区二区中文字幕 | 激情伊人网 | 欧美一级淫片免费视频黄 | 日韩精品免费在线观看 | 久久国产免费 | 毛片网络 | 99精品一区二区 | 一区二区三区欧美大片 | 一色桃子av一区二区 | 亚洲免费精品 | 久久伊人影院 | 午夜影院 | 黄 色 毛片免费 | 美女黄网站 | 精品国产乱码久久久久久88av |