成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

5個可以幫助Pandas進行數據預處理的可視化圖表

大數據
在本文中,我將討論五個強大的數據可視化選項,它們可以立即提供數據特征的感覺。即使在正式建模或假設測試任務之前,執行EDA就可以傳達大量關于數據和特征之間關系的信息。

"一目了然勝過千言萬語。"分析數據點的探索性數據分析(EDA)是在算法的數據建模之前制定假設的正確步驟。

 

5個可以幫助pandas進行數據預處理的可視化圖表

數據科學行業中一個最常見的陷阱是花費數小時為他們的項目尋找最佳算法,而沒有花足夠的時間首先理解數據。

數據科學和機器學習項目的結構化方法從項目目標開始。同一組數據點可以推斷出一些有意義的信息。基于我們所尋找的,我們需要關注數據的另一個方面。一旦我們明確了目標,我們就應該開始考慮我們需要的數據點。這將使我們能夠專注于最相關的信息集,而忽略可能不重要的數據集。

在現實生活中,從多個來源收集到的大多數時間數據都有空白值、打字錯誤和其他異常。在進行任何數據分析之前,清除數據是至關重要的。

在本文中,我將討論五個強大的數據可視化選項,它們可以立即提供數據特征的感覺。即使在正式建模或假設測試任務之前,執行EDA就可以傳達大量關于數據和特征之間關系的信息。

第1步-我們將導入pandas、matplotlib、seaborn和NumPy包,我們將使用這些包進行分析。我們需要散點圖、自相關圖、滯后圖和平行圖。

  1. import pandas as pd 
  2. import numpy as np 
  3. import matplotlib.pyplot as plt 
  4. from pandas.plotting import autocorrelation_plot 
  5. import seaborn as sns 
  6. from pandas.plotting import scatter_matrix 
  7. from pandas.plotting import autocorrelation_plot 
  8. from pandas.plotting import parallel_coordinates 
  9. from pandas.plotting import lag_plot 

第2步-在Seaborn包中,有一個內置的小數據集。我們將使用"mpg"、"tips"和"attention"數據進行可視化。數據集是在seaborn中使用load_dataset方法加載的。

  1. """Download the datasets used in the program """ 
  2. CarDatabase= sns.load_dataset("mpg"
  3. MealDatabase= sns.load_dataset("tips"
  4. AttentionDatabase= sns.load_dataset("attention"

六邊形分箱圖(hexpin)

我們經常使用散點圖來快速掌握變量之間的關系。只要圖中沒有人口稠密的數據點,獲得一個洞察力是非常有幫助的。在下面的代碼中,我們繪制了"mpg"數據集中"Horsepower" 和"Acceleration"數據點之間的散點圖。

  1. plt.scatter(CarDatabase.acceleration ,CarDatabase.horsepower,marker="^")  
  2. plt.show() 

散點圖中的點密集分布,從中獲取有意義的信息有點困難。

 

5個可以幫助pandas進行數據預處理的可視化圖表

hexpins是解決重疊點散點圖的一個很好的替代方案。每個點不是在hexbin圖中單獨繪制的。在下面的代碼中,我們用相同的數據集在"Horsepower" 和"Acceleration"之間繪制一個hexbin。

  1. CarDatabase.plot.hexbin(x='acceleration', y='horsepower', gridsize=10,cmap="YlGnBu")  
  2. plt.show() 

在hexpin圖中可以清楚地推斷"Horsepower" 和"Acceleration"范圍集中值,變量之間呈負線性關系。六邊形的大小取決于"網格大小"參數。

 

5個可以幫助pandas進行數據預處理的可視化圖表

熱力圖(Heatmaps)

熱力是我個人最喜歡查看不同變量之間的相關性。那些在媒體上跟蹤我的人可能已經注意到我經常使用它。在下面的代碼中,我們將計算seaborn"mpg"數據集中所有變量之間的成對相關性,并將其繪制為熱力圖。

熱力圖是我個人最喜歡查看不同變量之間的相關性。那些在媒體上跟蹤我的人可能已經注意到我經常使用它。在下面的代碼中,我們將計算seaborn"mpg"數據集中所有變量之間的成對相關性,并將其繪制為熱力圖。

  1. sns.heatmap(CarDatabase.corr(), annot=True, cmap="YlGnBu")  
  2. plt.show() 

我們可以看到"cylinders" 和 "horsepower" 是密切正相關的(正如在汽車中所預期的),而重量與加速度成反比。我們只需幾行代碼就可以快速理解所有不同變量之間的指示性關系。

 

5個可以幫助pandas進行數據預處理的可視化圖表

自相關圖(Autocorrelation)

自相關圖是一個快速的試金石測試,以確定數據點是否隨機。如果數據點遵循某種趨勢,那么一個或多個自相關將顯著非零。圖中的虛線顯示99%的置信區間。在下面的代碼中,我們正在檢查"tips"數據庫中的總帳單金額是否是隨機的。

  1. autocorrelation_plot(MealDatabase.total_bill)  
  2. plt.show() 

我們可以看到,自相關圖在所有時間滯后中都非常接近于零,這表明總的_bill數據點是隨機的。

 

5個可以幫助pandas進行數據預處理的可視化圖表

當我們按照特定順序繪制數據點的自相關圖時,我們可以看到該圖顯著地非零。

  1. data = pd.Series(np.arange(12,7000,16.3)) autocorrelation_plot(data)  
  2. plt.show() 

 

5個可以幫助pandas進行數據預處理的可視化圖表

滯后圖(Lag)

滯后圖也有助于驗證數據集是隨機值集還是遵循某種趨勢。當繪制"tips"數據集的"total_bills"值的滯后圖時,就像在自相關圖中一樣,滯后圖表明它是隨機數據,到處都有值。

  1. lag_plot(MealDatabase.total_bill)  
  2. plt.show() 

 

5個可以幫助pandas進行數據預處理的可視化圖表

當我們延遲繪制一個非隨機數據序列時,如下面的代碼所示,我們得到了一條平滑的線條。

  1. data = pd.Series(np.arange(-12*np.pi,300*np.pi,10))  
  2. lag_plot(data)  
  3. plt.show() 

 

5個可以幫助pandas進行數據預處理的可視化圖表

平行坐標圖(Parallel coordinates)

把我們的大腦包圍起來并將其可視化不僅僅是三維數據,這一直是一個挑戰。繪制高維數據集的平行坐標非常有用。每個尺寸用一條垂直線表示。

在平行坐標系中,"N"等距垂直線表示數據集的"N"維度。頂點在第n個軸上的位置對應于該點的第n個坐標。

讓我們考慮一個小樣本數據,它有五個小部件和大尺寸小部件的五個特性。

 

5個可以幫助pandas進行數據預處理的可視化圖表

垂直線表示小部件的每個功能。一系列連續的線段代表"小"和"大"小部件的特征值。

 

5個可以幫助pandas進行數據預處理的可視化圖表

下面的代碼繪制了seaborn中"attention"數據集的平行坐標。請注意,群集的點看起來更靠近。

  1. parallel_coordinates(AttentionDatabase,"attention",color=('#556270''#C7F464'))  
  2. plt.show() 

 

5個可以幫助pandas進行數據預處理的可視化圖表

我希望你能開始使用這些現成的繪圖來執行探索性的數據分析

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2023-02-15 08:24:12

數據分析數據可視化

2021-07-17 22:41:53

Python數據技術

2021-11-09 08:15:18

Grafana 數據可視化運維

2018-05-07 14:50:27

可視化數據散點圖

2015-08-20 10:04:40

可視化

2020-03-01 14:01:22

Echarts數據可視化圖表

2022-11-28 15:04:42

數據可視化工具

2021-04-09 10:42:03

數據可視化框架大數據

2024-10-30 10:00:00

Python函數

2020-09-27 11:15:37

可視化PandasPython

2021-10-11 08:04:22

Python數據行程

2022-05-30 08:37:34

可視化圖表項目開源

2019-05-28 11:52:43

可視化圖表數據

2017-08-15 18:55:57

大數據數據可視化圖表

2020-12-17 09:40:01

Matplotlib數據可視化命令

2024-05-22 16:03:49

2020-03-11 14:39:26

數據可視化地圖可視化地理信息

2021-05-12 11:30:23

Python自然語言技術

2020-12-14 14:16:34

Pandas數據預處理

2024-10-24 16:43:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产精品一区二区在线播放 | 国产精品一区二区av | 亚洲精品久久区二区三区蜜桃臀 | 亚洲三级在线 | 亚洲成人日韩 | 在线精品一区二区 | 亚洲一区二区在线视频 | 国产成人精品久久二区二区91 | 欧美日韩在线综合 | 欧美成人精品激情在线观看 | 国产中文字幕在线 | 伊人免费视频二 | 91精品国产乱码久久久久久 | 亚洲精品一区二区三区蜜桃久 | 亚洲欧美自拍偷拍视频 | 久久人人网 | 亚洲精品自在在线观看 | 欧美日韩国产一区二区三区不卡 | 欧美日韩国产一区二区 | 欧美一级三级在线观看 | 日韩精品av一区二区三区 | 亚洲永久入口 | 精品欧美一区二区久久久伦 | 日韩一区二区在线视频 | 国产精品美女久久久久久久久久久 | 国产真实精品久久二三区 | 成人a免费 | 蜜桃视频在线观看免费视频网站www | 国产免费视频 | 91视频网址 | 成人三区四区 | 一区二区福利视频 | 亚洲综合视频一区 | 99中文字幕 | 亚洲成人精品国产 | 亚洲v日韩v综合v精品v | 免费久久99精品国产婷婷六月 | 亚洲一区二区三区欧美 | 激情 一区 | 国产精品久久免费观看 | 国产一区二区久久久 |