使用PandasGUI進行探索性數據分析
Pandasgui是一個開源的python模塊,它為pandas創建了一個GUI界面,我們可以在其中使用pandas的功能分析數據和使用不同的功能,以便可視化和分析數據,并執行探索性數據分析。
探索性數據分析是最關鍵的部分,無論何時我們使用數據集時都要首先進行分析。它允許我們分析數據,探索數據的初始結果,比如有多少行和列,不同的列是什么,等等。EDA是一種方法,我們使用不同的方法,主要是可視化來總結數據的主要特征。
如果您正在處理數據,EDA是一個重要且最關鍵的步驟。在整個項目中,幾乎有30%的時間是用來探索數據并找出它到底是關于什么的。EDA允許我們并告訴我們如何在建模之前對數據進行預處理。這就是為什么EDA是最重要的,但是我們可以通過自動化所有的EDA工作來節省時間,并且可以在建模中使用節省的時間。
在本文中,我們將探索Pandasgui,并了解如何使用它來自動化探索性數據分析過程,并節省我們的時間和精力。
安裝Pandasgui
和其他庫一樣,我們可以使用pip安裝pandasgui。
- pip install pandasgui
加載數據集
pandasgui中預定義了大量的數據集,我們將使用pandasgui加載一個名為"IRIS"的數據集,這是一個非常著名的數據集,并將使用pandasgui的GUI界面來探索它。我們還將導入"show"函數,該函數將數據集加載到GUI中。
- from pandasgui.datasets import iris
- #importing the show function
- from pandasgui import show
功能介紹
現在我們只需要通過傳遞數據集名稱作為參數來調用show函數,它將啟動一個GUI,在這里我們可以探索它的不同部分,并嘗試探索數據集的不同屬性。
show(iris)

在這里,您可以看到show函數啟動GUI,我們可以清楚地看到包含不同功能的不同選項卡。
讓我們分析一下這個接口的不同部分。
Dataframe

我們可以清楚地分析哪些是不同的屬性以及它們包含哪些值。我們可以清楚地分析所有的值和屬性。在左邊,我們還可以看到dataframe的形狀。
Filters

在本節中,我們可以應用不同的過濾器來分析數據。我們可以簡單地輸入想要運行的查詢并應用過濾器。
Statistics

類似于pandas dataframe的describe功能。它幫助我們分析數據集的統計屬性。
Grapher

這是最重要的部分,在這里我們可以清楚地看到不同類型的可視化,我們可以使用界面創建,并節省了為每個可視化編寫代碼的工作。在上面的圖片中,我創建了sepallength和sepalwidth的散點圖。類似地,您可以通過拖放x、y和其他參數中的列名來創建不同的可視化。
Reshaper

我們可以通過應用不同的函數和改變數據集的形狀來分析數據集。提供的兩種形狀格式是"pivot"和"melt"。我們可以在不同的函數中拖放列,并相應地分析數據集的不同形狀。
總結
這是PandasGUI提供的5個部分,通過這些部分,我們可以分析熊貓數據并對任何給定數據集執行EDA。PandasGUI是一個有用的工具,因為它減少了一遍又一遍編寫代碼的工作量,也節省了時間。