成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

這幾個Python數據可視化探索實例,拿走不謝!

開發 后端
本章主要采用 Pandas 的方式來畫圖,而不是使用 Matplotlib 模塊。其實 Pandas 已經把 Matplotlib 的畫圖方法整合到 DataFrame 中,因此在實際應用中,用戶不需要直接引用 Matplotlib 也可以完成畫圖的工作。

大家好,我是J哥。(文末送書)

利用可視化探索圖表

一、數據可視化與探索圖

 數據可視化是指用圖形或表格的方式來呈現數據。圖表能夠清楚地呈現數據性質, 以及數據間或屬性間的關系,可以輕易地讓人看圖釋義。用戶通過探索圖(Exploratory Graph)可以了解數據的特性、尋找數據的趨勢、降低數據的理解門檻。

二、常見的圖表實例

本章主要采用 Pandas 的方式來畫圖,而不是使用 Matplotlib 模塊。其實 Pandas 已經把 Matplotlib 的畫圖方法整合到 DataFrame 中,因此在實際應用中,用戶不需要直接引用 Matplotlib 也可以完成畫圖的工作。

1.折線圖

 折線圖(line chart)是最基本的圖表,可以用來呈現不同欄位連續數據之間的關系。繪制折線圖使用的是 plot.line() 的方法,可以設置顏色、形狀等參數。在使用上,拆線圖繪制方法完全繼承了 Matplotlib 的用法,所以程序最后也必須調用 plt.show() 產生圖,如圖8.4 所示。

df_iris[['sepal length (cm)']].plot.line()  
plt.show()
ax = df[['sepal length (cm)']].plot.line(color='green',title="Demo",style='--')
ax.set(xlabel="index", ylabel="length")
plt.show()

2.散布圖

散布圖(Scatter Chart)用于檢視不同欄位離散數據之間的關系。繪制散布圖使用的是 df.plot.scatter(),如圖8.5所示。

df = df_iris
df.plot.scatter(x='sepal length (cm)', y='sepal width (cm)')
from matplotlib import cm
cmap = cm.get_cmap('Spectral')
df.plot.scatter(x='sepal length (cm)',
y='sepal width (cm)',
s=df[['petal length (cm)']]*20,
c=df['target'],
cmap=cmap,
title='different circle size by petal length (cm)')

3.直方圖、長條圖

直方圖(Histogram Chart)通常用于同一欄位,呈現連續數據的分布狀況,與直方圖類似的另一種圖是長條圖(Bar Chart),用于檢視同一欄位,如圖 8.6 所示。

df[['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)','petal width (cm)']].plot.hist()
2 df.target.value_counts().plot.bar()

4. 圓餅圖、箱形圖

圓餅圖(Pie Chart)可以用于檢視同一欄位各類別所占的比例,而箱形圖(Box Chart)則用于檢視同一欄位或比較不同欄位數據的分布差異,如圖 8.7 所示。

df.target.value_counts().plot.pie(legend=True)
df.boxplot(column=['target'],?gsize=(10,5))

數據探索實戰分享

本節利用兩個真實的數據集實際展示數據探索的幾種手法。

一、2013年美國社區調查

在美國社區調查(American Community Survey)中,每年約有 350 萬個家庭被問到關于他們是誰及他們如何生活的詳細問題。調查的內容涵蓋了許多主題,包括祖先、教育、工作、交通、互聯網使用和居住。

數據來源:https://www.kaggle.com/census/2013-american-community-survey。

數據名稱:2013 American Community Survey。

先觀察數據的樣子與特性,以及每個欄位代表的意義、種類和范圍。

# 讀取數據
df = pd.read_csv("./ss13husa.csv")
# 欄位種類數量
df.shape
# (756065,231)
# 欄位數值范圍
df.describe()

先將兩個 ss13pusa.csv 串連起來,這份數據總共包含 30 萬筆數據,3 個欄位:SCHL ( 學歷,School Level)、 PINCP ( 收入,Income) 和 ESR ( 工作狀態,Work Status)。

pusa = pd.read_csv("ss13pusa.csv") pusb = pd.read_csv("ss13pusb.csv")
# 串接兩份數據
col = ['SCHL','PINCP','ESR']
df['ac_survey'] = pd.concat([pusa[col],pusb[col],axis=0)

依據學歷對數據進行分群,觀察不同學歷的數量比例,接著計算他們的平均收入。

group = df['ac_survey'].groupby(by=['SCHL']) print('學歷分布:' + group.size())
group = ac_survey.groupby(by=['SCHL']) print('平均收入:' +group.mean())

二、波士頓房屋數據集

 波士頓房屋數據集(Boston House Price Dataset)包含有關波士頓地區的房屋信息, 包 506 個數據樣本和 13 個特征維度。

數據來源:https://archive.ics.uci.edu/ml/machine-learning-databases/housing/。

數據名稱:Boston House Price Dataset。

先觀察數據的樣子與特性,以及每個欄位代表的意義、種類和范圍。

可以用直方圖的方式畫出房價(MEDV)的分布,如圖 8.8 所示。

df = pd.read_csv("./housing.data")
# 欄位種類數量
df.shape
# (506, 14)
#欄位數值范圍df.describe()
import matplotlib.pyplot as plt
df[['MEDV']].plot.hist()
plt.show()

注:圖中英文對應筆者在代碼中或數據中指定的名字,實踐中讀者可將它們替換成自己需要的文字。

接下來需要知道的是哪些維度與“房價”關系明顯。先用散布圖的方式來觀察,如圖8.9所示。

# draw scatter chart  
df.plot.scatter(x='MEDV', y='RM') .
plt.show()

最后,計算相關系數并用聚類熱圖(Heatmap)來進行視覺呈現,如圖 8.10 所示。

# compute pearson correlation  
corr = df.corr()
# draw heatmap
import seaborn as sns
corr = df.corr()
sns.heatmap(corr)
plt.show()

顏色為紅色,表示正向關系;顏色為藍色,表示負向關系;顏色為白色,表示沒有關系。RM 與房價關聯度偏向紅色,為正向關系;LSTAT、PTRATIO 與房價關聯度偏向深藍, 為負向關系;CRIM、RAD、AGE 與房價關聯度偏向白色,為沒有關系。

聲明:本文選自清華大學出版社的《深入淺出python數據分析》一書,略有修改,經出版社授權刊登于此。

責任編輯:龐桂玉 來源: 菜J學Python
相關推薦

2020-10-22 08:52:52

Python數據集可視化

2018-10-18 13:59:36

2023-05-06 12:57:34

Python工具

2022-05-20 08:17:43

Java日志

2020-05-18 07:50:47

線上故障排查

2020-03-11 14:39:26

數據可視化地圖可視化地理信息

2020-07-06 10:38:44

辦公軟件工具效率

2018-07-03 16:07:50

2017-10-14 13:54:26

數據可視化數據信息可視化

2023-11-30 09:34:14

數據可視化探索

2018-02-04 22:22:46

大數據開發工具

2022-08-26 09:15:58

Python可視化plotly

2016-12-23 17:20:56

2020-05-26 11:34:46

可視化WordCloud

2022-02-23 09:50:52

PythonEchartspyecharts

2024-03-06 19:57:56

探索商家可視化

2015-10-14 17:59:53

Google數據探索交互開發

2020-03-01 13:47:21

Excel數據分析數據處理

2017-10-31 09:38:53

大數據數據可視化Python

2017-10-19 21:56:55

數據可視化大數據數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: av大片在线 | 99久久精品视频免费 | 久久精品小视频 | 国产成人精品网站 | 一区二区三区精品 | 在线免费看黄 | 成人网在线观看 | 国产免费av在线 | 午夜一区二区三区视频 | 色视频网站 | 欧洲免费毛片 | 成人av网站在线观看 | 久热免费| 五月网婷婷 | 91丨国产| 国产馆 | 国产精品久久久久久久久久 | 成人国产免费观看 | 成人av一区二区在线观看 | 欧美日韩午夜精品 | 夜夜艹 | 日韩欧美国产一区二区三区 | 国产大片黄色 | 天天看天天操 | 久久久国产精品 | 逼逼网| 91 在线| 视频一区在线观看 | 国产精品亚洲一区二区三区在线观看 | 欧洲一区二区在线 | 国产欧美精品一区二区 | 欧美精品久久 | 亚洲一区二区三区四区五区午夜 | 国产区第一页 | 色狠狠一区 | 日本一区二区三区四区 | 日韩精品一区二区在线观看 | av在线电影网站 | 成人在线中文字幕 | 国产亚洲精品美女久久久久久久久久 | 日韩国产中文字幕 |