用藝術(shù)的眼光探索數(shù)據(jù)之美
獨(dú)特的數(shù)據(jù)可視化技術(shù),用于深入了解數(shù)據(jù)。當(dāng)我們觀想它時(shí),它的美就顯現(xiàn)出來(lái)了。可視化是一種更方便的方式,可以一目了然地了解大量數(shù)據(jù)。在深入分析的情況下,我們應(yīng)該用數(shù)據(jù)圖形表示技術(shù)的思想。我們經(jīng)常使用bar charts, histograms, pie charts, boxplots, heatmaps, scatter plots, line plots等等這些典型的圖,這些圖對(duì)于數(shù)據(jù)可視化是必不可少的。除了這些被廣泛使用的情況外,還有許多精湛的情節(jié)卻很少被使用。當(dāng)我們考慮分析數(shù)據(jù)并以藝術(shù)方式表示時(shí),這些圖有助于發(fā)現(xiàn)洞察。
1 平行坐標(biāo)圖
實(shí)際上,我們最多可以可視化 3 維數(shù)據(jù)。但有時(shí),我們需要可視化超過(guò) 3 維的數(shù)據(jù)才能獲得洞察力。我們經(jīng)常使用 PCA 或 t-SNE 來(lái)降維并繪制它。在降維的情況下,可能會(huì)丟失大量信息。在某些情況下,我們需要考慮所有需要,平行坐標(biāo)圖有助于做到這一點(diǎn)。
看上面的圖片。水平線(平行軸)代表鳶尾花的特征(Petal length, Sepal length, Sepal width, Petal width) 。類別是Setosa, Versicolor and Virginica。上圖將物種編碼為Setosa →1、Versicolor →2 和 Virginica →3。每個(gè)平行軸包含最小值到最大值(例如,花瓣長(zhǎng)度從 1 到 6.9,萼片長(zhǎng)度從 4.3 到 7.9,等等)。例如花瓣長(zhǎng)度軸,表明該品種的花瓣長(zhǎng)度Setosa 與其他兩個(gè)品種相比較小,且Virginica 最高。所以,通過(guò)這張圖,我們可以很容易地得到數(shù)據(jù)集的整體信息。
2 六角裝箱圖
六角裝箱是用六邊形二維數(shù)值的密度直觀地表示數(shù)據(jù)點(diǎn)的過(guò)程。
利用上面的數(shù)據(jù)集來(lái)繪制的六邊形分箱圖。如果仔細(xì)觀察,我們會(huì)發(fā)現(xiàn)總面積被分成了無(wú)數(shù)個(gè)六邊形。每個(gè)六邊形覆蓋特定區(qū)域。我們注意到六邊形有顏色變化。六邊形有的沒(méi)有顏色,有的是淡綠色,有的顏色很深。根據(jù)圖右側(cè)顯示的色標(biāo),顏色密度隨密度變化。比例表示具有顏色變化的數(shù)據(jù)點(diǎn)的數(shù)量。六邊形沒(méi)有填充顏色,這意味著該區(qū)域沒(méi)有數(shù)據(jù)點(diǎn)。
3 等值線圖
二維等高線密度圖是另一種可視化特定區(qū)域中數(shù)據(jù)點(diǎn)密度的方法。這樣做是為了找到兩個(gè)數(shù)值變量的密度。例如,下圖顯示了每個(gè)陰影區(qū)域中有多少數(shù)據(jù)點(diǎn)落入。
4 QQ-plot圖
QQ 代表 Quantile — Quantile plot (Quantile/percentile 是一個(gè)范圍,在這個(gè)范圍內(nèi),指定百分比的數(shù)據(jù)已經(jīng)下降。例如,第 10 個(gè) quantile/percentile 表示在該范圍下,找到了 10% 的數(shù)據(jù),找到了 90%超出范圍)。這是一種直觀地檢查數(shù)值變量是否服從正態(tài)分布的方法。
(a) 樣本分布 (b) 標(biāo)準(zhǔn)正態(tài)分布
圖(a)是樣本分布;另一方面,(b)是標(biāo)準(zhǔn)正態(tài)分布。對(duì)于樣本分布,數(shù)據(jù)范圍為10 到 100 (100% 數(shù)據(jù)在 10 到 100 之間)。但對(duì)于標(biāo)準(zhǔn)正態(tài)分布,100% 的數(shù)據(jù)在范圍內(nèi)-3 到 3 (z-score)。在 QQ 圖中,兩個(gè) x 軸值均分為 100 個(gè)相等的部分(稱為分位數(shù))。如果我們針對(duì) x 和 y 軸繪制這兩個(gè)值,我們將得到一個(gè)散點(diǎn)圖。
散點(diǎn)圖位于對(duì)角線上。這意味著樣本分布是正態(tài)分布的。但是,如果散點(diǎn)圖位于左側(cè)或右側(cè)而不是對(duì)角線,則表明樣本不是正態(tài)分布的。
5 小提琴圖
小提琴圖與箱線圖相關(guān)。我們從小提琴圖中獲得的另一個(gè)信息是密度分布。簡(jiǎn)單來(lái)說(shuō)就是一個(gè)結(jié)合了密度分布的箱線圖。因此,讓我們將其與箱線圖進(jìn)行比較。
在小提琴圖中,小提琴中間的白點(diǎn)表示中點(diǎn)。實(shí)心框表示四分位數(shù)間距 (IQR)。上下相鄰值是異常值的圍欄。超出范圍,一切都是異常值。下圖顯示了比較。
我們還可以通過(guò)傳遞列名來(lái)繪制不同物種的小提琴圖。
6 旭日?qǐng)D
它是圓環(huán)圖或餅圖的定制化版本,將一些額外的層次信息集成到圖中。
整個(gè)圖表被分成一些環(huán)(從內(nèi)側(cè)到外側(cè))。它包含層次信息,其中內(nèi)環(huán)位于層次結(jié)構(gòu)的頂部,外環(huán)位于較低的順序。
如果我們仔細(xì)觀察數(shù)據(jù)集,第一列包含一年的季度;每個(gè)季度下面有幾個(gè)月,每個(gè)月有幾個(gè)星期。上面的旭日?qǐng)D描述了這種情況。
小結(jié)
數(shù)據(jù)可視化是數(shù)據(jù)科學(xué)不可或缺的一部分。在數(shù)據(jù)科學(xué)中,我們探索數(shù)據(jù)。少量數(shù)據(jù)手動(dòng)分析還好,但是當(dāng)我們處理成千上萬(wàn)的數(shù)據(jù)時(shí),它就變得非常繁重,有時(shí)甚至是不可能的。如果我們無(wú)法找出數(shù)據(jù)集的趨勢(shì)和見(jiàn)解,我們可能無(wú)法使用該數(shù)據(jù)。希望上面的圖可以幫助您從美學(xué)上可視化數(shù)據(jù)并深入了解數(shù)據(jù)。