最佳大數(shù)據(jù)可視化技術(shù)
研究人員一致認(rèn)為,視覺是我們的主要意識(shí):我們感知,學(xué)習(xí)或處理的信息中有80-85%是通過視覺進(jìn)行調(diào)節(jié)的。 當(dāng)我們?cè)噲D理解和解釋數(shù)據(jù)時(shí),或者當(dāng)我們尋找數(shù)百或數(shù)千個(gè)變量之間的關(guān)系以確定它們的相對(duì)重要性時(shí),情況就更是如此。 識(shí)別重要關(guān)系的最有效方法之一是通過高級(jí)分析和易于理解的可視化。
數(shù)據(jù)可視化幾乎應(yīng)用于所有知識(shí)領(lǐng)域。 不同學(xué)科的科學(xué)家使用計(jì)算機(jī)技術(shù)對(duì)復(fù)雜事件建模并可視化無法直接觀察到的現(xiàn)象,例如天氣模式,醫(yī)療條件或數(shù)學(xué)關(guān)系。
數(shù)據(jù)可視化提供了一套重要的工具和技術(shù),可用于定性理解。 基本技術(shù)如下圖:
線圖
線圖是最簡(jiǎn)單的技術(shù),用于繪制一個(gè)變量與另一個(gè)變量之間的關(guān)系或依存關(guān)系。 要繪制兩個(gè)變量之間的關(guān)系,我們可以簡(jiǎn)單地調(diào)用plot函數(shù)。
條形圖
條形圖用于比較不同類別或組的數(shù)量。 類別的值通過條形圖表示,可以用垂直或水平條形圖配置,每個(gè)條形圖的長(zhǎng)度或高度代表該值。
餅圖和甜甜圈圖
關(guān)于餅圖和甜甜圈圖的價(jià)值存在很多爭(zhēng)論。 通常,它們用于比較整體的各個(gè)部分,并且在組成部分有限以及包含文本和百分比來描述內(nèi)容時(shí)最有效。 但是,它們可能難以解釋,因?yàn)槿搜酆茈y估計(jì)區(qū)域并比較視角。
直方圖
直方圖表示連續(xù)變量在給定間隔或時(shí)間段內(nèi)的分布,是機(jī)器學(xué)習(xí)中最常用的數(shù)據(jù)可視化技術(shù)之一。 它通過將數(shù)據(jù)分成多個(gè)塊(稱為" bin")來繪制數(shù)據(jù)。 它用于檢查基礎(chǔ)頻率分布,離群值,偏斜度等。
散點(diǎn)圖
另一種常見的可視化技術(shù)是散布圖,散布圖是表示兩個(gè)數(shù)據(jù)項(xiàng)的聯(lián)合變化的二維圖。 每個(gè)標(biāo)記(點(diǎn),正方形和加號(hào)等符號(hào))表示一個(gè)觀察值。 標(biāo)記位置指示每個(gè)觀察值。 當(dāng)您分配兩個(gè)以上的度量時(shí),將生成一個(gè)散布圖矩陣,該矩陣是一系列散布圖,顯示分配給可視化的各對(duì)度量的所有可能配對(duì)。 散點(diǎn)圖用于檢查X和Y變量之間的關(guān)系或相關(guān)性。
可視化大數(shù)據(jù)
今天,組織每分鐘都會(huì)生成和收集數(shù)據(jù)。 由于必須考慮到信息的速度,大小和多樣性,因此生成的大量數(shù)據(jù)(稱為大數(shù)據(jù))給可視化帶來了新的挑戰(zhàn)。 此類數(shù)據(jù)的數(shù)量,種類和速度要求組織從技術(shù)上離開其舒適區(qū),以獲取有效決策所需的情報(bào)。 基于數(shù)據(jù)分析核心基礎(chǔ)的新的更復(fù)雜的可視化技術(shù)不僅考慮了基數(shù),還考慮了此類數(shù)據(jù)的結(jié)構(gòu)和來源。
非參數(shù)數(shù)據(jù)的內(nèi)核密度估計(jì)
如果我們不了解數(shù)據(jù)的總體和底層分布,則將此類數(shù)據(jù)稱為非參數(shù)數(shù)據(jù),并借助代表隨機(jī)變量概率分布函數(shù)的內(nèi)核密度函數(shù)將其可視化。 當(dāng)數(shù)據(jù)的參數(shù)分布沒有太大意義,并且您希望避免對(duì)數(shù)據(jù)進(jìn)行假設(shè)時(shí),可以使用它。
大數(shù)據(jù)的盒須圖
帶須狀圖的裝箱圖顯示了大數(shù)據(jù)的分布,并且很容易看到異常值。 本質(zhì)上,它是五個(gè)統(tǒng)計(jì)信息(最小值,下四分位數(shù),中位數(shù),上四分位數(shù)和最大值)的圖形顯示,總結(jié)了一組數(shù)據(jù)的分布。 較低的四分位數(shù)(第25個(gè)百分位數(shù))由框的下邊緣表示,較高的四分位數(shù)(第75個(gè)百分位數(shù))由框的上邊緣表示。 中位數(shù)(第50個(gè)百分位數(shù))由中心線表示,該中心線將框分成多個(gè)部分。 極值由從盒子邊緣伸出的晶須表示。 箱形圖通常用于了解數(shù)據(jù)中的異常值。
非結(jié)構(gòu)化數(shù)據(jù)的詞云和網(wǎng)絡(luò)圖
大數(shù)據(jù)的多樣性帶來了挑戰(zhàn),因?yàn)榘虢Y(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)需要新的可視化技術(shù)。 詞云視覺表示一個(gè)詞在文本主體中的出現(xiàn)頻率及其在云中的相對(duì)大小。 此技術(shù)用于非結(jié)構(gòu)化數(shù)據(jù),作為顯示高頻或低頻單詞的一種方式。
可以用于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)的另一種可視化技術(shù)是網(wǎng)絡(luò)圖。 網(wǎng)絡(luò)圖將關(guān)系表示為節(jié)點(diǎn)(網(wǎng)絡(luò)內(nèi)的各個(gè)參與者)和關(guān)系(關(guān)系在個(gè)人之間)。 它們被用于許多應(yīng)用程序中,例如,用于分析社交網(wǎng)絡(luò)或繪制跨地理區(qū)域的產(chǎn)品銷售情況。
相關(guān)矩陣
相關(guān)矩陣可以通過結(jié)合大數(shù)據(jù)和快速響應(yīng)時(shí)間來快速識(shí)別變量之間的關(guān)系。 基本上,相關(guān)矩陣是一個(gè)表,顯示變量之間的相關(guān)系數(shù):表中的每個(gè)單元格代表兩個(gè)變量之間的關(guān)系。 相關(guān)矩陣被用作匯總數(shù)據(jù)的方式,被用作更高級(jí)分析的輸入,并且被用作高級(jí)分析的診斷。
數(shù)據(jù)可視化可能會(huì)成為任何演示文稿的寶貴補(bǔ)充,也是理解數(shù)據(jù)的最快途徑。 此外,可視化數(shù)據(jù)的過程既令人愉快又充滿挑戰(zhàn)。 但是,利用許多可用的技術(shù),很容易最終使用錯(cuò)誤的工具來呈現(xiàn)信息。 要選擇最合適的可視化技術(shù),您需要了解數(shù)據(jù),其類型和組成,您要傳達(dá)給觀眾的信息以及觀看者如何處理視覺信息。 有時(shí),簡(jiǎn)單的線圖可以節(jié)省使用高級(jí)大數(shù)據(jù)技術(shù)繪制數(shù)據(jù)時(shí)所花費(fèi)的時(shí)間和精力。 了解您的數(shù)據(jù)-它將為您打開其隱藏的值。