數據可視化——“科學與藝術的結合”
數據可視化,是關于數據視覺表現形式,在大數據領域中,素來有“科學與藝術的結合”的說法。這種數據的視覺表現形式被定義為,一種以某種概要形式抽提出來的信息,包括相應信息單位的各種屬性和變量。
事實上,數據可視化是一個處于不斷演變之中的概念,其邊界在不斷地擴大。這里的變化主要指的是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。與立體建模之類的特殊技術方法相比,數據可視化所涵蓋的技術方法要廣泛得多。
數據可視化源于統計學,而且由來已久。
弗羅倫斯·南丁格爾(國際護士節是其生日),除了是人道主義具象化的護士界偶像,更是一名統計學家,其發明的“南丁格爾玫瑰圖”被推崇至今。
南丁格爾玫瑰圖
出于對資料統計的結果會不受人重視的憂慮,她發展出一種色彩繽紛的圖表形式,讓數據能夠更加讓人印象深刻。 這種圖表形式有時也被稱作「南丁格爾的玫瑰」,是一種圓形的直方圖。 南丁格爾自己常昵稱這類圖為雞冠花圖(coxcomb),并且用以表達軍醫院季節性的死亡率,對象是那些不太能理解傳統統計報表的公務人員。 她的方法打動了當時的高層,包括軍方人士和維多利亞女王本人,于是醫事改良的提案才得到支持。
南丁格爾在1859年南丁格爾被選為英國皇家統計學會的第一個女成員,她后來成為美國統計協會的名譽會員
今天就來講一講如何制作數據可視化報表。
數據可視化的魅力并不在于統計,而是在于表現數據與數據之間的關系。
數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。通常一個數據可視化的表格需要的數據有兩個:
1:維度
2:度量(數字)
一個完整的圖表是必須同時有維度和度量兩個指標的。
對應圖表中的指標通常有四個:
1:行
2:列
3:篩選邏輯(變量關系)
4:標記(圖形表現)
我們以天通苑地區海鮮餐館數據為例,在大數據魔鏡公開的免費版中制作了一張散點氣泡圖,旨在表現不同餐館在不同人均消費和人氣間的分布關系。(此次數據為示例數據,并無商業參考價值,圖表制作工具為大數據魔鏡)
其中人氣和人均是度量,地址是維度,以人氣和人均生成數軸,以地址為顏色篩選信息,就會以不同地址不同顏色的形式生成氣泡分布在各個人氣和人均的范圍內。
以此類推,我們將篩選的邏輯替換為大小,那么不同地址的信息就會以不同大小的形式展現。
如果著重表現對比情況,且表現數據不存在同屬關系(鐵桌子與木桌子同屬桌子),可以用更直觀的大線條大色塊圖表。比如條形圖:
我們將人均提交到列,地址提交到行,以人氣為顏色篩選基礎,所生成的條形圖,除了表現在不同維度(地址)之下,各家餐館的人均水平,更以顏色區分出了人氣高低。這樣我們就可以先行從顏色區分出生意比較好的幾家餐館,參考其在市場中占據了哪些檔次的消費??梢缘贸雠袛嘣谥械蜋n的市場中,這兩家對手取得了絕對優勢,如果再行入場,未免過度競爭壓力,可以優先考慮高端市場,又因為高端市場體量不大,所以更適合精細化運營節省成本做小而美的路子。
類似這樣能快速篩選出不同指標的強勁維度所適合的圖表還有樹狀圖:
當然在剛開頭時,我們就講,數據可視化的魅力,并不在于統計,而是展示出數據之間的邏輯關系。
所以當我們加入新維度,篩選出主要的對標企業時,并生成可折疊樹形圖時,我們就可以看到目前主要的對標企業都在干什么:
當要參考的維度足夠多,而指標趨于簡單時,和弦圖和顯然會更適合這樣的情況。
對于一個報表而言,其展現的邏輯關系是與其維度的數量息息相關的。當維度足夠多,就需要更復雜的力布局圖形,一般這種圖表在各大公司都是收費的,如下圖:
此外常見的數據可視化圖,還有地圖類的圖表(地圖類示例來自地圖慧)
除了色塊地圖,比較受歡迎的地圖類圖表還有:
詞云圖現在也常被媒體拿出來總結輿情:
在乙方公司的收費可視化產品里,還有很多分析更復雜維度的企業用視覺可視化圖表:
Gephi
birdeye
Better World Flux
目前,在研究、教學和開發領域,數據可視化乃是一個極為活躍而又關鍵的方面。“數據可視化”這條術語實現了成熟的科學可視化領域與較年輕的信息可視化領域的統一。
盡管看起來只是簡單的表格,但實際上數據可視化包含了數據空間、數據開發、數據分析、數據可視化。
數據可視化已經提出了許多方法,這些方法根據其可視化的原理不同可以劃分為基于幾何的技術、面向像素技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等等。
但數據可視化的要點從來沒有變過,可視化的唯一目的就是為了溝通。然而,設計人員往往并不能很好地把握設計與功能之間的平衡,從而創造出華而不實的數據可視化形式,無法達到其主要目的。這就需要多動動腦筋了。