提高數據可視化效果的五個原則
每當我對數據進行可視化時,不管是靜態圖、動態圖,還是報告、博客中的一部分,甚至是 Twitter的配圖,我都會遵循以下五個原則。
- ?展示數據。
- 減少混亂。
- 圖文結合。
- 避免使用意面圖。
- 從灰色開始。 ?
展示數據和減少混亂意味著減少多余的網格線、標記和陰影,這些都會干擾實際數據。
有力的標題、更好的標簽和有用的注釋將使圖表與其周圍的文本相結合。
當圖表有許多數據系列時, 可以策略性地使用顏色突出顯示感興趣的系列,或者將一個密集的圖表拆分成多個小圖表。
總之,這五個原則會提醒我關注受眾的需求,以及如何用可視化的數據講故事。
原則1:展示數據
讀者只有看到你的數據,才能理解你的重點、觀點或故事。這并不意味著你要展示所有的數據,但你要突出顯示那些支撐觀點的數據。作為圖表的創建者,我們面臨的挑戰是要呈現多少數據,以及呈現的最佳方式。
這張美國的點密度圖,使用了自2010年起,美國十年一次的人口普查數據,每一個點代表一個人,這是全國3.08億居民在人口普查區(一個人口普查區相當于一個街區)的分布情況。注 意,這張圖除了數據什么都沒有,沒有州界,沒有道路,沒有城市標志,也沒有湖泊和河流的標 記。但我們仍然能看出這是美國,因為人們往往生活在邊境和沿海地區,這些數據痕跡勾勒出了整個國家的形狀。
這并不意味著我們必須一直顯示所有的數據。有時圖表顯示的數據太多,很難看出哪些數據更重要。比如這兩張折線圖,都顯示了世界上50個國家的平均受教育年限。
在左邊的圖表中,每個國家都用不同顏色的折線表示。這導致整張圖表非常混亂,無法看出任何一個國家的趨勢。
而在右邊的圖表中,突出顯示了六個重點關注的國家,其他國家全部被設置為灰色,把它們當成背景信息。
這樣,讀者一眼就能看出我們想要強調的國家。這不是說我們要顯示最少的數據,而是說要顯示最重要的數據。
只突顯幾個國家(右圖),這樣圖表更容易閱讀
原則2:減少混亂
使用不必要的視覺元素會分散讀者的注意力,并使頁面變得混亂。
有很多導致圖表混亂的陷阱需要避開。有一些基本元素,比如太粗的刻度線和網格線,幾乎都可以直接刪除。
有些圖表會使用數據標記(如正方形、圓形和三角形)來區分序列,但當標記重疊時,它們會讓圖表看上去亂糟糟的。
當使用簡單的、純色的圖表效果也很好時,千萬不要做紋理或漸變填充。當使用不必要的3D(立體)效果時,會使數據失真。
還有一些圖表包含太多的文本和標簽,使得整個空間變得混亂而擁擠。
就拿這張美國和德國的平均受教育年限的三維柱狀圖來說。
你之前應該也見過這種3D圖表——分散注意力、難以閱讀及數據失真
如果你認為沒有人會設計這么奇怪的圖表,那么你就錯了。
這是直接復制過來的圖表,包括它的漸變樣式。三維的柱形和閃爍的條紋,不匹配的數據和軸標簽,用大量的小數表明數據的精確度,但實際上并沒有這種效果——所有這些混在一起形成了一張很難閱讀的圖表,老實地說,看起來很不舒服。
同時,三維圖形會讓數據失真。出現這種失真,是因為使用了不必要的三維透視效果。通過擯棄這些無關的、分散注意力的元素來簡化圖表,可以讓你的觀點更加清晰、易懂。
雖然我們對感知,以及眼睛和大腦如何工作的理解大多根植于科學研究,但決定使用什么視 覺效果往往是主觀的。比如使用哪種圖表、在哪里放置標簽和注釋、使用什么顏色和字體等。
使用基礎的柱狀圖就能消除3D效果導致的混亂和失真,因此圖表更容易閱讀和理解
在有些情況下,使用某種圖表客觀上就是錯誤的,但在大多數情況下,需要靠你的主觀判斷。隨著你創建和閱讀可視化圖表的數量越來越多,你將拓寬視野,提高審美能力,并找到藝 術和科學之間的平衡。
原則3:圖文結合
盡管我們主要關注創建可視化圖表的元素,比如條形、點或折線,但對圖表的文字說明同樣重要。我們常常將文本和注釋視為事后才思考的內容,但這些元素可以幫助讀者來理解圖表所包含的內容,以及圖表本身。
《紐約時報》的數據編輯阿曼達·考克斯(Amanda Cox)曾經說過,“注釋部分是最重要的……否則就相當于說‘都在這兒,你自己去搞明白’。”
為圖表添加正確的注釋,從幫助讀者理解的角度來說,至關重要。
有三種方法可以讓圖表和視覺效果融為一體:刪除圖例、創建有吸引力的標題和添加一些細節。
1.盡可能去掉圖例,直接標注數據
將標簽直接放置在圖表上,讀者能更輕松地找到對應的數據
2.把標題寫得像報紙的標題一樣
好的標題需要能抓住圖表的要點,告訴讀者從中可以得出什么結論。我把這些稱為“有力的標 題”或“報紙式標題”。
這張來自皮尤研究中心的圖表的標題準確地告訴你應該從中學習什么
3.添加注釋
一旦圖表制作完成,標題確定下來后,不妨問問自己,如果再添加一些文字說明,會更有幫助嗎?
有時數據里有峰值或谷值、離散值或波動值需要解釋。在圖表中添加細節說明,有助于大 家推導出你的論點或關鍵點。如果使用的是非標準圖表,則還要解釋如何閱讀它。
右圖中簡短的說明解釋了數據的一些基本特征
原則4:避免使用意面圖
意面圖(Spaghetti Chart)是制造業里的一個術語,這里作者用來泛指那種容納了大量數據的圖表。
很明顯,當某張圖表包含太多的信息時——折線圖看起來就像一堆意大利面條,還有幾十種顏色和圖標的地圖,或者一個接一個的條形布滿整個頁面。當一張圖表中包含大量的數據時,這的確是一個挑戰,但我們不需要將所有數據都放到一張圖表中。
小型序列圖(small multiples)的兩個示例。左圖來自Zeit Online,顯示了德國過去140年的平均氣溫。右圖來自疾病控制和預防中心,顯示了面部毛發如何影響呼吸器的安裝。格式塔的連接原理可以幫助我們追蹤圖中的變化
我們可以將一張圖表分解成多張圖表。這被稱為網格圖或面板圖,也叫格柵圖,或小型序列圖。這些較小的圖表使用相同的比例、坐標軸和范圍,但將數據分布在多張圖表上。換句話說,不要把所有的數據都放在一張圖表中,而是在基礎數據上創建多個更小的版本。
小型序列圖不是一種新的或革命性的數據表達方式。1878年,攝影師埃德維德·穆布里 奇(Eadweard Muybridge)要確定一匹馬在飛奔時是否完全騰空。穆布里奇開發了一種技術來 拍攝一匹疾馳的馬,它可以拍攝一系列快速動作的照片(我們現在稱之為定格)。他的照片證 明,馬在飛奔時確實完全離開了地面。圖像序列,也給人一種動態感,這是小型序列圖早期的 例子。
攝影師埃德維德·穆布里奇早在1878年就采用了小型序列圖的方式來確定馬在飛奔時是否完全騰空
小型序列圖至少有三個優點。
- 首先,一旦讀者知道如何閱讀其中的一張圖表,就會閱讀其 他圖表了。
- 其次,你可以顯示大量的信息,而不會讓讀者感到困惑。
- 第三,讀者可以跨多個變量進行比較。
《衛報》(Guardian)的這個例子顯示,2016年英國脫歐決議案在六個不同人口 統計學變量上的投票結果。橫軸保持不變,可以很容易看到每個人口統計指標的關系方向。
《衛報》的多張小型散點圖顯示了投票選擇與六個人口統計學變量之間的關系。格式塔的相似原理 讓我們很容易看到每張散點圖中的兩類數據
但這種序列圖也存在一些缺陷,如果不加以避免,圖表會很混亂。
首先,圖表應該按邏輯順序排列。不要讓讀者到處瀏覽整個頁面,而是應該使用直觀的排序方式,比如地理位置或字母順序。
其次,圖表應該使用相同的布局、大小、字體和顏色。請記住,我們正在將一張圖表分 解為多張圖表,因此它應該看起來像一張圖表被復制了多次。縱軸和橫軸也許會改變,但你不 能用藍點在一張圖表中代表“否”,而在另一張圖表中代表“是”。
第三,序列圖應該相對容閱讀。你不必要求讀者放大,并詳細解讀圖表中的所有細節,你的目的是給他們一種整體模式。這些圖表的尺寸很小,因此,包含注釋和標簽,或重復冗長的軸標簽和數據標記,都會讓讀者不知所措。
原則5:從灰色開始
我用一個實用的技巧來結束這一節,這是創建清晰、易懂的可視化效果的一個簡單步驟:從灰色開始。無論何時繪制圖表,都從全灰色元素開始。這樣,會迫使你在使用顏色、標簽和其他元素時更有目的性和策略性。
我們以一張簡單的平均受教育年限的圖表為例,這次只顯示10個國家。有了顏色和標簽 (左上角的圖表),我可以把這張圖表放到我的報告或講義中,稍做加工,再添加一個有吸引 力的標題,讀者就可以知道哪些標簽對應于哪些折線。但是,如果把所有的折線都變成灰色的 (右上角的圖表),讀者就無法完成同樣的任務,因為不知道哪條折線對應于哪個國家。
將所有數據先全部設置為灰色,這會迫使你思考你的目的,以及你到底想要將讀者的注意力引向何處
現在我可以有目的地調整這張圖表。
我可以添加顏色,改變線條的粗細,以便更好地突 出顯示想要強調的信息,比如其中的兩個國家。
左下角的圖表,把所有的標簽都放在圖表上, 而右下角的圖表,只是直接標明兩個國家,可以明顯地看出,右下角的圖表能更有效地傳遞信息。
從灰色開始,能迫使我們有目的地選擇在前景中放置哪些元素。