用VR做數據可視化的正確姿勢是什么?
數據可視化是少數幾個 VR“布道者”非常喜歡說道的利用虛擬現實可能產生變革的領域之一。但是究竟應該如何做呢?現今的數據可視化領域又有什么問題呢?本文對傳統的數據可視化的幾個具體問題進行挖掘,討論理解抽象信息方面的難題,并探討VR如何改變這一切。
本文原作者Evan Warfel,虛擬現實數據可視化公司 Kineviz 的項目經理,曾經任 HID 環球集團數據科學家,畢業于U.C. Berkeley 的認知科學專業。 工作之余,他還研究人類制定決策的過程問題。
談論數據和虛擬現實的問題有點像雞和蛋的問題——如果不知道人們會如何使用 VR 數據工具,就很難設計良好的VR數據工具。話雖如此,但虛擬現實可以幫助我們提升概率思維、多維數據的可視化、高密度信息的展示、以及提供情境使人們更全面地理解問題。
高維度數據的可視化
“圖像是優秀數據分析的關鍵”——F.J.Anscombe
如果是二維或者一維數據集,相應的可視化方法非常簡單,使用圖或表格即可。
上面是著名的 Anscombe 四幅圖,其中每個數據集有著同樣的均值、相關系數、方差和***擬合線。
上面的每一個數據集中,X 的均值都是 9,Y 的均值都是 7.50,X 的方差都是 11,X 和 Y 的相關系數是0.816,***擬合線的方程都是 Y=3+5x。換句話說,這四個數據集即使在實際看來,他們本身是完全不同的,但在統計意義上他們卻是相等的。然而這還是最簡單的,因為我們只處理了二維數據。
如果是三維數據,你會想當然地使用三維圖像。但是如果是更高維度的數據呢?比如 Excel 表中很多行很多列的數據,你可能就無從下手了。實際上,超過三維的數據集都不可能在超三維空間中進行可視化。
然而,還有其他表示維度的方法。比如說,可以用一個三角形三邊的長度來表示一個數據的三個維度。如果你愿意,你還可以在三角形中間標注紅藍光譜或者明暗光譜中的顏色,這樣你就可以在一個可視化圖中展示五個連續維度。比較每一個三角形,你就可能發現一些異常或者一些隱藏模式和關系。這就是理論的原理所在。
Herman chernoff 在70年代發展了這種理論的變異形式,他不使用三角形的邊長,他用卡通臉譜的不同特征來代表數據的不同維度(切爾諾夫臉)。
圖中顯示了 1977 年洛杉磯的生活狀況。四個臉部特征,加上地理分布和社區分布,這張圖顯示了一個 6維數據。
你的直覺應該會不喜歡這種數據表示的方法,因為它不好解釋,看起來有點愚蠢,也似乎有些種族歧視的意思。但是我建議你再好好觀察一下——你能看到貧窮和富裕之間的緩沖地帶嗎?
切爾諾夫臉應用不夠廣泛的一個原因在于,它看起來過于卡通化(科學可是非常嚴謹的,用這種卡通臉似乎不太適合)。雖然切爾諾夫臉有著這樣的缺點,但是它強調了這樣一個事實:即是他們看上去很直觀,但是我們因為對臉型和表情有太多經驗,所以對一個結構化的臉的評論會有任意性。
看下面的圖片,Tim Cook 的臉的不同特征(比如眉毛的彎度),可以代表 Apple 不同年份年的各種財務信息。
三個 Tim Cook 臉的不同版本代表了 Apple 各年的財務信息。Tim Cook 的鼻子的寬度表示 Apple 的負債數量;Cook 嘴的開合程度代表了每年的利潤;他眼睛的大小代表了每股收益;等等。
虛擬現實可以解決上述的一些問題。除了這些臉型表示,還有一些“切爾諾夫類”的技術可以應用于對物體的形狀、移動、交互和分布的控制。比如,下圖這個桌子的性質可以代表不同的數據維度:高度、桌面的面積、顏色、桌腿的長度、桌子的光潔度、桌子的類型、污點的位置等等。如果你有一個 15 維的數據,你可以用不同因素的維度來控制你桌子的形態。
VR 的好處在于,它可以讓你通過直觀地比較兩個桌子的高度或者桌面的摩擦力系數的不同來理解其代表的因子維度的不同。一些實驗表明,維度間的差別程度的不同可以帶來感知權重的不同。
另外,關于這種方法的研究已經覆蓋到心理學和顏色感知的領域。研究者們花費了大量時間測量人們在不同的知覺中如何感知微小和巨大的區別。換句話說,借助 VR 和一些心理學知識,可以使人們理解復雜數據像逛宜家一樣簡單。
高密度的圖像
由于一個數學史上不幸的意外,某種由點和連接線組成的東西也可以叫做圖像,比如下圖:
維基百科的力導向圖
圖中每個點代表了一個維基頁面,每條線代表著頁面間的聯系。
數據點之間抽象的關系用圖像表示是非常直觀的,尤其是在這些聯系的類型和數量十分重要的情況下。比如,下圖展示了酵母菌和釀酒酵母之間每個基因的關系。
左邊是一個代表一個酵母菌基因組的節點邊緣圖;右邊是基因的重要聚類圖
有趣的是,上面這些圖的內部都非常復雜。如果你去查找“巴拿馬文件”的數據集,你會發現跟上面這些圖一樣,圖像中的連接線非常復雜。
事實是,大多數圖像會因為中心部分重疊在一起的復雜連接線而變得難以理解。但是我們最初是因為要看清事物間的關系才使用這些圖像。
正如你可能想到的,三維圖像可視化能讓我們在理解上更加容易。比如下圖是一個三維的可視化圖像,展示了大腦中不同的連接網絡。
然而,我們應該發現,這些數據的可視化圖像仍然有過于密集的問題。即使作圖者已經使用算法把連接線整合在一起了,我們還是很難從圖像中明白對象之間究竟有怎樣的聯系。想象一下,如果你能夠走進圖中的大腦里,那你可能更容易就能理解腦中到底發生了什么。
內容提供式的數據可視化
請對比一下圖表:
兩張圖使用了同樣的數據,但***幅圖卻是 2015年最誤導人的圖表之一。
上面的圖表作為一張靜態圖像,其誤導性來自于它改變了數據的大小、形狀和比例。因為我們看到內容,會想到我們的日常體驗。
使用虛擬現實進行數據可視化的一大好處是,我們可以不用僅僅展示靜態表示圖,每一張VR表示圖都可以自動變成一種體驗。這意味著讀者可以根據自己的意愿來探索一張圖。
VR的拯救作用
當然,VR 數據工具目前仍在初級階段。下面是三個例子,可以生動地說明我上文中提到的內容。
CalcFlow
***個要介紹的是 Calcflow,這是加州圣迭戈分校的數學系研發了用于對 3D 數學概念的可視化工具。目前,它建立了一系列交互式展示,人們可以通過展示直觀地理解二重積分和粘性流體方程等問題。你可以體驗到 VR 的一些好處:可以改變觀察數據的尺寸,可以在數據中“穿梭”,是的數據更易理解。這種體驗式的展示特點意味著用戶可以做出自己的調整,并觀察這些調整在多維中是如何改變結果的。
DeathTools
DeathTools 的數據可視化是將抽象的數字變成真實可觸知的世界,我們對這樣的可視化數據的理解則完全不同于原有的數字和圖像。比如,它將最近中東沖突中的累計死亡人數用尸體袋數量來表示,不同于查看柱狀圖,你仿佛真的站在成排的尸袋中,真實地體驗戰爭的死亡人數。
正如 DeathTools 創始人 Ali Eslami 所說:“我們的知識儲備中缺少一種感知大數字的能力。我們無法理解和接受大量的死亡。比如1、2、14、20、50 這種數字我們經常會遇到,所以我們會理性地對他們形成一種思維模式。但是當我們遇到 1000、10000、20000 時,這些數字的概念化會越來越難。但是我們仍然可以使用日常中體驗大尺寸物品的視覺模型來理解大數字的意義。”
Kineviz
最近,我正在 Kineviz 上使用VR基礎上的 3D 圖像工具。這個工具專門用來處理高信息密度數據的。并且,這個工具可以使用戶直觀地感受到數據的顯著不同。
VR 的***好處就是它可以使人們更輕易地感知數據間的差別,使得數據密度更低,更加直觀。另外,VR也使得數據展示變得更加具有體驗感,數據展示不再需要匹配一些預定的設置。***,VR 可以讓人們快速改變數據的尺寸,提高用戶的空間感知力,實現過去很難想象的對數據規模的感知。