Excel,SPSS和QlikView等數據可視化產品選型指南
一、數據可視化概述
數據可視化是技術與藝術的完美結合,它借助圖形化的手段,清晰有效地傳達與溝通信息。一方面,數據賦予可視化以意義;另一方面,可視化增加數據的靈性,兩者相輔相成,幫助企業從信息中提取知識、從知識中收獲價值。
維基百科對數據可視化的定義較為權威,它認為數據可視化是技術上較為高級的技術方法,而這些技術方法允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數據加以可視化解釋。
1.發展歷史
數據可視化的歷史可以追溯到二十世紀50年代計算機圖形學的早期,人們利用計算機創建出了首批圖形圖表。到了1987年,一篇題為《Visualization in Scientific Computing(科學計算之中的可視化,即‘科學可視化’)》的報告成為數據可視化領域發展的里程碑,它強調了新的基于計算機的可視化技術方法的必要性。
隨著人類采集數據種類和數量的增長,以及計算機運算能力的提升,高級的計算機圖形學技術與方法越來越多的應用于處理和可視化這些規模龐大的數據集。二十世紀90年代初期,“信息可視化”成為新的研究領域,旨在為許多應用領域之中對于抽象的異質性數據集的分析工作提供支持。
當前,數據可視化是一個既包含科學可視化,又包含信息可視化的新概念。它是可視化技術在非空間數據上新的應用,使人們不再局限于通過關系數據表來觀察和分析數據信息,還能以更直觀的方式看到數據及數據之間的結構關系。
2.市場調查
在2014年3月進行了一項有關數據可視化的調查,從中可以看出,當前已經部署數據可視化的企業僅為15%,但有56%的企業計劃1-2年內部署相關應用。從企業部署可視化的目的來看,排在前三位的分別為:通過可視化發現數據的內在價值(36%)、滿足高層領導的決策需要(30%)和滿足業務人員的分析需要(25%),僅有9%的企業選擇需要更美觀的展現效果。
▲數據可視化知名度、流行度和領導者調查
在針對Tableau、Qlik、Tibco software、SAS、Microsoft、SAP、IBM和Oracle八家數據可視化產品和服務提供商的調查中,筆者分別從知名度、流行度和領導者三個角度進行分析。從知名度來看,八家廠商幾乎不分先后,只有微小的差距;從流行度來看,SAP、IBM和SAS占據前三位,所在比例分別為19%、18%和17%;從領導者來看,Tableau以40%的優勢遙遙領先,這與2014年Gartner的魔力象限排名也非常吻合。
3.技術趨勢
數據可視化的思想是將數據庫中每一個數據項作為單個圖元元素,通過抽取的數據集構成數據圖像,同時將數據的各個屬性值加以組合,并以多維數據的形式通過圖表、三維等方式用以展現數據之間的關聯信息,使用戶能從不同的維度以及不同的組合對數據庫中的數據進行觀察,從而對數據進行更深入的分析和挖掘。
傳統的數據可視化工具僅僅將數據加以組合,通過不同的展現方式提供給用戶,用于發現數據之間的關聯信息。近年來,隨著云和大數據時代的來臨,數據可視化產品已經不再滿足于使用傳統的數據可視化工具來對數據倉庫中的數據抽取、歸納并簡單的展現。新型的數據可視化產品必須滿足互聯網爆發的大數據需求,必須快速的收集、篩選、分析、歸納、展現決策者所需要的信息,并根據新增的數據進行實時更新。因此,在大數據時代,數據可視化工具必須具有以下特性:
(1)實時性:數據可視化工具必須適應大數據時代數據量的爆炸式增長需求,必須快速的收集分析數據、并對數據信息進行實時更新;
(2)簡單操作:數據可視化工具滿足快速開發、易于操作的特性,能滿足互聯網時代信息多變的特點;
(3)更豐富的展現:數據可視化工具需具有更豐富的展現方式,能充分滿足數據展現的多維度要求;
(4)多種數據集成支持方式:數據的來源不僅僅局限于數據庫,數據可視化工具將支持團隊協作數據、數據倉庫、文本等多種方式,并能夠通過互聯網進行展現。
4.專家觀點
中國傳媒大學新聞學院沈浩教授:隨著非結構和半結構化數據的增長,數據可視化的發展需要迎合多類型的數據,詞云、泡泡圖、熱圖等形式的出現更加貼合新的數據類型。另外,在展現形式上,數據可視化工具還應該滿足直接發布到云端、移動端的需求。
阿里巴巴數據平臺事業部資深開發工程師寧朗:數據可視化是大數據和大智慧之間的橋梁,大數據將數據變為設計師,每個人都可以利用。
Splunk中國區高級售前工程師崔玥:數據可視化重新定義了數據分析,如同Windows重新定義了操作系統,它將數據從晦澀的代碼中脫離出來,通過簡單的圖形界面和大眾更易接受的方式,提供一個展現、監控數據的平臺,讓數據分析工作更簡單。
QlikView南北亞區售前經理張子斌:數據可視化利用人類發現復雜數據中的異常、模式、趨勢甚至相關性的天然能力,這是我們無法用數據的行和列做到的。好的數據可視化伴隨有內存中的關聯技術、移動和社交商業探索能力,能讓使用者自由、高效地挖掘數據以找出重要規律并做出時間關鍵的決策。
二、主流數據可視化工具介紹
企業獲取數據可視化功能主要通過編程和非編程兩類工具實現。主流編程工具包括以下三種類型:從藝術的角度創作的數據可視化,比較典型的工具是Processing.js,它是為藝術家提供的編程語言。從統計和數據處理的角度,R語言是一款典型的工具,它本身既可以做數據分析,又可以做圖形處理。介于兩者之間的工具,既要兼顧數據處理,又要兼顧展現效果,D3.js是一個不錯的選擇。像D3.js這種基于Javascript的數據可視化工具更適合在互聯網上互動的展示數據。
除此之外,筆者還將盤點如下五款商業化的數據可視化工具,它們的共同特點是技術門檻低、便捷易用,并且支持多種數據源,能夠幫助企業更直觀的獲得數據中的價值。
1. Tableau Desktop
Tableau Desktop是Tableau公司開發的桌面系統中最簡單的商業智能工具軟件,Tableau沒有強迫用戶編寫自定義代碼,新的控制臺也可完全自定義配置。在控制臺上,不僅能夠監測信息,而且還提供完整的分析能力。Tableau控制臺靈活,具有高度的動態性。
如上圖所示,Tableau將數據運算與美觀的圖表完美地嫁接在一起。程序通過拖放將所有的數據展示到數字“畫布”上,轉眼間就能創建好各種圖表。這一軟件的理念是,界面上的數據越容易操控,公司對自己在所在業務領域里的所作所為到底是正確還是錯誤,就能了解得越透徹。
Tableau Desktop數據來源有多種方式,能同時支持Excel、支持各種數據庫類型,同時能以web模式發布至網絡中,以供別人訪問。也支持團隊協作,由多個人同時完成一件任務。
如上圖所示,Tableau Desktop有多種展現形式,操作人員能操作人員能夠自定義圖表類型,并以多種圖形的方式進行展現,同時根據圖形的不同,針對不同的展示圖形有不同的提示。
當用戶從Tableau Desktop完成圖形的繪制后,數據會從數據庫中進行自動更新,從而對展示的數據進行自動同步,同時Tableau Desktop中集成了趨勢分析,能對數據未來的走向進行一定的趨勢分析,同時Tableau Desktop也與地理信息等進行了較好集成。
在Tableau Desktop使用中發現,使用該軟件操作反應較慢,由于該軟件將數據全部加載至內存,因此對計算機的內存等使用要求較高。
同時Tableau Desktop的趨勢分析模塊中,用戶無法根據自己的需求選擇算法,用戶從而無法根據自己的商業特性對未來進行一個預測。
2. QlikView
下圖是QlikView的界面截圖,QlikView是一個完整的商業分析軟件,使開發者和分析者能夠構建和部署強大的分析應用。QlikView應用使各種各樣的終端用戶以一個高度可視化,功能強大和創造性的方式,互動分析重要業務信息。
QlikView把商業分析需要的三個因素放在一個獨立軟件包里。QlikView的客戶能得到:
一個具有完全集成的ETL工具的向導驅動的應用開發環境、一個考慮到無限鉆取的強大AQL分析引擎和一個高度直覺化的、使用簡單的用戶界面。QlikView讓開發者能從多種數據庫里提取和清洗數據,建立強大、高效的應用,而且使它們能被Power用戶、移動用戶和每天的終端用戶修改后使用。QlikView獲得專利的AQL構架利用了計算機和網絡設備的提高,例如價格便宜,速度快的內存。當提供靈活、強大的分析能力時,AQL構架改變了需要OLAP立方體的需求,也不一定要使用數據庫。QlikView是一個可升級的解決方案,完全利用了基礎硬件平臺,來用上億的數據記錄進行業務分析。QlikView由以下組成:開發工具(QlikView Local Client);服務器組件(QlikView Server);發布組件(QlikView Publisher);其他應用接口(SAP\Salesforce\Informatica)。服務器支持多種方式發布如AJAX客戶端、ActiveX客戶端。還可以與其他CS/BS系統進行集成。
上圖是使用QlikView工具進行數據可視化的第一步,用戶可以選擇想使用的圖表類型來進行建模,用上圖可以看出,QlikView的圖表類型較Tableau Desktop較少。QlikView 數據支持的格式與Tableau Desktop 一樣,支持多種數據來源 ,所不同的是,QlikView通過導入數據后生成qvw來對數據進行展示,因為采用了自有的qvw格式,因此在使用QlikView過程中發現,該工具使用起來展示速度較Tableau View迅速。
3. Microsoft Excel
Excel一直為用戶使用來進行數據可視化展示的軟件之一,通過Excel內在集成的圖表來對選定的數據源進行可視化展示。同時,Excel支持3D的可視化展示,微軟發布了一款叫做 GeoFlow 的插件,它是結合Excel和Bing地圖所開發出來的3D數據可視化工具。這個工具可以以加載項的形式運行,目前支持Excel 2013和Office 365 ProPlus。
上圖為Excel 3D可視化的截圖,GeoFlow的概念最早于 2011 年 6 月被提出,微軟也曾在2012年11月的SharePoint大會上推出過GeoFlow。GeoFlow可以幫助用戶創建和瀏覽時間敏感型數據并與之交互,而這些數據也可以應用到數字地圖上。同時,用戶也可以使用GeoFlow將數據轉換為3D圖像的形式與他人分享。
按照微軟的說法,我們可以把GeoFlow理解為WorldWide Telescope項目的更新版。它可以幫助信息工作者通過詳細的3D數據圖來搜尋和分享全新的數據視角。
據介紹,GeoFlow目前支持的數據行規模最高可達100萬行,并可以直接通過Bing地圖引擎生成可視化3D地圖。數據可以通過三維垂直或二維貼片的方式呈現,并且同時支持Execl Data Model和PowerPivot兩種模型,還可實現對Bing Maps的區域可視化。目前,GeoFlow 支持包括立柱型、二維斑塊以及“氣泡圖”在內的多種可視化類型。
來自微軟研究院的Curtis Wong指出,他們是在構建一個巨大的“虛擬望遠鏡”,若想達到這個目的則先要構建一個“可視化宇宙”的引擎。他還表示GeoFlow將為全球公司帶來動態、交互式的數據可視化功能。
微軟在Excel的官方博客中解釋了GeoFlow的工作方式。以德州達拉斯居民家庭能源使用數據為例,GeoFlow先將這些用戶的位置在地圖上標記出來,而Excel則會將這些家庭的房屋面積和市價用三維圖像顯示出來。
隨著時間的變化,這個“地圖”也會實時改變。用戶若想將數據分享給他人,只需在GeoFlow中截取“畫面”,然后創建一個“場景導游”最后導出就可以了。
目前GeoFlow只支持Office Professional Plus 2013和Office 365 ProPlus。
4. SAS可視化分析
作為SAS高性能分析方案家族中最新一款產品,SAS可視化分析擁有內存分析的卓越速度、自助服務功能和高度可視化的界面可為企業提供快速、簡單而經濟有效的商業洞察,并進行更好的商業決策。
SAS可視化分析(VA)具有強大的數據探索和顯示能力,它不是一個簡單的商業智能產品,而是一個將商業智能和分析能力充分結合,并且快速、易用的產品。我們正處于各項技術涌現急需整合的時期,SAS可視化分析適用范疇廣,無論是小型工作組、中小型公司還是超大型企業均可從使用中受益。
SAS可視化分析的擴展性讓各企業可以實現量身定制的數據可視化,或者按照實際需求逐步增加分析功能。其自助服務功能讓非數據專家也可以輕松、有效地理解和分析大數據,在自己的數據中找到對業務問題的答案。用戶可以在任何地點通過iPad等移動終端或者網頁,生成交互式報表或從移動儀表盤中獲取最更新的數據信息,由此更快速更好地做出決策。同時可將企業內部IT部門從不斷增加的數據集、臨時分析和一次性報表請求中解放出來,把更多精力用于其他項目,更為高效。
SAS可視化分析的高性能內存分析架構能夠快速的完成不同規模的數據分析,讓用戶能夠快速檢查所有數據,消除了傳統的由IT生成報告的等待時間,幾分鐘或幾秒時間內可以在數十億行數據中執行分析計算,和呈現可視結果。SAS VA 6.1的優勢在于以下七個方面:完整的,隨時可交付的系統;大數據的價值體現;高性能分析;移動應用;開箱即用;擁抱開源技術;無須開發,基于配置的操作。
SAS可視化分析的設計初衷是為解決大數據分析問題,可以低成本地利用行業標準刀片式服務器的擴展性,以及適用于EMC Greenplum和Teradata的數據庫系統。目前其根據數據量大小,可應用于不同部門。除了支持各部門硬件平臺之外,SAS可視化分析還可添加圖形顯示選項和特色分析功能,包括預測、多元回歸模型選項,多重視覺互動,動態過濾,新可視化方法和更多其它功能。
5. IBM SPSS
SPSS是世界上最早采用圖形菜單驅動界面的統計軟件,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規范的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,粗通統計分析原理,就可以使用該軟件為特定的科研工作服務。SPSS采用類似Excel表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他數據庫中讀入數據。
其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對于熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,然后按“粘貼”按鈕就可以自動生成標準的SPSS程序。極大的方便了中、高級用戶。
SPSS for Windows是一個組合式軟件包,它集數據錄入、整理、分析功能于一身。用戶可以根據實際需要和計算機的功能選擇模塊,以降低對系統硬盤容量的要求,有利于該軟件的推廣應用。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪制各種圖形。
最新的21.0版采用DAA(Distributed Analysis Architecture,分布式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告。
SPSS輸出結果雖然漂亮,但是很難與一般辦公軟件如Office或是WPS2000直接兼容,如不能用Excel等常用表格處理軟件直接打開,只能采用拷貝、粘貼的方式加以交互。在撰寫調查報告時往往要用電子表格軟件及專業制圖軟件來重新繪制相關圖表,這已經遭到諸多統計學人士的批評;而且SPSS作為三大綜合性統計軟件之一,其統計分析功能與另外兩個軟件即SAS和BMDP相比仍有一定欠缺。
雖然如此,SPSS for Windows由于其操作簡單,已經在我國的社會科學、自然科學的各個領域發揮了巨大作用。該軟件還可以應用于經濟學、數學、統計學、物流管理、生物學、心理學、地理學、醫療衛生、體育、農業、林業、商業等各個領域。
6.小結
根據對以上五個產品的使用及功能,總結如下:
·從產品的使用功能來看:Tableau Desktop 產品應用最豐富,能通過簡便的拖拽來實現數據可視化,且能支持GIS地理信息、多數據來源等功能。
·專業性:SPSS 能通過各種算法及軟件包來對業務數據進行很好的預判展示,能與其他算法進行良好的集成,其產品的BI程度最高。
·支持web及產品協作:SAS分布式存儲以及多用戶檢索功能來搜索共享文件,通過共享的文件,不同用戶能協同完成一個共同的任務。其余產品均支持進行web模式的發布;
·簡便性及3D特性:Excel本身即為良好的數據可視化展示軟件,同時通過3D展示更能有效的將數據展示給用戶。
·性能:Qlikviw通過AQL構架提供靈活、強大的分析能力時,AQL構架改變了需要OLAP立方體的需求。通過將用戶數據轉換成自己的格式,從而擁有快速,靈活的分析性能。
三、數據可視化主流產品對比表
1.企業實施條件
2.可視化條件
3.技術條件
四、總結
總的來說,在數據可視化的分類中,免費的開源產品一般使用起來沒有限制,但應用門檻高、學習成本高,適合有一定技術實力的企業;免費的商業化產品一般是數據可視化廠商提供的免費版本,功能和應用上會有一些限制,適合數據量不大、對分析要求不高的中小企業;而收費的商業化產品往往需要大量資金支持,但部署和應用簡便、服務有保障,尤其適合有資金實力雄厚的企業。
當然,數據可視化產品的選擇還需要每個企業根據自己的情況“具體問題具體分析”,找出適合自己的解決方案。企業在選擇和部署商業智能和分析平臺的軟件時,不妨考慮一下數據可視化產品,讓數據與業務人員之間、數據價值和企業之間真正實現“零距離”。