2019年六個不錯的數據分析工具
數據科學家是21世紀的熱門工作。工欲善其事必先利其器。數據分析工具何其多,究竟用哪樣才合適?Lewis Chou在Medium上分析了3類6種工具的特點和適用場景,看完這篇文章,相信你就可以知道了。
說到數據分析工具,我們總是有疑問。那么多的數據分析工具,它們之間究竟有什么區別?哪個更好?我應該學習哪一個?
盡管這是一個老生常談的話題,但它確實很重要,我一直在努力尋找這個終極問題的答案。如果你到網上搜索這個領域的相關信息的話,很難找到公正的看法。因為特定數據分析工具的評估者可能會從不同的角度出發,并帶有一些個人感受。
今天,讓我們撇開這些個人感受。我會嘗試跟大家一起客觀地談談我對市場上數據分析工具的個人看法,以供參考。
我總共選擇了三類共6種工具。接下來我會一一進行介紹。
1. Excel工具
Excel具備多種強大功能,比如創建表單,數據透視表,VBA等,Excel的系統如此龐大,以至于沒有任何一項分析工具可以超越它,確保了大家可以根據自己的需求分析數據。

但是,有些人可能以為他們非常精通計算機編程語言,然后鄙視用Excel作為工具,因為Excel無法處理大數據。但是請考慮一下,我們日常生活中使用的數據是不是超出了大數據的限制?在我看來,Excel就是一款全能型的播放器。它最適合小型數據,而且通過插件還可以處理數百萬的數據。
綜上所述,基于Excel的強大功能及其用戶規模,我認為它是必不可少的工具。如果你想學習數據分析,Excel絕對是首選。
2. BI工具
商業智能是為數據分析而生的,它誕生的起點很高。其目的是縮短從商業數據到商業決策的時間,并利用數據來影響決策。
Excel的產品目標不是這樣。Excel可以做很多事情。你可以使用Excel畫課程表,制作問卷或用作計算器,甚至可以用來畫畫。如果你會VBA,還可以制作小型游戲。不過這些并不是真正的數據分析功能。
但是BI工具就是專門用于數據分析的。
以常見的BI工具(例如Power BI,FineReport 和Tableau)為例。你會發現它們都是按照數據分析流程設計的。先是數據處理,數據清洗,然后是數據建模,最后是數據可視化,用圖表來識別問題并影響決策。
這些是數據分析的唯一方法,并且在這個過程中存在一些員工的痛點。
比方說,可以用BI工具來簡化重復的低附加值的數據清洗工作。
如果數據量很大,傳統工具Excel是無法完成數據透視表的。
如果我們用Excel來進行圖形顯示,會需要花費大量時間來編輯圖表,包括顏色和字體設置等瑣事。
這些痛點是BI工具可以為我們帶來變化和價值的地方。
現在,讓我們比較一下市場上的三種流行的BI工具:Power BI,FineReport 和Tableau。
1 )Tableau
Tableau的核心本質實際上是Excel的數據透視表和數據透視圖。可以說Tableau敏銳地意識到了Excel的這一功能。它進入BI市場較早,并延續了這一核心價值。
從發展歷史和當前市場反饋的角度來看,Tableau的可視化效果更好。我不認為這是因為它的圖表有多酷,但是它的設計、顏色和用戶界面給我們一種簡單而新鮮的感覺。
確實,這就像Tableau自己的宣傳一樣,他們投入了大量的學術精力來研究大家喜歡哪種圖表,以及如何為用戶提供操作和視覺上的終極體驗。
此外,Tableau還增加了數據清洗功能和更智能的分析功能。這也是Tableau可以預期的產品開發優勢。
2)Power BI
Power BI的優勢在于其業務模型和數據分析功能。
Power BI以前是Excel的插件,但是發展并不理想。因此它擺脫了Excel,發展成BI工具。作為后來者,Power BI每個月都有迭代更新,并且跟進的速度很快。
Power BI當前具有三種授權方式:Power BI Free、Power BI Pro以及Power BI Premium。與Tableau一樣,免費版的功能也不完整。但是給個人用幾乎已經足夠。而且Power BI的數據分析功能強大。它的PowerPivot 和DAX語言讓我能夠以類似在Excel中編寫公式的方式來進行復雜的高級分析。
3)FineReport應用
FineReport之所以獨特在于它的自助服務數據分析非常適合企業用戶。只需簡單的拖放操作,你就可以使用FineReport 設計各種樣式的報告,并輕松構建數據決策分析系統。
FineReport 可以直接連接到各種數據庫,并且方便快捷地自定義各種樣式,從而制作周報、月報和季報、年報。其格式類似于Excel的界面。功能包括報告創建,報告權限分配,報告管理,數據輸入等。
此外,FineReport 的可視化功能也非常突出,它提供了多種儀表板模板和許多自行開發的可視插件庫。
在價格方面,FineReport 的個人版本是完全免費的,并且所有功能都是開放的。
3. R&Python語言
R和Python是我要討論的第三類工具。盡管像Excel和BI工具這樣的軟件已盡最大努力考慮到數據分析的大多數應用場景,但其實它們基本上都是定制化的。如果軟件沒有設計某項功能或替某功能開發按鈕,那很可能你就沒法用它們來完成工作。
在這一點上面,編程語言是不一樣的。它非常強大和靈活。你可以編寫代碼來執行所需的任何操作。比方說,R和Python是數據科學家必不可少的工具。從專業的角度來看,它們絕對比Excel和BI工具強大。
那么,R和Python可以實現哪些Excel和BI工具難以實現的應用場景呢?
1)專業統計分析
就R語言而言,它最擅長的是統計分析,例如正態分布,使用算法對聚類進行分類和回歸分析等。這種分析就像用數據作實驗一樣。它可以幫助我們回答以下問題。
比方說,數據的分布是正態分布、三角分布還是其他類型的分布?離散情況如何?它是否在我們想要達到的統計可控范圍內?不同參數對結果的影響的大小是多少?還有假設仿真分析。如果某個參數發生變化,會帶來多大影響?
2)獨立預測分析
比方說,我們打算預測消費者的行為。他會在我們的商店停留多長時間?他會花多少錢?我們可以找出他的個人信用情況,并根據他的在線消費記錄確定貸款金額。或者,我們可以根據他在網頁上的瀏覽歷史推送不同的物品。這也涉及當前流行的機器學習和人工智能概念。
結論
以上比較說明了幾種軟件之間的區別。我想概括的要點的是,存在就是合理。Excel,BI工具或編程語言存在部分功能重疊,但它們也是互補的工具。每個應用的價值取決于要開發的應用的類型和當時的情況。
在選擇數據分析工具之前,你必須首先了解自己的工作:你會不會用到我剛剛提到的應用場景。或考慮一下你的職業方向:你是面向數據科學還是業務分析的。