大道至簡:玩轉數據可視化
在大數據時代下,有人把數據比喻為蘊藏能量的地下石油。但你知道石油的平均采收率指標么?你知道你所擁有的數據,其中的“地質儲量“有多大么?你知道自己的”挖掘“方法能夠實現的”開采量“么?通過這個一個形象的指標類比,我們可以知道,大數據的“大”需要你去理解和探索,而得到“有用”價值,需要掌握合適的挖掘方法!
數據挖掘作為大數據分析的核心技術,是指從大量數據中揭示出隱含的、先前未知的、有潛在價值的信息的反復過程。它主要采用人工智能、機器學習、模式識別、統計學等技術,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。
小白我不是這個領域的專家,但我很清楚“可視化探索”數據價值并不是一件很難的工作,很適合每個小白進入數據挖掘這個金領圈!當然掌握可視化只是我“野心”的***步,呵呵!工欲善其事,必先利其器,我在互聯網調研的結果是,專門做可視化的軟件(Tableau等),基本找不到能用的版本,而且都沒有數據挖掘的算法;而專門做數據挖掘的軟件(SPSS等),有可視化和數據挖掘算法,但就是太丑了,不好操作;而SAS、R、Python這些編程工具,學習和應用效率就更低了。***鎖定了一個國產軟件,叫Smartbi的(主要看到有免費版,讓小白我心動了一下),下載安裝很容易,尤其可視化部分用了百度Echarts,簡直令人欣喜!
下面是軟件自帶一些例子里的可視化效果,尤其“可視化探索”節點下有“交互視圖”,可以在界面上隨意選擇X軸、Y軸和顏色字段,跟Tableau一樣好操作。
專家診病示例中的交互條形圖(看見“動態重計算”沒?)
專家診病模型中的網絡圖(用來看相關性也不錯嘛)
異常檢測示例中的散點圖(相關性很明顯:有地就有錢?)
異常檢測示例中的直方圖(閥值很明顯)
媒體分級示例中的餅圖(去掉***的cluster2,重新分析占比)
微博分析示例中的樹狀圖(小白我看不懂,求解)
統計功能示例中的交互箱線圖(以后可以分析股票嘍)
文本挖掘示例中的詞云(啥時候的數據,怎么大連這么火)
微博分析示例中的賬號轉發關系(全是互相捧場的)
時間序列示例中的線型圖(應該是用來預測的吧)
產品銷售的地圖分析(看到“值域漫游”了沒?)
這個數據挖掘軟件里的可視化功能不如Tableau里多,里面還有個叫“提升圖”的,沒看到示例,不知道是什么東西,但基本上能覆蓋我的需求了。最需要贊的是,個人免費版本里,還有很多數據處理的功能,這樣以后對Excel的處理,也能順手搞定(雖然現在還看不懂每個的意思)。以及這么多還看不懂的東東(貌似很牛的樣子)!
工具算是找到了,我可以繼續堅持自己的 “大道至簡”觀點,不是把模型、算法一直掛在嘴邊的才是牛人,能夠用圖形把問題說清楚的,才能站在溝通的制高點上,畢竟一圖解千言,專業的分析報告不是人人能看懂的!