大數據領域的12大工具,試試看哪個更好用
譯文【51CTO.com快譯】大數據工具讓企業能夠從數據倉庫獲得洞察力,從而在數據驅動的業務環境中提供重要的競爭優勢。
為了滿足旺盛需求,大數據工具在迅速遍地開花。在大數據這一概念和業務戰略出現以來的十年間,市面上出現了成千上萬執行各種任務和流程的工具,它們都承諾可為你節省時間和資金,發掘業務洞察力從而實現創收。顯然,一個不斷增長的市場呈現在大數據分析工具的面前。
其中許多工具一開始就像最初的大數據軟件框架Hadoop那樣是開源項目,但后來商業公司迅速涌現,為開源產品提供新工具或商業支持和開發。
從中進行遴選可能很困難,尤其是許多大數據工具用途單一,而你可以用大數據處理許多不同的任務,所以你的分析工具箱會塞得滿滿當當。本文我們列出了市面上主要的大數據分析工具,分三大?類別來介紹。
主要的大數據工具
如前所述,大數據工具往往屬于單一用途類別,而使用大數據有多種方式。所以我們將按類別細分,然后討論每個類別的分析工具。
一、大數據工具:數據存儲和管理
大數據完全始于數據存儲,也就是說始于大數據框架Hadoop。它是Apache基金會運行的一種開源軟件框架,用于在大眾化計算機集群上分布式存儲非常大的數據集。
很顯然,由于大數據需要大量的信息,存儲至關重要。但除了存儲外,還需要某種方式將所有這些數據匯集成某種格式化/治理結構,從而獲得洞察力。因此,大數據存儲和管理是真正的基礎――離開了它,分析平臺一無是處。在一些情況下,這些解決方案還包括員工培訓。
這個領域的大玩家包括:
1. Cloudera
實際上是增加了一些額外服務的Hadoop,你會需要它,因為大數據不容易搞。Cloudera的服務團隊不僅可以幫助你構建大數據集群,還可以幫助培訓你的員工,更好地訪問數據。
2. MongoDB
MongoDB是最受歡迎的大數據數據庫,因為它適用于管理經常變化的數據:非結構化數據,大數據常常是非結構化數據。
3. Talend
作為一家提供廣泛解決方案的公司,Talend的產品圍繞其集成平臺而建,該平臺集大數據、云、應用程序、實時數據集成、數據準備和主數據管理于一體。
圖1:Talend大數據集成平臺包括數據質量和治理功能
二、大數據工具:數據清理
在你真正處理數據以獲取洞察力之前,需要清理和轉換數據,轉換成可遠程搜索的內容。大數據集往往是非結構化、無組織的,因此需要某種清理或轉換。
當下,數據可能來自任何地方:移動、物聯網和社交媒體,數據清理顯得更為必要。并非所有這些數據都可以輕松“清理”以獲得洞察力,因此優秀的數據清理工具極其重要。實際上,在未來幾年,預計經過有效清理的數據會是可接受的大數據系統與真正出色的大數據系統之間的競爭優勢。
4. OpenRefine
OpenRefine是一款易于使用的開源工具,通過刪除重復項、空白字段及??其他錯誤來清理凌亂的數據。它是開源的,但有一個相當大的社區可提供幫助。
5. DataCleaner
與OpenRefine一樣,DataCleaner可將半結構化數據集轉換成數據可視化工具可以讀取的干凈可讀的數據集。該公司還提供數據倉庫和數據管理服務。
6. 微軟Excel
說真的,Excel有其用途。你可以從各種數據源導入數據。Excel在手動數據輸入和復制/粘貼操作方面特別有用。它能消除重復項,查找和替換內容,檢查拼寫,還有用于轉換數據的許多公式。但Excel很快陷入困境,不適合龐大數據集。
三、大數據工具:數據挖掘
一旦數據經過清理和準備,你可以通過數據挖掘開始搜索數據了。這時你執行這個實際的過程:發現數據、做出決定和進行預測。
數據挖掘是大數據流程的真正核心。數據挖掘解決方案通常底層很復雜,但竭力提供 一種外觀漂亮、對用戶友好的用戶界面,說起來容易做起來難。數據挖掘工具面臨的另一個挑戰是:它們確實需要人來編制查詢,所以數據挖掘工具的好壞取決于使用它的專業人員。
7. RapidMiner
RapidMiner是一款易于使用的預測分析工具,有著對用戶友好的可視化界面,這意味著你沒必要編寫代碼即可運行分析產品。
IBM SPSS Modeler是一款包括五個數據挖掘產品的套件,面向企業級高級分析。另外IBM的服務和咨詢首屈一指。
9. Teradata
Teradata為數據倉庫、大數據和分析以及營銷等應用提供端到端解決方案。這一切意味著貴公司可以真正成為數據驅動的公司,另外還有商業服務、咨詢、培訓和支持。
圖2:與許多目前的大數據工具一樣,RapidMiner解決方案也支持云
大數據工具:數據可視化
數據可視化是指以一種可讀、實用的格式顯示你的數據。你可以查看圖表圖形以及直觀顯示數據的其他圖像。
數據可視化既是一門科學,又是一門藝術。隨著大數據從有大批數據科學家支持的高管轉移到整個公司上下,眾多員工可以使用可視化工具極為重要。銷售代表、IT支持和中層管理,這些團隊個個都需要能夠理解數據,因此重點放在易用性上。然而,易于閱讀的可視化有時與來自深度特征集的數據讀出相沖突,這帶來了數據可視化工具面臨的主要挑戰之一。
10. Tableau
Tableau是該領域的領導者,其數據可視化工具專注于商業智能,無需懂得編程,即可創建各種地圖、圖表、圖形及更多可視化元素。它共有五款產品,一款名為Tableau Public的免費版供潛在客戶試用。
11. Silk
Silk是Tableau的簡單版,讓你可以通過地圖和圖表將數據可視化,無需任何編程。你在首次加載Silk時,它甚至會試著將數據可視化。它還讓用戶很容易在網上發布結果。
12. Chartio
Chartio使用自己的可視化查詢語言,只要點擊幾下鼠標即可創建功能強大的儀表板,無需懂得SQL或其他建模語言。它有別于其他工具的地方主要在于,你可以直接連接到數據庫,因此不需要數據倉庫。
IBM Watson Analytics
IBM Watson Analytics結合了機器學習和人工智能,有助于提供智能數據科學助手,為業務分析員和數據科學家等擁有眾多數據科學技能的用戶扮演了向導。
大數據工具的三個層次
普華永道的移動數據和分析計劃首席技術官Ritesh Ramesh表示,就先進程度和市場戰略而言,大數據工具可分成三層金字塔。
第一層:最龐大的是一系列開源工具。每家公司以開源起家,像Cloudera和Hortonworks。除了基本的基礎設施、服務器和存儲外,沒有多大的價值。大多數云廠商已將這一層實現了商品化。
第二層:在這一層,大多數這類廠商已有意增加各自的市場份額,在開源工具上面構建一些專有應用程序,從而做到與眾不同。舉例說,Cloudera開發了許多產品,比如駐留在Hadoop核心上的數據科學平臺。
第三層:這些是針對特定垂直領域的應用程序。這些公司大多與普華永道、高知特或埃森哲等系統集成商合作。真正的價值出在這里,這對大數據工具開發商來說也是非常有效的競爭策略。
Ramesh表示,除了基本功能外,這些工具的三大方面備受歡迎。首先是數據處理工具。他說:“數據學習工具是客戶的工具箱中確保數據質量和分析數據的重要工具,比如處理5000萬行數據以發現洞察力。”
他表示,領先的廠商包括Trifacta、Paxata和Talend。
第二大類應用程序是治理,比如你如何定義元數據。他說:“好多人在這方面遇到困難。人們只是將大量垃圾數據倒到數據湖。市面上可在數據湖中積極發揮功效的工具不多。由于這項工作主要由IT人員完成,他們更有興趣將數據倒到數據湖,而不是確立一種治理結構。”
主要廠商包括Waterline Data、以數據編目工具見長的Tamr和Collibra。
Ramesh說,經常出現的第三大需求是安全。他說:“人們希望一個產品就有安全訪問的所有層(列、行和對象)。他們希望一款產品為不同的數據對象支持用戶訪問和安全。這也是個新興領域。”
這個領域的主要廠商是Wandisco和FireEye。
原文標題:Top 12 Big Data Tools,作者:Andy Patrizio
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】