20個頂級大數據軟件應用程序
如今,大數據技術對企業來說不再是一種嘗試和體驗,它已成為企業開展業務的一個重要組成部分。根據調研機構IDC公司的調查,2017年全球大數據和業務分析(BDA)的市場收入將達到1508億美元,和2016年相比增長12.4%。到2020年,其收入將超過2100億美元。
這些大部分來自硬件和服務。對于大數據軟件而言,在某些情況下,每家公司的需求都是基于垂直行業的獨特需求。即使在同一行業,如零售行業或制造行業,每個公司的需求也會有所不同,因此開發一種套裝軟件很難為所有行業的潛在客戶提供服務。
對于大數據軟件而言,成功的關鍵是為企業提供基礎應用程序和工具來構建自定義應用程序。人們可以了解什么是真正的大數據應用軟件。這些提供應用程序的公司有很多是行業知名廠商,然而,也有一些令人關注的初創公司的產品也包括在內。
以下是20家專門從事大數據構建或相關業務的企業所提供的應用程序。這個清單并沒有什么特別的順序。
1. Domo
Omniture公司前首席執行官Josh James于2010年創立了Domo公司,為企業提供了一種方法,可以從不同來源、不同的孤島中查看數據。它自動從電子表格、社交媒體、內部存儲、數據庫,基于云的應用程序,以及數據倉庫中提取數據,并在可定制儀表板上顯示信息。它以其易用性以及幾乎任何人都可以建立和使用它而聞名,而不僅僅是數據科學家采用。它配備了許多預加載的圖表和數據源設計,可以快速移動。
2. Teradata Database
從Teradata Database 15開始,該公司增加了Teradata統一數據架構等新的大數據功能,使企業能夠跨多個系統訪問和處理分析查詢,其中包括從Hadoop導入和導出雙向數據。它還添加了地理空間數據的3D顯示和處理,以及增強的工作負載管理和系統可用性。支持AWS和Azure的基于云計算的版本稱為Teradata Everywhere,它在基于公共云的數據和本地部署的數據之間提供了大規模的并行處理分析。
3. Hitachi Vantara
Hitachi Vantara的大數據產品是建立一些流行的開源工具基礎上。Hitachi Vantara成立于2017年,是日立數據系統公司的存儲和數據中心基礎設施業務部門,是由Hitachi Insight集團物聯網業務和日立Pentaho大數據業務組合成的一家合資公司。 Pentaho基于Apache Spark內存計算框架和Apache Kafka消息系統。Pentaho 8.0還增加了對Apache Knox Gateway的支持,以對用戶進行身份驗證,并強制訪問大數據存儲庫的訪問規則。它還增加了對通過Docker容器構建分析應用程序的支持。
4. TIBCO公司的Statistica
TIBCO公司的Statistica是針對各種規模企業的預測分析軟件,使用Hadoop技術對結構化和非結構化數據執行數據挖掘,解決物聯網數據,能夠在全球任何地方的設備和網關上部署分析,并支持數據庫內分析來自Apache Hive、MySQL、Oracle、Teradata等平臺的功能。它使用模板來設計完整的分析,因此只有較少的技術用戶可以進行自己的分析,并且可以將模型從電腦導出到其他設備。
5. Panoply
Panoply公司通過使用人工智能來銷售所謂的智能云數據倉庫,以消除轉換、集成和管理數據所需的開發和編碼。該公司聲稱,其智能云數據倉庫實質上提供了數據管理即服務,能夠在無需任何干預的情況下消費和處理高達1PB的數據。其機器學習算法可以檢查來自任何數據源的數據,并對該數據執行查詢和可視化。
6. IBM Watson Analytics
Watson Analytics是IBM公司的基于云計算的分析服務。當用戶將數據上傳到Watson時,它會根據數據分析向用戶提供可幫助回答的問題,并立即提供關鍵數據可視化。它還可以進行簡單分析、預測分析、智能數據發現,并提供各種自助服務儀表板。IBM公司還有另一種分析產品SPSS,可用于從數據中發現模式,并查找數據點之間的關聯。
7. SAS Visual Analytics
Statistical Analysis System (SAS)創建于1976年,比大數據的創建還要早,就是為了處理大量數據。它可以從各種來源中挖掘、更改、管理和檢索數據,并對所述數據執行統計分析,然后將其呈現在一系列方法中,如統計數據、圖表等,或將數據寫入其他文件。它支持所有類型的數據預測和分析要點,并附帶預測工具來分析和預測流程。
8. Sisense商業智能軟件
Sisense公司聲稱其提供了唯一的商業智能軟件,使用戶可以通過從商品服務器硬件上的多個源進行來準備、分析和可視化復雜數據。Sisense的片上高性能數據引擎可以在一秒鐘內完成對TB級數據的查詢,并且為不同行業提供了一批模板。
9. Talend的大數據工作室
Talend一直專注于為Hadoop生成干凈的原生代碼,無需手動編寫所有代碼。它為各種大數據存儲庫提供接口,如Cloudera,MapR,Hortonworks和Amazon EMR。它最近添加了一個數據準備應用程序,可以讓客戶創建一個通用字典,并使用機器學習,自動執行數據清理過程,以便在更短的時間內為數據處理準備好數據。
10. Cloudera
Apache Hadoop公司是最受歡迎的提供商和支持者,它與戴爾、英特爾、甲骨文、SAS、德勤和凱捷等公司都有合作關系。它由五個主要應用程序組成:核心數據管理平臺Cloudera Essentials,數據管理平臺Cloudera Enterprise Data Hub,用于商業智能和基于SQL的分析的Cloudera Analytic DB; 高度可擴展的NoSQL數據庫Cloudera Operational DB,以及Cloudera Data Science and Engineering,在Core Essentials平臺上運行的數據處理、數據科學和機器學習。
11. MongoDB
MongoDB已成為各行業大數據項目的首選數據庫。它的NoSQL支持適合大數據經常使用的非結構化數據。其靈活性、對JSON和JavaScript的支持、靈活的框架、豐富的查詢語言,以及廣泛的行業支持使其成為數據庫的標準。
12. Vertica Analytics Platform
大數據的數據庫傳統上是非結構化的,意味著可以在其中存儲任何類型的數據。Micro Focus的Vertica分析平臺采用傳統的面向列的關系數據庫格式,但專門設計用于處理來自Hadoop集群的現代分析工作負載。該平臺使用集群方式存儲數據,并全面支持SQL、JDBC和ODBC。它使用列式存儲而不是行式存儲,因為訪問列可以更輕松地分組數據。
13. SAP Vora
SAP HANA本身并不適用于大數據。這是一個內存中的RDBMS系統。但是當用戶添加HANA Vora這個大數據接口時,它變得更加可行。Vora允許HANA連接到Hadoop存儲庫,并擴展Apache Spark執行框架,以實現企業和Hadoop數據的交互式分析。所以數據科學家可以通過支持大數據存儲來獲得HANA的力量。
14. Oracle Big Data suite
Oracle公司這個數據庫巨頭擁有全套大數據集成產品,如支持實時數據流、批量數據處理、企業數據質量和數據治理功能的數據集成平臺云、流分析、物聯網支持,以及通過Oracle Event Hub云服務支持Apache Kafka。
15. Apache Cassandra
雖然MongoDB是領先的數據庫,但Cassandra在可擴展性方面具有優勢。這是由Facebook公司前員工所編寫,它跨越了大量的商品服務器,確保沒有故障點和高級容錯能力。
16. Plotly
Plotly或Plot.ly專注于數據可視化,而不需要編程或數據科學技能。它的GUI設計用于導入和分析數據,并為其所有圖形使用D3.js JavaScript庫。它的儀表板可以實時生成,也可以從現有數據池生成,并支持導出到各種可視化工具,其中包括Excel,SQL數據庫,Python,R和MATLAB。
17. Wolfram Alpha
想要計算或了解有關事物的新內容?Wolfram Alpha是一款用于查找關于所有內容的信息非常棒的工具。Proessaywriting公司的Doug Smith表示,他的公司使用這個平臺進行金融、歷史、社交和其他專業領域的高級研究。例如,如果輸入“Microsoft”,就會收到輸入解釋、基本面和財務信息、最新交易、價格歷史記錄、績效比較、數據回報分析、相關矩陣,以及許多其他信息。
18. Tibco Spotfire
Spotfire是一款內存分析平臺,升級后包含對大數據存儲庫的支持并執行預測分析。它為Apache Hadoop提供了一個連接器,它可以讓用戶在大數據上執行數據混搭,數據發現和分析任務,就像他們對Oracle,SAP和其他傳統數據源所做的那樣。它還支持實時數據驅動的事件可視化,并具有人工智能驅動的推薦引擎,可縮短數據發現時間。
19. AnswerRocket
AnswerRocket專注于自然語言搜索數據發現,使其成為商業用戶的工具,而不是數據科學家的神秘工具。它可以在幾分鐘內提供答案,而不是等待幾天才能形成查詢。
AnswerRocket用戶可以使用日常語言提問,并在幾秒鐘內獲得可視化效果,然后他們可以在特定的圖表或圖表上進行深入查看以獲得進一步的洞察。
20. Tableau
Tableau專門從多個數據孤島中進行繪圖,并將其集成到一個儀表板中,只需點擊幾下鼠標,即可使用自定義過濾器和拖動和連接來創建交互式靈活的儀表板。Tableau還使用自然語言查詢,因此用戶可以詢問業務問題,而不是技術問題。