重磅!2017大數據十大趨勢
2017年大數據將不再是Hadoop一家獨大,也不再是編程者們的自娛自樂,企業和終端用戶的不斷涌入,海量數據“堆積如山”,隨之而來的儲存、分析、處理成為從業者的下一挑戰。
隨著對不同類型、不同體量數據的結構化存儲、批量處理以及價值挖掘需求的增多,2016年注定是大數據里程碑式的一年。
2017年,支持大量結構化和非結構化數據的系統將繼續增長。市場需要數據平臺來幫助數據管理人員管理和保護大數據,同時允許最終用戶進行數據分析。這些系統將逐步成熟,在企業內部的IT系統中更好地運行。
1、數據處理變得更加快速,數據也變得更加易于使用
選項擴展將加速Hadoop
當然,你可以在Hadoop上執行機器學習和情緒分析,但人們常常會問的***個問題是:交互式SQL(結構化查詢語言,一種數據庫查詢和程序設計語言,用于存取數據以及查詢、更新和管理關系數據庫系統)究竟有多快?畢竟,SQL相當于企業用戶的“導管”——他們希望使用Hadoop數據來更快的獲得可復用的BI儀表盤(一種向企業展示度量信息和關鍵業務指標即KPI現狀的數據虛擬化工具),或者是進行一些探索性分析。
這種對速度的需求促使用戶采用訪問速度更快和執行效率更高的數據庫,如Exasol、MemSQL,或者是類似于Kudu這種基于Hadoop的商店,當然還需要能夠更快查詢數據的技術。諸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技術(AtScale,Jethro Data和Kyvos Insights)這樣的數據查詢加速器將進一步模糊傳統數據庫與大數據世界的邊界。
2、大數據不再只是Hadoop
專門基于Hadoop開發的工具已過時
在過去的幾年中,隨著大數據浪潮來襲,數種為了滿足Hadoop分析需求的技術興起。但是,身處復雜,異構環境中的企業不再希望僅為一個數據源(Hadoop)采用孤立的BI訪問點。他們需要的答案被埋沒在一大堆數據源中,從記錄系統到云端,再到來自Hadoop和非Hadoop源的結構化和非結構化數據。(順便說一句,甚至連關系型數據庫也正在為大數據趨勢做準備。例如,SQL Server2016于近日添加了JSON支持)。
在2017年,客戶將會需要對所有數據都進行分析。不依賴于數據源的平臺將會茁壯成長,而專為Hadoop而設計的平臺和未能跨應用部署的平臺將被棄用。Platfora的退出便是這一趨勢的預示。
3、相關組織將利用數據湖(DataLake)來實現價值
數據湖就像一個人造水庫
數據湖就像一個人造水庫。首先你要建造一個水壩(構建一個集群),然后填滿水(數據)。一旦建立了湖泊,你將開始因為各種目的而使用這些水資源(數據),如發電,飲用以及各種消遣(預測分析,機器學習,網絡安全等)。
而今,保有數據湖里的數據已經變成了一種為了保留而保留的行為。在2017年,這將隨著Hadoop業務的收緊而改變。各個組織要求可重復的并且敏捷地使用數據湖,以便更快地獲得響應。在確定對人事、數據和基礎設施的相應投資之前,企業會更加慎重的考慮業務成果。這將促進業務和IT之間的強力耦合。而自助服務平臺作為分析大數據資產的工具將獲得更深入的認可。
另外,公司還將關注業務驅動型應用,避免數據湖陷入困境。在2017年,企業機構將從“構建未來”的數據湖應用轉向業務驅動型數據應用。當今世界需要分析和操作能力去觸及客戶、處理索賠并且連接到個體的不同設備。
舉例而言,任何商業網站需要提供實時的個性化推薦和價格查詢。醫療健康型企業必須處理有效的索賠并且運用分析運營系統來防止索賠欺詐。媒體公司需要通過機頂盒提供個性化的內容。汽車制造商和汽車共享公司則要交互運營其車輛和司機。這些案例的實施交付均需要由一個敏捷平臺來實現,同時提供分析和運營的處理,跨越后臺分析和前臺運營進行整合,提升了商業價值。
4、成熟的架構拒絕通用型框架
Hadoop不再只是一個用于數據科學用例的批處理平臺
Hadoop不再只是一個用于數據科學用例的批處理平臺。它已經成為一種專為特殊分析而架設的多用途分析引擎,甚至被用于日常工作負載的操作報告——傳統上這項任務是由數據倉庫(大量數據提取和分析的工具)來處理的。