數據倉庫:過去、現在和未來
我經常接觸數據倉庫建設的需求,而現有的大數據系統也希望基于大數據建設數據倉庫,然而Hadoop為核心發展起來的軟件適用于OLAP的數據分析需求,OLTP這樣的分布式數據庫系統也如火如荼的發展。
在企業數據信息數據整合過程中,往往都是不同數據源放到不同的數據庫系統中,沒有數據倉庫的規范化建設,跨部門進行數據協作,打破數據孤島無法實現。
分布式系統,幫助解決這些問題,我們真正深入了解數據價值的人都知道,建設統一的數據中心,數據倉庫,整合行業數據可以進行多種維度的數據分析,數據驅動決策,幫助企業創新。目前在金融、電商、廣告等行業已經大規模利用新技術取得了不菲的成績。
今天,企業級數據分析平臺發生了很大的變化。
發生什么了?
那么,對于傳統的數據倉庫,你有各種各樣的數據來源。您正在收集、清洗和整合數據,以便您可以將其呈現在您的數據倉庫中,進行統計分析、預測分析、商業智能和其他工作。
好吧,隨著時間的推移,現在變得更加復雜了。
我們有云、有移動設備、社交媒體數據、機器數據、傳感器數據。越來越多的數據來源,數據爆發式增長,非結構化數據、半結構化數據、結構化數據。
有大量的關于大數據介紹中,你會看到幻燈片談論您必須處理PB級數據量,才能利用上這些新的數據分析技術。但是對我來說,這是沒有抓住重點。
數據倉庫真正的意義是什么?為什么企業對數據倉庫支出不斷增加。這是因為不是數據量和速度問題。隨著發展,我們只需要增加硬件就能增加我們數據處理的規模,這才是分布式系統的強大之處。
萬物互聯的時代,隨著數據的多樣性和異質性從而增加數據分析的復雜性。我們的需求是關聯和整合這些數據。但是,我們現有的數據分析工具,Hadoop或Spark并沒有帶來任何神器的解決方案。我們仍然在努力解決同樣的問題:如何從不同的渠道獲取數據、然后將他們關聯起來,這樣企業可以讓數據說話,數據驅動決策。為了解決這些問題,我們需要依賴更多新的工具。
數據倉庫的演變
利用新技術,使我們能更好的解決實際業務問題。
那么,我們來看看不同的技術,是如何幫助我們解決與數據相關的需求,為業務提供數據支撐。
OLAP場景的Hadoop解決方案,OLTP場景的NewSQL解決方案。
流水線式的數據分析
我們看到一個有趣的現象,每個公司幾乎都建立了一個數據流水線,隨著新數據的進入,他們利用NoSQL數據庫來存儲文檔數據。就像是一個無線容量的數據庫,擁有很好的擴展性,并且還能進行大數據量的高速查詢和搜索。
我們可以看到很多大規模使用MongoDB、Hbase、cassandra數據庫,還有NewSQL的發展。
隨著數據多樣性的出現,出現了很多新型的數據庫。
新型數據分析需求
越來越高的數據分析需求和數據多樣性的探索,導致了數據庫系統的蓬勃發展,國產數據庫也有了非常大的進步可以進入國際***的數據庫會議發表論文,2017年騰訊的開源項目VLDB也發文了,而做為去IOE發起者的阿里在云端阿里云也如火如荼的發展數據庫服務,比如:PolarDB、螞蟻金服金融級數據庫分布式數據庫OceanBase都是黑科技級別的產品。為了在云端兼顧OLTP和OLAP的數據分析引擎,各大云廠商阿里云、騰訊云、XX云都使勁的推廣各自的數據庫技術,也采取與開源數據庫廠商廣泛合作的方式。
底層數據庫系統,特別是NewSQL幾大巨頭也有有在長期招聘相關職位。可見目前分布式OLTP/OLAP數據庫發展的勢頭,必然是與Cloud相結合,也只有云化才有機會大把撈金,不然開源數據庫這樣的生態下,底層基礎軟件出路在何方?
Analytic DB 的發展
我們列表 RDBMS -> MPP -> HADOOP -> NOSQL -> NEWSQL 主流的系統,根據我接觸過的公司或產品來列舉,個人認知有限,如未能列表全面,歡迎補充。
RDBMS
MPP
Hadoop Ecosystem
NoSQL
NewSQL
雖然NoSQL因其性能、可伸縮性與可用性而廣受贊譽,但其開發與數據重構的工作量要大于SQL存儲。因此,有些人開始轉向了NewSQL,它將NoSQL的優勢與SQL的能力結合了起來。
- OLAP場景做到***的Hadoop生態。
- OLTP場景的NewSQL數據庫的發展。