大數據與云計算的深度融合,體現在哪幾個方面?
隨著整個IT生態的進一步發展,在2021年,IT從業人員對大數據的發展趨勢有一個普遍的共識,就是大數據和云計算的進一步深度融合的趨勢,即大數據擁抱云計算,走向云原生化。
明哥在這里,跟大家一起看下,大數據與云計算的深度融合的趨勢下,深度融合具體體現在哪些地方。
大數據與云計算的深度融合,體現在以下幾個方面:
一、應用方的大數據平臺上云:使用大數據技術的業務應用建設方,不再自建數據中心,而是將大數據平臺搬到了云上,有的是在云廠商的 IaaS 層上自建大數據平臺,現在以這種方式在云上使用大數據的案例已經比較少了,有的直接使用云廠商提供的 PaaS 層大數據相關產品,有的甚至直接使用云廠商推出的 SaaS層大數據相關產品?,F在“上云”有一點趨勢需要強調下,就是大家都很重視不 vendor-lockin,底層的云可能是多個公有云和私有的融合的 hybrid-cloud;
二、云計算廠商在不斷推出自己基于大數據的各種增值服務:為了提高自己的市場競爭力,以進一步鞏固/拓寬自己的市場地位,各大云廠商也在積極推出自己整合的大數據相關產品,有最基礎的 s3/oss, emr/e-mapreduce,有上文的aws redshift,阿里云的maxcompute,除此之外,還有各種云上數據庫,云上 serverless 形態的各種大數據服務等等,這個名單還在不斷增長中,以下截圖可見一斑:

三、各傳統大數據廠商已經轉向依托云來提供自己的產品和服務:如 elastic 很早就開始基于云交付自己的elk 技術棧了,如databricks的大數據平臺和產品一直都是基于云來向客戶提供服務的,如 cloudera 不斷探索改變自己的商業模式;
四、各個具體的大數據組件都在主動改變自身架構,積極向云原生靠攏以“云化”:從理念層面講,大數據已經從最早的強調“數據本地性”和“移動數據不如移動計算”的理念,演進到了現在的強調“存儲計算分離”的理念。各個新推出的組件和框架主動擁抱云原生,如pulsa,TiDB等都是依托于存儲計算分離的云原生架構;各個傳統的組件雖然有歷史包袱,也在不斷求新求變,如flink/spark都深度整合支持了kubernetes集群模式;如kafka也在不斷探索如花云化:包括完全去掉zookeeper依賴,包括Rebalance Protocol的 Static Membership等;正如古語所言,“順則昌不順則亡”,一些不適應云原生架構的技術組件,其市場正在不斷萎縮,如很多場景下,kubernetes都替代了yarn,對象存儲oss/s3等也在替代hdfs ,我們也注意到了apache 社區推出的Ozone,該組件在對象存儲的基礎上,也融合推出了文件系統api,該組件的背后有很多原hdfs社區的committer在貢獻代碼,在cloudera的cdp平臺中也內嵌支持了該組件。下圖展示了flink/spark跟kubernetes的深度整合:(注意不是簡單的使用k8s operator將spark/flink作業運行在k8s集群中,而是native的深度的整合)
