Cloudera:擁抱云計(jì)算,深耕企業(yè)數(shù)據(jù)云平臺(tái)
原創(chuàng)【51CTO.com原創(chuàng)稿件】數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)……隨著大數(shù)據(jù)技術(shù)的不斷更新迭代,相關(guān)概念如雨后春筍般應(yīng)運(yùn)而生。對于這些概念,已經(jīng)有了無數(shù)篇文章去科普,可以簡單的總結(jié)如下:
數(shù)據(jù)湖是一個(gè)集中的存儲(chǔ)庫,可以在其中存儲(chǔ)超大規(guī)模的、所有結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。在數(shù)據(jù)湖中,不需要對數(shù)據(jù)在存儲(chǔ)時(shí)進(jìn)行模式化,就可以運(yùn)行不同類型的分析。
數(shù)據(jù)倉庫也稱為企業(yè)數(shù)據(jù)倉庫,是一種數(shù)據(jù)存儲(chǔ)系統(tǒng),可以將不同來源的結(jié)構(gòu)化數(shù)據(jù)聚合起來,用于業(yè)務(wù)智能領(lǐng)域的比較和分析。數(shù)據(jù)倉庫是包含多種數(shù)據(jù)的存儲(chǔ)庫,并且是高度建模的。
數(shù)據(jù)中臺(tái)是一個(gè)承接技術(shù),引領(lǐng)業(yè)務(wù),構(gòu)建規(guī)范定義的、全域可連接萃取的、智慧的數(shù)據(jù)處理平臺(tái),目的是為了高效滿足前臺(tái)數(shù)據(jù)分析和應(yīng)用的需求。數(shù)據(jù)中臺(tái)距離業(yè)務(wù)更近,能更快速的響應(yīng)業(yè)務(wù)和應(yīng)用開發(fā)的需求,可追溯,更精準(zhǔn)。
CDP:做好數(shù)據(jù)治理這件事
從定義來看,可以說數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)三者并不是非此即彼的關(guān)系。在Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放看來,三者是融為一體的。
Cloudera大中華區(qū)技術(shù)總監(jiān)劉隸放
他認(rèn)為,數(shù)據(jù)中臺(tái)的本質(zhì)是數(shù)據(jù)治理。“我們特別喜歡‘數(shù)據(jù)中臺(tái)’這個(gè)概念,它讓用戶開始重視數(shù)據(jù)治理,而不再是把數(shù)據(jù)往你面前一扔了事。數(shù)據(jù)湖同樣非常重要,它的理論是把數(shù)據(jù)從外邊‘撈’進(jìn)庫里,它是原生態(tài)的。” Cloudera就具備了極強(qiáng)的數(shù)據(jù)治理能力。劉隸放表示,做好數(shù)據(jù)治理,一是要求產(chǎn)品要有思想方法論,二是產(chǎn)品要有能力。客戶還會(huì)構(gòu)建一個(gè)業(yè)務(wù)中臺(tái),通過“業(yè)務(wù)元數(shù)據(jù)”映射到“技術(shù)元數(shù)據(jù)“,進(jìn)而加以治理。當(dāng)今很多用戶做大數(shù)據(jù)平臺(tái)上的“數(shù)據(jù)中臺(tái)”時(shí),都會(huì)來找Cloudera合作,因?yàn)槠銫DP平臺(tái)上有源數(shù)據(jù)治理的工具,能夠加速客戶做數(shù)據(jù)治理的工作。CDP(Cloudera Data Platform )就是2018年Cloudera與Hortonworks合并之后發(fā)布的首款新產(chǎn)品。
“先有Hadoop,后有大數(shù)據(jù)”,作為Hadoop的代表,規(guī)模最大、知名度最高的公司Cloudera紅極一時(shí)。2014年,Cloudera引入到中國,提供的主要產(chǎn)品就是基于開源Hadoop集群的各種組件和服務(wù)。Hortonworks也是企業(yè)級(jí)全球數(shù)據(jù)管理平臺(tái),為100強(qiáng)企業(yè)中的一多半提供“任何類型數(shù)據(jù)”的可操作信息。2018年,二者宣布合并,融合推出了新產(chǎn)品CDP,而CDH,HDP成為了 Cloudera 的既有產(chǎn)品。同時(shí),Cloudera 的許可證模式變更,不再提供所有產(chǎn)品的免費(fèi)下載,遺留的 CDH,HDP的所有版本最晚明年初將不再提供支持,且不會(huì)再有新功能更新。
據(jù)了解,新版的CDP將能更好地適用于云環(huán)境,用戶可以借助它管理、分析從本地到公有云、私有云、混合云環(huán)境中的數(shù)據(jù)。同時(shí),CDH中許多安全漏洞補(bǔ)丁都無法基于CDH5的版本進(jìn)行修復(fù),因?yàn)镃DH依賴的某些第三方庫已經(jīng)無法在當(dāng)前版本維護(hù),只有完成向新版本的CDP升級(jí),才可以避開CVE安全漏洞。此外,相對于Cloudera和Hortonworks二者原來的產(chǎn)品CDH和HDP,CDP平臺(tái)整合了兩個(gè)平臺(tái)的最強(qiáng)功能,并增加了新特性,帶來了大量的性能和功能改進(jìn),如:Spark3在某些場景下將數(shù)據(jù)加工的性能提升5倍;HWC使得細(xì)粒度控制Spark的權(quán)限成為現(xiàn)實(shí);Hive on Tez取代了Hive on MapReduce來提升查詢性能;Impala使得性能提升2-7倍;運(yùn)營數(shù)據(jù)庫支持SQL和No SQL模式,同時(shí)吞吐量性能提高了15-20%等。
開源且收費(fèi)
在CDP發(fā)布之前,Cloudera的 Hadoop版本CDH,Hortonworks的HDP,均提供社區(qū)免費(fèi)版本。Cloudera通過企業(yè)版及商業(yè)化服務(wù)獲得收入,其企業(yè)版包括一些不開源的管理工具。而從CDP開始,Cloudera采用100%開源策略,采用類似紅帽的訂閱收費(fèi)的策略,用戶付費(fèi)就可以獲得CDP的開源代碼以及服務(wù),不再提供免費(fèi)下載版本。
劉隸放表示,“開源”和“收費(fèi)”并不矛盾。“Cloudera就承諾一件事情:所有的組件,一定在開源上是正支的,您在Cloudera的代碼中看到的一定是開源中正支里的代碼。Cloudera的所有代碼是從GitHub直接拿過來,沒有修改,但是在不停演進(jìn)的。”也就是說,CDP作為開源Hadoop生態(tài)的代表,其組件都是開源的,但將這些組件整合、調(diào)試成穩(wěn)定的發(fā)行版CDP,并且提供一系列服務(wù)之后,CDP是收費(fèi)的。“我們永遠(yuǎn)會(huì)使用開源版本,Cloudera是一家開源軟件公司”。
加大對總代和ISV的投入
關(guān)于生態(tài)建設(shè),Cloudera 大中華區(qū)區(qū)域副總裁王剛表示,Cloudera將加大對總代的投入,希望能通過總代的網(wǎng)絡(luò)覆蓋到全國,幫助Cloudera發(fā)展 “西南、西北”地區(qū)。此外,Cloudera還希望加大有CDP能力認(rèn)證的代理商。對于ISV,王剛表示,明年會(huì)重點(diǎn)投入去做一些不同行業(yè)垂直的ISV,如汽車、金融等不同領(lǐng)域。將ISV的行業(yè)經(jīng)驗(yàn)與Cloudera平臺(tái)技術(shù)的領(lǐng)先性相結(jié)合,為客戶提供一整套的方案。
Cloudera 大中華區(qū)區(qū)域副總裁王剛
Cloudera在國內(nèi)推出了阿里云上的IaaS版本,使得國內(nèi)的用戶可以使用阿里云版本進(jìn)行驗(yàn)證和遷移。Cloudera與阿里云也有一些戰(zhàn)略合作,會(huì)與阿里云一起去拜訪客戶、解決客戶的問題,提供售后服務(wù)等。
結(jié)語
企業(yè)正在不斷加碼對數(shù)字化的投入。CDP讓企業(yè)IT人員能夠在任何云環(huán)境中進(jìn)行數(shù)據(jù)分析,同時(shí)提供多種數(shù)據(jù)安全功能,從而最大程度降低數(shù)據(jù)風(fēng)險(xiǎn)。Cloudera將依靠CDP及生態(tài)的力量,助力企業(yè)釋放更多數(shù)據(jù)價(jià)值。
【51CTO原創(chuàng)稿件,合作站點(diǎn)轉(zhuǎn)載請注明原文作者和出處為51CTO.com】