成本性能要兼得?簡(jiǎn)化Hadoop云部署有高招
對(duì)于大數(shù)據(jù)管理和分析應(yīng)用程序云服務(wù),用戶的關(guān)注度正不斷增長(zhǎng),而為了應(yīng)對(duì)這一趨勢(shì),供應(yīng)商已經(jīng)開始努力簡(jiǎn)化Hadoop的云部署流程,并試圖降低云端Hadoop的購(gòu)買價(jià)格。
大數(shù)據(jù)和云計(jì)算現(xiàn)在對(duì)于Hadoop供應(yīng)商和一些大數(shù)據(jù)技術(shù)公司來說,已經(jīng)變得十分重要。這些公司正在嘗試使用新方法,來簡(jiǎn)化用戶部署Hadoop云系統(tǒng)的步驟,并降低用戶的部署成本。
例如,Cloudera將計(jì)量功能加入其Cloudera Director工具中,以管理構(gòu)建在Hadoop中的分布式集群。這允許Cloudera用戶采用一種基于使用的定價(jià)模型,而不必以節(jié)點(diǎn)為單位進(jìn)行支付,這讓他們能夠運(yùn)行一些因特定目的搭建起來的臨時(shí)系統(tǒng),使用完后可以釋放資源,從而避免成本的上升。
在單個(gè)Cloudera Director實(shí)例的大數(shù)據(jù)云環(huán)境中,用戶現(xiàn)在可以在其中的多個(gè)區(qū)域內(nèi)部署集群。此外,新版本的Cloudera Enterprise(一個(gè)基于Hadoop的大數(shù)據(jù)平臺(tái))實(shí)現(xiàn)了在Amazon Simple Storage Service(S3)數(shù)據(jù)存儲(chǔ)上直接運(yùn)行Apache Impala SQL-on-Hadoop 查詢引擎。這使得不需要移動(dòng)數(shù)據(jù)到Hadoop分布式文件系統(tǒng)就可以實(shí)現(xiàn)查詢操作,這也為用戶在AWS云上部署臨時(shí)系統(tǒng)提供了便利。
按需定價(jià)以及對(duì)Impala-on-S3的支持,在Narasimhan Sampath看來是非常有用的,他是Choice Hotels International Inc.公司的系統(tǒng)架構(gòu)師,這家公司在AWS云上運(yùn)行著Cloudera-based集群,這些集群與Spark數(shù)據(jù)處理引擎和Kafka信息查詢系統(tǒng)等技術(shù)協(xié)同工作,以支持各種自助分析應(yīng)用程序。
把你的集群遷移到云上
在Strata + Hadoop World 2016會(huì)談中,Sampath表示,Choice遵循了BYOC的方式,將自己的集群,以按需的方式部署到云環(huán)境。例如,營(yíng)銷部門的集群可以部署到云中,完成一項(xiàng)工作,然后釋放資源。同樣地,開發(fā)團(tuán)隊(duì)的集群每天運(yùn)行12小時(shí),然后在夜間關(guān)閉,以節(jié)省公司在AWS云上的投入。
Cloudera的計(jì)量定價(jià)方式非常適合這種情景,Sampath在會(huì)談結(jié)束后說道。“我并不需要購(gòu)買500個(gè)(Cloudera)許可證,除非我無時(shí)無刻都在使用這些資源。這和亞馬遜的模型是一樣的。”
他補(bǔ)充道,Choice過去六個(gè)月與Cloudera進(jìn)行了十分緊密的合作,試圖連接S3和Impala,Impala最初由Cloudera作為開源軟件發(fā)布。Choice使用S3作為數(shù)據(jù)存儲(chǔ)。Sampath說,Impala對(duì)新查詢的支持為BYOC策略提供了額外的靈活性。
Cloudera負(fù)責(zé)云產(chǎn)品營(yíng)銷的主管David Tishgart表示,他們已經(jīng)越來越樂意在客戶中推廣云。但直到現(xiàn)在,他們對(duì)臨時(shí)系統(tǒng)也沒有太好的解決方案,也不能隨便增加或減少工作負(fù)載。他承認(rèn),由于這個(gè)原因,大多數(shù)Cloudera用戶選擇了在云中長(zhǎng)期運(yùn)行集群,而不是采取臨時(shí)的方式。
追上Hadoop 云的腳步
隨著越來越多的用戶展示出對(duì)云的興趣,Clouder需要與Amazon Elastic MapReduce(EMR),AWS提供的Hadoop云平臺(tái)進(jìn)行競(jìng)爭(zhēng)。此外,Cloudera還發(fā)現(xiàn),自己在與微軟Azure HDInsight大數(shù)據(jù)云服務(wù)的競(jìng)爭(zhēng)中也處于劣勢(shì),該平臺(tái)基于Hortonworks Inc .的Hadoop的分布式環(huán)境。
根據(jù)Gartner分析師Merv Adrian所述,從用戶數(shù)量的角度看,EMR已經(jīng)讓AWS成為了***的Hadoop供應(yīng)商。AWS最初落后于其他Apache Hadoop競(jìng)爭(zhēng)對(duì)手,但兩年前這種情況得以改變,現(xiàn)在AWS Hadoop用戶數(shù)比其他廠商總和還要多。
Hortonworks還專注于擴(kuò)展Hadoop云功能,他們表示,HDInsight現(xiàn)在運(yùn)行著2.5版的Hortonworks數(shù)據(jù)平臺(tái)(HDP)。此外,Hortonworks現(xiàn)在還支持Microsoft’s Azure Active Directory service 和Apache Ranger的集成。(Apache Ranger是一個(gè)用來管理Hadoop數(shù)據(jù)安全性和用戶訪問權(quán)限的框架)
盡管與微軟云環(huán)境關(guān)系密切,但Hortonworks也提供HDP的技術(shù)預(yù)覽版,以便AWS用戶使用Spark和Apache Hive搭建臨時(shí)集群。“我們了解所有云環(huán)境上的工作負(fù)載情況,”該公司主管全球營(yíng)銷的高級(jí)副總裁Matt Morgan說道。
Paxata公司也開始使用云環(huán)境。這家自助服務(wù)數(shù)據(jù)準(zhǔn)備軟件的供應(yīng)商提供了一個(gè)新工具,叫做Paxata Connect,它可以匯總運(yùn)行在不同Hadoop集群上的數(shù)據(jù),其中也包括獨(dú)立云平臺(tái)中的數(shù)據(jù)。Paxata***產(chǎn)品官Nenshad Bardoliwalla說道,很多Hadoop的工作負(fù)載都已遷移到云,能夠創(chuàng)建“臨時(shí)”集群,運(yùn)行特定的工作,然后釋放資源,這種模式的誘惑十分巨大。