阿里巴巴唐洪:阿里云,公共的云計算
原創(chuàng)作者:老門
2009年,阿里集團(tuán)成立阿里云計算公司,為集團(tuán)公司提供云計算服務(wù)。云梯1和云梯2就是阿里集團(tuán)處理海量數(shù)據(jù)存儲與計算的系統(tǒng),前者底層為Hadoop,后者底層為阿里云自主研發(fā)的ODPS和飛天。事實上2008年開始,阿里巴巴就組建了飛天項目。
10月25日,第三屆阿里云開發(fā)者大會在杭州云計算產(chǎn)業(yè)園舉行,此次大會的主題是“云計算的蝴蝶效應(yīng)”。云計算的話題已經(jīng)談?wù)摿宋辶辏朴嬎慵夹g(shù)也慢慢成熟,不僅在國際,中國的云計算產(chǎn)業(yè)也正在慢慢形成。
2009年,阿里集團(tuán)成立阿里云計算公司,為集團(tuán)公司提供云計算服務(wù)。云梯1和云梯2就是阿里集團(tuán)處理海量數(shù)據(jù)存儲與計算的系統(tǒng),前者底層為Hadoop,后者底層為阿里云自主研發(fā)的ODPS和飛天。事實上2008年開始,阿里巴巴就組建了飛天項目。
從2008年以來的五年,云梯1完成了空間優(yōu)化與跨機房集群擴(kuò)展,云梯2單集群規(guī)模從1500臺升級到5000臺,而這1500到5000僅僅只用了四個月的時間。目前世界范圍內(nèi),集群規(guī)模按照5000來劃分的,國際上包括谷歌在內(nèi)的2-3家公司有這樣的能力,國內(nèi)只有阿里集團(tuán)。
來自阿里集團(tuán)的壓力
阿里云計算公司成立也不過四年,何以在如此短的時間內(nèi)建立如此大集群的云服務(wù)?阿里云“飛天”項目負(fù)責(zé)人唐洪在接受記者采訪時表示,擴(kuò)容到5000節(jié)點的初衷是因為集團(tuán)的需求。據(jù)悉,今年上半年,云梯遭遇了機房容量的限制,如果再不擴(kuò)容將無法繼續(xù)支持集團(tuán)離線計算業(yè)務(wù)。因此,為了突破集群存儲的瓶頸,實現(xiàn)了單集群超越5000臺、多集群跨機房計算,并完成集群業(yè)務(wù)的大騰挪。
阿里云“飛天”項目負(fù)責(zé)人唐洪
唐洪表示,目前,差不多每個阿里巴巴集團(tuán)數(shù)據(jù)中心里面都部署了飛天的集群,而且集團(tuán)使用飛天云平臺的比例越來越重,基本上所有阿里集團(tuán)重量級的應(yīng)用都會用到阿里云。
飛天5K的挑戰(zhàn)
對于云梯這樣的大規(guī)模分布式離線存儲和計算集群來說,擴(kuò)展性一直是其生命線。但是云梯2從1500臺擴(kuò)容到5000臺是個不小的挑戰(zhàn)。從架構(gòu)設(shè)計、網(wǎng)絡(luò)通訊、調(diào)度、存儲性能、容錯性、可運維性、穩(wěn)定性、數(shù)據(jù)正確性甚至硬件能力都是很大的挑戰(zhàn)。而對于阿里集團(tuán)來說,挑戰(zhàn)遠(yuǎn)不止這些。唐洪表示,把一個服務(wù)從企業(yè)內(nèi)部應(yīng)用的人群變成一個互聯(lián)網(wǎng)人群,首先要考慮安全問題,在計算能力的開放上,***的問題就在于安全。其次是,企業(yè)用戶和互聯(lián)網(wǎng)用戶的量級是不同的,企業(yè)用戶數(shù)以百計,互聯(lián)網(wǎng)用戶數(shù)以千計、數(shù)以萬計,在整個架構(gòu)、用戶管理上大有不同,因此阿里云面對的挑戰(zhàn)是巨大的。面對這些問題,唐洪說:“這都是我們解決的問題,我們只有解決了,才可以給外面的人去用。這也是我們之前為什么會走一個自主研發(fā)的路。”
飛天5K雕塑
阿里云服務(wù)的保障
用戶在選擇云計算服務(wù)的時候就是變相地選擇了機房。對于云計算服務(wù)提供商來說來說,所有的機房,所有的數(shù)據(jù)中心只是給客戶提供服務(wù)的載體,但是對于客戶來說,在云端的數(shù)據(jù)相當(dāng)于企業(yè)的生命,因此阿里云平臺的各方面綜合因素直接影響到企業(yè)的未來。
唐洪表示,在阿里巴巴,維護(hù)淘寶總站和維護(hù)阿里云的是同一支團(tuán)隊。從硬件防斷電的角度來說,阿里云設(shè)有幾級保護(hù)措施,比如在每一個機房會有柴油發(fā)電機,斷電之后,柴油發(fā)電機可以切換進(jìn)來,確保72小時的臨時供電,維護(hù)人員收到報警受,將關(guān)閉一些非關(guān)鍵性業(yè)務(wù),以延長整個數(shù)據(jù)中心的使用時間。從軟件備份層面,阿里云服務(wù)器提供異地架構(gòu)的方案,用戶可以在不同的數(shù)據(jù)中心購買云服務(wù)器,發(fā)生故障時,可以切換到另一個服務(wù)器中。
應(yīng)急能力也是運維工作的一部分,對于龐大的機房以及數(shù)據(jù)中心,運維自動化的重要性不言而喻。唐洪表示:“運維自動化是非常重要的,首先你需要機房的配置是標(biāo)準(zhǔn)化的,運維流程是標(biāo)準(zhǔn)化的,因為人要做線性動作的話,在動作上會有瓶頸的限制。因此,甚至包括整個機房的設(shè)施部署都要標(biāo)準(zhǔn)化。”
阿里云,公共的云計算
此次阿里云開發(fā)者大會上,飛天項目實體標(biāo)志正式在杭州云計算產(chǎn)業(yè)園揭牌,飛天5K的到來對云計算產(chǎn)業(yè)來說是一個有重要意義的事件。當(dāng)提及飛天5K的影響力時,唐洪說:“我認(rèn)為,這是一個技術(shù)的東西,單單技術(shù)實現(xiàn)到一個東西是沒有影響力的,但是我們提供了一個公共的云計算能力,這些事情是谷歌和facebook都沒有做到過的。”對于谷歌和facebook的云計算業(yè)務(wù),唐洪表示,他們的本質(zhì)并不是要把計算能力提供給公眾使用,他們本質(zhì)并不是云服務(wù)公司。
今年7月,阿里云開始對外提供云服務(wù),這對于中國的云計算產(chǎn)業(yè)是個很大的補充。在阿里人看來,這是真正的屬于中國的公共云計算。
責(zé)任編輯:鳶瑋
來源:
51cto.com