企業(yè)如何在云服務中斷時避免受傷
亞馬遜今年4月那次出了名的云中斷導致大量著名網(wǎng)站的宕機,其中包括foursquare和Reddit,但是亞馬遜的很多企業(yè)級云服務客戶卻安然度過了這次中斷風險,并沒有因此而受損。
這些企業(yè)級客戶的系統(tǒng)駐留在多個可用域中,要么在傳統(tǒng)數(shù)據(jù)中心留有備份,要么選擇了備份的云服務商設置,一旦出現(xiàn)狀況便可安然防范。
硅谷的一家照片共享公司SmugMug即便在其同行們紛紛落馬之時也安然無恙。這里面的部分原因是因為它沒有使用亞馬遜的彈性塊存儲——這個特殊服務組件在系統(tǒng)中斷時也會中斷。
當然,該公司還將其系統(tǒng)在亞馬遜的多個數(shù)據(jù)中心做了備份——這些數(shù)據(jù)中心就是亞馬遜所謂的“可用域”。
SmugMug的CEO Chris MacAskill認為,加入其他的同行也能像他們那樣將其應用做分布式備份的話,也能夠安然度過危機。他還建議這些公司也使用多個亞馬遜可用域,而且各個域之間的隔離性最好高于亞馬遜可用域之間的隔離性。當然,亞馬遜會對使用多個可用域收取更高的費用,所以必須仔細考慮企業(yè)的需求。
SmugMug如今非常依賴亞馬遜,利用后者基于云的簡單存儲服務(S3)存儲客戶的照片和視頻。SmugMug還用到了很多的EC2實例。但是它沒有用到彈性塊存儲——該服務是每個EC2實例自帶的,通常用于存儲各種運營數(shù)據(jù)——而是仍然使用了傳統(tǒng)的數(shù)據(jù)中心。
但是即便如此,SmugMug還是遭遇了一些損失,比如在亞馬遜中斷服務的那一周里,該公司的一臺核心路由器、備份服務器和一臺核心的主數(shù)據(jù)庫服務器都宕掉了。“我一點兒都不想再去處理路由器或者數(shù)據(jù)庫的故障,這也就是為什么我們始終采用云服務的原因,”MacAskills說。
他補充說,即便遭遇到服務中斷,他們從亞馬遜所獲得的云服務依然要比他們自己的好,也要比其他云服務商的服務好。“我們對亞馬遜非常信任。”
一家以色列公司Kitely只使用了亞馬遜的一個可用域,但幸運的是,這個域逃沒有出現(xiàn)服務中斷。
不過這家公司已準備從這次中斷事件吸取教訓。“我們計劃將我們所有的服務分布在多個可用域上去,”Kitely的研發(fā)副總裁Oren Hurvitz說。
Kitely是一家運行云會議與云協(xié)作環(huán)境的公司,其平臺是OpenSim,他們會對服務進行連續(xù)檢查以確保其所有服務始終在線,正常運行。
“我們的系統(tǒng)設計基于這樣的假設:任何服務都有可能在任何時刻出現(xiàn)中斷故障,如果我們發(fā)現(xiàn)有臺服務器沒有及時響應,我們就會停掉它,開啟一臺新的服務器。”他說。
傳統(tǒng)備份服務
還有一家公司沒有受亞馬遜服務中斷的影響,因為這家公司使用了多個可用域,這就是Mashery公司,這家公司為100多家企業(yè),如百思買、Hoovers和紐約時報等提供API。不過Mashery也還有另外一套備份計劃,那就是傳統(tǒng)的數(shù)據(jù)中心。
“我們很早就意識到,亞馬遜的服務可能會出問題,可能會完全無法使用,所以我們就決定需要做一個故障切換基礎設施,”Mashery的CEO Oren Michels說。“我們采用了Internap公司專門的硬件。”
總部在亞特蘭大市的Internap網(wǎng)絡服務公司不僅能為Mashery提供一個熱備份場所,而且還可為客戶提供一個比云的延時要低的生產(chǎn)環(huán)境,或者在亞馬遜服務覆蓋不到的地理位置提供服務。
“我們在兩個地方維護者充足的基礎設施,以便應對峰值負載,”他說。
兩年前,當Mashery剛開始構(gòu)建其云基礎架構(gòu)時,亞馬遜還不是云廠商。因此那個時候說要向另一個云廠商做備份還不是一個必選項,但是現(xiàn)在已有了這種可能。
“我們肯定會持續(xù)關(guān)注這樣的做法。亞馬遜為我們服務的也非常好,而Internap也是一個很好的合作伙伴,會繼續(xù)為我們提供所需要的服務。”
Internap甚至壓低了價格以保持競爭力,但是他說,價格并非他們進行決策時的主要依據(jù)。
“我們的客戶是上百家大品牌客戶,萬一出現(xiàn)狀況導致服務中斷,那么失去這些客戶的代價將會是非常巨大的。我們的客戶之所以肯付錢要解決API的問題,就是想在一旦出現(xiàn)故障時我們能讓他們安然無恙。”
Enderle集團分析師Rob Enderle認為,正在向云遷移的企業(yè)通常都會在開始階段繼續(xù)使用傳統(tǒng)數(shù)據(jù)中心作為其備份。
“你可以擁有一組較少的設備作為備用設備,用于故障切換,”他說。
“通常情況下,在企業(yè)向云遷移之前就得做好這種準備。這樣便可在出現(xiàn)故障時切換到一種性能較低的設備上去,始終維護住自己的客戶。”
企業(yè)一般會把一些應用運行在傳統(tǒng)數(shù)據(jù)中心內(nèi),而將另一些應用運行在云上,對這兩方都使用同一個災備場所,因為亞馬遜的服務和傳統(tǒng)數(shù)據(jù)中心的服務在同一時刻中斷的幾率是微乎其微的。但是他也反對在同一朵云中,用一組云服務為另一組云服務做備份的做法。
“一種冗余服務雖然可以和主服務使用某些相同的資源,但是必須慎用,必須確保冗余的資源是真正冗余的,而不是軟硬件重疊使用的另一種叫法。”他說。
選擇第二家云提供商
利用一家云服務提供商作為傳統(tǒng)數(shù)據(jù)中心的備份一般來說要比采用其他方法更加節(jié)省成本。
這是因為在云服務商那里,你可以按計算周期付費。沒有用到計算周期時,客戶只需要最少量的計算能力能夠快速啟動服務即可,只有在需要的時候才會增加更多的服務容量。
而在傳統(tǒng)數(shù)據(jù)中心內(nèi),必須時刻保證有足夠多的服務器能夠投用,以便應對峰值負載,即便這些服務器平常很少使用也得如此。轉(zhuǎn)換成硬件成本,也就是諸如電力消耗和人員費用等——一般來說,一個傳統(tǒng)的備份中心可能會使總的計算成本加倍,而一個云備份中心可能只增加了一定比例的成本而已。
舉例來說,網(wǎng)盤加密廠商AlertBoot僅每月用電一項成本就高達5萬美金,AlertBoot的CEO Tim Maliyil說。
“我們曾經(jīng)在一個地方有兩個物理數(shù)據(jù)中心——你簡直無法相信當我們把它們關(guān)閉掉的時候是多么的高興。如今,我們有兩個云,帶寬和托管費用是每月16000美金。電力和容量幾乎沒有任何浪費,云真的是我們的成本和持續(xù)支出最小化了。”
向云提供商遷移并不困難,因為AlertBoot早就在其傳統(tǒng)數(shù)據(jù)中心內(nèi)使用VMware的虛擬化軟件了。該公司所選擇的兩家云服務商是SunGard和OpSource,這兩家所使用的也是VMware的技術(shù)。
他說,從其中一家向另一家切換只需費時一兩分鐘,備份云可以迅速增加容量以處理猛然間增加的負載。而切換過程本身采用的則是Zeus科技公司的技術(shù)。
Maliyil稱,他的公司之所以選擇了這兩家云服務商,是因為它們的企業(yè)級可靠性很好。“對于我們這個行業(yè)來說,我們的客戶不能容忍發(fā)生故障,所以我們必須繞開亞馬遜的基礎設施。”
還有一家可幫助企業(yè)管理在多個云上的服務的公司是rPath,該公司已有90多家企業(yè)客戶,多數(shù)都是大型企業(yè)和大型ISP,其中包括像AMD、富士通、高通和EMC等。
這家公司最近部署了16種格式的鏡像服務,可對云環(huán)境中運行的應用進行快照處理。增加一個云一般只需要不到一周的時間,rPath的首席營銷官Jake Sorofman說,“這點時間對我們來說就相當短了。”
該公司已可支持亞馬遜EC2、VMware、Citrix Zen、微軟Hyper-V、Rackspace和其他一些鏡像格式。一旦某個應用在rPath系統(tǒng)中運行,那么系統(tǒng)只需15分鐘便可生成新的鏡像,并將其部署到新的云上去。
但是,應用首先必須重新為rPath系統(tǒng)進行架構(gòu)設計,這會花費稍長一些時間。“為我們的平臺重新打包應用的過程可能需要數(shù)小時到數(shù)天時間,這取決于應用的復雜程度,”他說,“但我們擁有專業(yè)的服務團隊,可以很好地為客戶提供服務。”
他說,很多流行的應用已經(jīng)打包設計完成,例如Windows和Linux操作系統(tǒng)、WebLogic和WebSphere、SAP、EMC和RSA產(chǎn)品等。
“利用我們的技術(shù),已經(jīng)有一系列內(nèi)容廣泛的應用堆棧進行了模塊化,都是可以現(xiàn)成使用的,”他說。
由于選擇應用在云間遷移的企業(yè)要多于只選擇備份服務的企業(yè),所以他們的技術(shù)能夠讓企業(yè)在與云服務商簽訂合同時獲得更大的優(yōu)惠。
“有了更多的選擇也就有了套利的機會,”他說,“因為工作負載可以基于性能、策略和價格進行優(yōu)化了。從某種程度上說,企業(yè)可以很容易地將工作負載在亞馬遜、Rackspace或其他云環(huán)境之間進行遷移,這樣就能夠?qū)υ品丈踢M行施壓,因為你擺脫了廠商鎖定的困擾。”