風暴致使亞馬遜云宕機 淺談云計算的隱患
6月底的一場風暴襲擊美國弗吉尼亞北部,致使超過350萬人失去了電力供應,而亞馬遜位于弗吉尼亞的US-East-1數據中心也隨之癱瘓,由于數據中心停止運行,亞馬遜的云服務Amazon Web Services也因此一度中斷服務。此次亞馬遜云服務中斷事件再次引發了對于云服務的可靠性的疑慮,并且一家網站還因此而放棄了亞馬遜的云服務。

云服務
亞馬遜的云服務Amazon Web Services屬于基礎設施即服務,作為業界數一數二的云服務提供商,亞馬遜云有許多客戶,此次風暴致使Amazon Web Services中斷,不可避免的使得一些運行在其中的網站或是業務中斷。
Netflix,Pinterest,Instagram,Heroku,這些利用亞馬遜的基礎設施云服務運行業務的公司,都傳出消息出現中斷服務,其原因正是AWS 數據中心由于風暴而電力中斷。

Dominion Virginia公司聲明
為亞馬遜US-East-1數據中心所在的弗吉尼亞州提供電力的Dominion Virginia公司在聲明中表示,90萬個家庭因為風暴而電力中斷。導致亞馬遜數據中心電力中斷的這場風暴時速達80英里每小時,并且伴隨著閃電,風暴刮倒的大樹壓斷了電線,引發弗吉尼亞州北部的電力中斷。
亞馬遜數據中心所處的弗吉尼亞北部是此次風暴的重災區,直到風暴的第二天下午,總共83萬2千人中還有38萬5千人沒有電力供應。

Amazon Web Services健康狀況公示
至于Amazon Web Services的數據中心的電力情況,有消息稱斷電9分鐘就恢復了,不過其云服務就沒有那么快恢復了。亞馬遜有一個專門公布其云計算服務的運行狀況的網站,名為Amazon Web Services健康公示板,在其中我們可以查看亞馬遜云服務的運行狀況記錄。
根據Amazon Web Services健康狀況公示,亞馬遜云計算服務Elastic Compute Cloud (EC2)在6月29號晚上8點21的時候開始出現連接問題,8點40的時候,亞馬遜官方宣布風暴而致使亞馬遜數據中心電力中斷,不過9分鐘之后,電力得到恢復,亞馬遜就開始重新啟動EC2云服務,并且更新相關數據。

Amazon Web Services健康公示
到晚上11點19分,半數以上的EC2用戶和三分之一的相關數據得到恢復。但是 Elastic Load Balancers和Elastic Block Storage受到的影響,需要更多的時間來維修,30日10點25,亞馬遜宣布大部分受到影響的EC2用戶,由于沒有使用EBS硬盤,其服務已經得到恢復了正常,不過那些使用EBS硬盤的客戶就沒有那么幸運了。
云搜索和相關數據服務也由于電力中斷而受到了影響到30號早上,這些服務的的大部分用戶已經恢復了使用。

亞馬遜官方總結
對已此次亞馬遜云服務宕機的時間,有關專家指出,考慮云計算的可靠性,采用過云計算的IT企業下一筆預算很可能是將自己的業務放到多家云服務提供商中,據悉,近期谷歌、微軟都推出或是更新了基礎設施即服務類型的云服務。
云計算的可靠性隱患
對于云計算,亞馬遜Amazon Web Services的EC2云服務的用戶Okta有一個說法,建成云平臺,客戶會來,建好云平臺,客戶會留下。Okta是一個用戶身份管理服務商,雖然亞馬遜的EC2服務因為風暴導致電力中斷而宕機,但是Okta是將他的業務建立在多個云平臺之上,因此Okta的服務沒有經歷過一次宕機。

Okta
但是對于亞馬遜云服務另外一個用戶來說,情況就不是這樣了,一個網上約會網站Whatsyourprice.com,類似于現在中國的婚戀網站,其使用亞馬遜兩個云服務平臺建立自己的業務。此次電力中斷導致其運行在亞馬遜云平臺的業務中斷,Whatsyourprice.com收到了其顧客的上千條投訴,Whatsyourprice.com的首席執行官Brandon Wade在一次接受采訪時表示,這是Whatsyourprice.com開業以來從未遇到過的情況。

Whatsyourprice.com
Instagram、Quora、Heroku、Pinterest, Hootsuite以及Netflix等的用戶也在網上或是Twitter中抱怨服務中斷。
對于Whatsyourprice.com來說,此次風暴導致兩個小時的業務中斷成為了壓死駱駝的最后一根稻草,早在6月14號的時候,Whatsyourprice.com就經歷過一次2個小時的業務中斷,那一次是因為短時間內的大量的用戶活動導致服務器不堪重負。
Wade,這位Whatsyourprice.com的CEO,并沒有等到亞馬遜的官方事故分析或是咨詢師的分析,就已經把他的系統,在亞馬遜基礎設施云服務運行的10臺虛擬服務器,轉移到了拉斯維加斯的代理主機上,Whatsyourprice.com的總部就是在拉斯維加斯。
Wade表示:“亞馬遜是一個名譽非常好的公司,但是我們不能有這些業務中斷,對于我們來說,(業務的連續性)是至關重要的。”
Whatsyourprice.com還將會在拉斯維加斯尋找第二個代理主機,這樣即使在一處的主機出現故障,他的業務也不會下線。這就是Wade在亞馬遜云服務所需要的架構上的物理實現。
如何提高云計算可靠性
Wade的公司曾經采用的是位于Ashburn的亞馬遜US-East-1數據中心的兩個服務平臺,每個服務平臺都有自己的網絡和電力系統,來保障即使一個服務平臺中的,而另外一個還能保持業務的連續性。
位于Ashburn的US-East-1數據中心
對于此次亞馬遜云服務中斷導致Whatsyourprice.com的業務下線,Wade在一封郵件中表示,在亞馬遜云服務中斷期間,他的IT管理人員不能在未收風暴斷電影響而正常運行的服務平臺上安裝新的應用。并且在這期間,他也不能講大量的數據轉移備份。因此,即使只有一個服務平臺出現故障,一些AWS云服務軟件的不能預見的其它問題,會使得他們的網站業務中斷。
Wade還表示,6月份的兩次亞馬遜云服務中斷都導致了Whatsyourprice.com整個網站的癱瘓。
Whatsyourprice.com的案例印證了Okta對于云服務平臺的說法,“建成云平臺,客戶會來,建好云平臺,客戶會留下” 。
Okta同樣經歷了6月14號以及19號的亞馬遜云服務中斷的事件,但是其業務卻沒有下線中止。Okta聲稱他的在線用戶管理系統完全值得依賴因為它是真正的零宕機架構。

Okta的零宕機
Eric Berg,Okta的產品經理表示,任何單一獨立的平臺都會有可能宕機,Eric Berg表示有必要自己保證業務的可靠性,因為顧客和客戶不能容忍宕機,因此Okta才會在采用亞馬遜云服務的同時還采用其他云服務。
不僅僅是亞馬遜云服務,其他的云計算服務也會不可避免的出現宕機。服務提供商必需使得自己的服務在云計算平臺宕機時還能繼續運行其服務業務。
Whatsyourprice.com的首席執行官Wade表示,不同于你今天錯過電影可以明天再看,約會是需要正確的人和正確的時間,如果一個在線約會服務癱瘓,客戶也許就會失去見生命
中另外一半的機會。
Wade還表示,Whatsyourprice.com將不會再使用亞馬遜的EC2云服務,因為它的數據中心時不時的出現問題。
全文總結:
當云計算越來越受關注是,其隱患也就越來越顯現在人們面前。是否具有高可靠性是公司在選擇云計算服務提供商首先考慮的問題,但是需要指出的是,宕機是不可避免的問題,一個系統再怎么可靠100%的運行時間是難以保證的。云計算服務宕機的問題之所以被大家重視,是因為云服務上面有著諸多企業的業務。影響著諸多用戶和客戶。對于可靠性的要求,就像一句俗語將的一樣,不要把雞蛋都放在一個籃子里面。預算允許的話,同時選擇多家云服務可以降低業務中斷的可能性。