亞馬遜故障頻發 用戶該怎么辦?
上周一系列的電力問題困擾著的Amazon web服務與應用(AWS)位于Virginia的Ashburn數據中心。對于人為造成的電力故障,Amazon表示此次事件只是一場事故,目前正努力爭取恢復運行,同時也強調用戶應該使用AWS工具和服務備份數據以免造成損失。
Amazon發言人Kay Kinton說:“這些意外事故總是接二連三地發生,我們也很難對如此集中的事故作出合理解釋。但可以肯定的是我們對運營的態度是非常認真和謹慎的。”
Kinton表示發生的事故之間并無關聯,每次故障只會影響單個區域中的一小部分用戶。而且我們為客戶在單個區域中的任意故障提供了緩沖措施。
鑒于之前許諾過要讓用戶們充分了解運行中發生的問題,AWS對于每個故障事件都發布了詳細的報告。
Amzon運營故障中的奇怪案例
5月5日,在一臺UPS發生故障無法切換至備用電源時,AWS員工進行了切換,從而造成了重多服務的癱瘓。3個小時之后,“人為失誤造成了備用發電機斷電,從而導致同一區域的服務器都斷電。”4天后,電源配電面板發生短路故障,由于工業電源面板往往具有防止意外的短路的冗余設計,所以這是一個特殊的設備故障。AWS報告說會花費更多的時間來確保面板安全。
事故報告顯示,“在恢復電力供應之前,設備工程師必須找到正確的接地故障并予以糾正,而不是急于恢復供電從而將運行置于危險之中并給本區域中其他主機造成影響。”
5月9日的運營中斷是近期事故持續時間最長的一次,中斷持續8個小時。5月11日的運營中斷則是由于車輛撞上電線桿,從而切斷了數據中心的電源,其中一臺設備在這次中斷中轉換電源失敗造成了另一臺設備中斷30分鐘。
為什么AWS數據中心近期故障頻發?分析人士表示,即便運營中斷的原因是如目前所公布的那樣,類似這樣的事故在數據中心中也不少見。Amazon能如此快速和徹底地解決突發設備故障,是應該得到褒獎的。“似乎他們處理事故的能力一向很出眾。”
orrester分析師Andrew Reichman說。Amazon正常運行時間紀錄比其他企業要好很多,盡管有些難以料的故障發生,我們還是會覺得這是一個系統性的問題。他表示運營中斷仍舊為AWS帶來了一定的負面影響,數據中心經常發生這類事故,但是你并沒有聽說過,因為這已不是新聞了。Reichman認為負面宣傳使得AWS更難以在業界中推廣云計算,但是總的來說,事故造成的影響并不大。人們對Amazon web服務與應用愈來愈感興趣,因為那能幫他們實現更好的規模經濟,我們也相信Amazon將做的更加專業。”他說。Amazon要求用戶對可能發生的故障要有足夠的思想和物質準備。雖然許多用戶都對發生的運營中斷表示不滿,但是受到影響的用戶數量卻非常小。
“如同一個數據中心所產生的影響,運營中斷會導致一系列新的問題發生。”AWS的老顧客、Python boto項目的作者Mitch Garnaat說。Garnaat認為云供應商除了要為客戶提供工作良好的故障轉移系統,還需要讓客戶了解諸如控制設備故障之類的信息。Amazon表示它正在重新設計其電源系統,以減少單臺設備故障對其他服務器產生的負面影響,而這些改進將在未來幾個月由設計走向應用。它還要求客戶學習運行某些故障保護系統。在第一次運營中斷之后,Amazon就承諾重新設計其電源系統以使更少的服務器免受單個設備故障的影響。第二次的事故后,它要求客戶對自己的AWS環境保持警惕,并表示事實上用戶可以采用正確的布局以避免任何的運營中斷。公開的事故報告顯示:“我們要提醒用戶充分利用Amazon EC2的優勢,該應用幫助在多個區域橫跨架構并能在單個區域中承受實例故障。”用戶們并不想眼看事故發生而束手無策,但是似乎那就是使用AWS產品所需支付的代價之一。
【編輯推薦】