EBS悲催 亞馬遜承諾提高數據中心冗余
亞馬遜網絡服務(AWS)從都柏林數據中心停電事故中學到了很多的經驗教訓。該公司表示,他們已經從此次事件中充分總結了經驗教訓,將改善數據中心電源冗余、負載均衡以及當云計算出現故障時的通信的方式。
檢驗報告對造成停電的原因進行了深入的研究,此次停電事故影響到了亞馬遜的EC2(彈性計算云Elastic Compute Cloud)、EBS(彈性數據 塊存儲Elastic Block Store)、關系數據庫服務以及亞馬遜的網絡。服務中斷從八月七日上午10:41開始,當時亞馬遜的的公用事業供應商 遭受了變壓器故障。起初,被認為是由雷擊造成的,但供應商認為那不是真實的原因,據亞馬遜表示,該事件目前還在繼續調查中。
通常情況下,當主電源發生故障,電力負荷將無縫啟動備用發電機。可編程邏輯控制器(PLC)保證在電氣階段在線聯機同步發電機。但在這 種情況下,PLC沒有完成其任務,可能是因為一個大的接地故障,從而導致一些發電機的失敗,據亞馬遜介紹。?
為了避免再次發生類似事件,亞馬遜將增加冗余,并隔離其PLC,使他們與其他故障絕緣。
亞馬遜的云基礎設施分為地理區域(Region Zone)和可用區域(Availability Zone)。所謂的地理區域:例如,在都柏林的數據中心,又被稱為西歐聯盟區域,由一個或多個可用性區域組成,它們被設計為與同一地區的其他區域中的故障絕緣。這種想法是源于方便客戶可以使 用多個區域,以提高可靠性,亞馬遜用來簡化工作。
在中斷時間內,西歐聯盟可用區域的多家曾采用了EC2和EBS卷的客戶并沒有經歷服務中斷,據亞馬遜介紹。但是,管理服務器超載導致了停電,對整個地理地區都造成了影響。
為了避免再次發生這種情況,亞馬遜將實現更好的負載平衡。此外,在過去的幾個月中,亞馬遜已經“進一步發展了隔離EC2控制面板元件, 以消除因一個可用性區域可能的延遲或失敗對我們處理調用其他可用性區域能力所帶來的影響。這項工作仍在進行之中,將需要幾個月的時間來完成,據亞馬遜介紹說。
亞馬遜服務的***的問題來自于其EBS,是用來存儲EC2的數據的。通過耐用性和可用性的節點服務復制整個卷中的數據。之后,停運的節點便開始互相復制更改。亞馬遜其實有能力做到這一點,只是此次的數據流量太大。
當一個卷中的所有節點都同時斷電,在某些情況下,亞馬遜必須通過匯集恢復快照重新創建數據。而產生這些快照的過程是相當費時的,因為亞馬遜已經將所有的數據都移動到了亞馬遜簡單存儲服務(S3)進行處理,將其變成了快照存儲格式,然后使用戶可以通過他們的賬戶訪問數據。
亞馬遜表示,截至8月10日下午8:25,98%的恢復快照均已交付,剩下的需要手動。
對于EBS中,亞馬遜的目標將是在一次重大停電事故之后大大縮減其恢復時間。他們會做到的,例如,在恢復供電后,直接在EBS服務器恢復 卷,而無需將數據移動到其他地方。
提供的存儲服務不僅僅只是受到了停電的影響,而且還受到不同的軟件和人為因素的影響,當硬件故障沒有正確處理時,這種現象就會發生。
因此,一些數據塊被錯誤地標記為刪除。后來,在作進一步數據分析時發現了這些錯誤標簽,但人為檢查過程中卻沒有發現刪除過程被執行了,據亞馬遜介紹。為了防止再次發生,他們正在建立一個新的報警功能,將提醒亞馬遜任何異常情況的發生。
用戶如何能夠體驗到這種斷電也取決于這些受斷電影響的公司是否及時的進行了更新。
“客戶對于他們在斷電恢復期間應該做些什么的焦慮心情是可以理解的。”亞馬遜表示。盡管該公司盡了***努力保證了用戶在***時間的 知情權,但他們仍然存在有待改進的地方。例如,他們可以加快早期響應的速度,派遣工作人員支持團隊,更早的告訴用戶他們的資源是否受到了影響,亞馬遜表示。
該公司正在研發后者的工具,并希望能在未來幾個月的時間里問世。
亞馬遜同時還為斷電停運事故進行了道歉,將給予受影響的用戶服務折扣。 EC2/EBS和RDS數據庫的用戶將獲得相當于10天的服務折扣。此外,受到EBS軟件bug影響的公司將獲得30天的EBS服務折扣。服務折扣將會自動從未來的AWS的合同中扣除。
原文:http://cloud.chinabyte.com/343/12139843.shtml
【編輯推薦】
【責任編輯:楊賽 TEL:(010)68476606】