四年一遇:Windows Azure崩潰原因初步探明
譯文在四年才會碰到一次的2月29日,Windows Azure經歷了一次不小的災難,Azure平臺的架構與開發服務出現了較嚴重的斷線情況,尤其是服務管理組件,在當天凌晨發生了全世界范圍內的大面積無法訪問。
經過緊急搶修,Azure Service Dashboard在當天下午3點半發布報告說Windows Azure的服務管理系統服務已經基本恢復正常,包括Access Control 2.0、Azure Reporting和Azure Marketplace等一些其他受到影響的組件。
緊接著,微軟在官方博客上發布了對這次斷線情況的調查結果。
“在某些地區,Windows Azure監測到一些異常現象而導致計算服務功能停機,”微軟服務器與云計算副總裁Bill Laing在官方博客中寫到,“問題觸發的很快,最終我們把它確認為軟件的bug。雖然最終的根源原因還在進一步調查中,但看上去和閏年的時間計算失誤有關。”
“問題出現之后,我們立即采取了相應措施,首先是要確保用戶已經上線的服務正常運行,然后開始修復工作,”他在博客中繼續寫到,“絕大多數的用戶服務在下午2點57分就已經完全恢復。”
Bill Laing在博客中保證微軟將會繼續對導致此次斷線的技術問題進行進一步的解釋,此外對這次斷線給用戶造成的不便致以誠摯的抱歉。
顯然微軟的道歉不足以停止Azure用戶在官方論壇上繼續發泄自己的抱怨,即使是在Azure服務已經恢復之后。“我們至少丟掉了兩位正在測試我們系統的潛在客戶,”一位用戶抱怨說,“我們還算是一家小公司,那些大企業的損失顯然更多。我們選擇Windows Azure就是看好它的數據冗余技術,可現在該怎么向客戶解釋呢?”