工程師一個錯誤輸入 導致AWS S3“沉”了4個小時
譯文【51CTO.com快譯】有個AWS工程師在調查Northern Virginia (US-EAST-1) Region上S3的一個和賬務系統(tǒng)相關的問題時,有一條命令敲錯了,結果移除了大量的S3的控制系統(tǒng),最終導致AWS S3出現(xiàn)故障。
根據(jù)AWS方面于本周四發(fā)布的報告,此前出現(xiàn)的長達數(shù)小時的AWS主站離線與服務宕機事故源自一項輸入錯誤。
該云基礎設施服務供應商發(fā)布了以下說明:
Amazon簡單存儲服務(簡稱S3)團隊當時正在對一項導致S3計費系統(tǒng)運行緩慢的問題進行調試。于當天上午9:37(太平洋時間),一位授權S3團隊成員利用一份已經(jīng)過確認的playbook執(zhí)行一條命令,旨在移除某S3子系統(tǒng)內的少部分負責實現(xiàn)S3計費流程的服務器。遺憾的是,命令中的一條輸入結果存在拼寫錯誤,最終導致大部分服務器遭到意外移除。
這項錯誤無意中導致美國東一服務區(qū)(為Amazon旗下歷史最為悠久的大規(guī)模數(shù)據(jù)中心)內全部S3對象所高度依賴的兩套關鍵子系統(tǒng)。兩套系統(tǒng)需要全面重啟。而整個修復過程加上其它一些必要的安全性檢查“所需要的時間比預期更長”,Amazon方面指出。
盡管兩套已經(jīng)當時已經(jīng)得到重啟,但S3仍然無法正確響應請求。該服務區(qū)中其它依賴于S3的AWS服務亦受到影響,具體包括S3控制臺、Amazon彈性計算云(簡稱EC2)新實例啟動、Amazon彈性塊存儲(簡稱EBS)分卷(限于需要讀取S3快照的數(shù)據(jù))以及AWS Lambda。
Amazon方面指出,其中的索引子系統(tǒng)已經(jīng)于當天中午1:18(太平洋時間)完全恢復,而放置子系統(tǒng)則在中午1:54(太平洋)恢復。到這里,S3已經(jīng)能夠正常運轉。
AWS同時指出,其正在根據(jù)此次事故進行“數(shù)項調整”,具體包括采取舉措以避免未來再次因錯誤輸入引發(fā)類似問題。
“盡管移除容量屬于一項關鍵性操作實踐,但在目前的情況下,我們使用的工具在移除容量時的執(zhí)行速度過快,”AWS在博文中解釋稱。“我們已經(jīng)對此工具進行了修改以更慢進行容量清除,同時增加了安全措施以防止任何子系統(tǒng)在容量移除后遭遇現(xiàn)有容量低于***容量需求的情況。”
另外,AWS還采取了其它一些值得關注的舉措:將索引子系統(tǒng)拆分成更小的功能單元。該公司亦變更了AWS服務狀態(tài)儀表板的管理控制臺,確保其能夠跨多個AWS服務區(qū)實現(xiàn)運行。(諷刺的是,此次輸入錯誤導致該儀表板于周二失靈,因此AWS方面必須依靠Twitter向客戶發(fā)布問題的動態(tài)更新。)
原文標題:Amazon knocked AWS sites offline because of typo 原文作者:Stephanie Condon
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】