工程師一個錯誤輸入導致AWS S3“沉”了4個小時

作者：核子可樂譯 2017-03-03 19:45:01

有個AWS工程師在調查Northern Virginia (US-EAST-1) Region上S3的一個和賬務系統(tǒng)相關的問題時，有一條命令敲錯了，結果移除了大量的S3的控制系統(tǒng)，最終導致AWS S3出現(xiàn)故障。

【51CTO.com快譯】有個AWS工程師在調查Northern Virginia (US-EAST-1) Region上S3的一個和賬務系統(tǒng)相關的問題時，有一條命令敲錯了，結果移除了大量的S3的控制系統(tǒng)，最終導致AWS S3出現(xiàn)故障。

根據(jù)AWS方面于本周四發(fā)布的報告，此前出現(xiàn)的長達數(shù)小時的AWS主站離線與服務宕機事故源自一項輸入錯誤。

該云基礎設施服務供應商發(fā)布了以下說明：

Amazon簡單存儲服務（簡稱S3）團隊當時正在對一項導致S3計費系統(tǒng)運行緩慢的問題進行調試。于當天上午9：37（太平洋時間），一位授權S3團隊成員利用一份已經(jīng)過確認的playbook執(zhí)行一條命令，旨在移除某S3子系統(tǒng)內的少部分負責實現(xiàn)S3計費流程的服務器。遺憾的是，命令中的一條輸入結果存在拼寫錯誤，最終導致大部分服務器遭到意外移除。

這項錯誤無意中導致美國東一服務區(qū)（為Amazon旗下歷史最為悠久的大規(guī)模數(shù)據(jù)中心）內全部S3對象所高度依賴的兩套關鍵子系統(tǒng)。兩套系統(tǒng)需要全面重啟。而整個修復過程加上其它一些必要的安全性檢查“所需要的時間比預期更長”，Amazon方面指出。

盡管兩套已經(jīng)當時已經(jīng)得到重啟，但S3仍然無法正確響應請求。該服務區(qū)中其它依賴于S3的AWS服務亦受到影響，具體包括S3控制臺、Amazon彈性計算云（簡稱EC2）新實例啟動、Amazon彈性塊存儲（簡稱EBS）分卷（限于需要讀取S3快照的數(shù)據(jù)）以及AWS Lambda。

Amazon方面指出，其中的索引子系統(tǒng)已經(jīng)于當天中午1:18（太平洋時間）完全恢復，而放置子系統(tǒng)則在中午1：54（太平洋）恢復。到這里，S3已經(jīng)能夠正常運轉。

AWS同時指出，其正在根據(jù)此次事故進行“數(shù)項調整”，具體包括采取舉措以避免未來再次因錯誤輸入引發(fā)類似問題。

“盡管移除容量屬于一項關鍵性操作實踐，但在目前的情況下，我們使用的工具在移除容量時的執(zhí)行速度過快，”AWS在博文中解釋稱。“我們已經(jīng)對此工具進行了修改以更慢進行容量清除，同時增加了安全措施以防止任何子系統(tǒng)在容量移除后遭遇現(xiàn)有容量低于***容量需求的情況。”

另外，AWS還采取了其它一些值得關注的舉措：將索引子系統(tǒng)拆分成更小的功能單元。該公司亦變更了AWS服務狀態(tài)儀表板的管理控制臺，確保其能夠跨多個AWS服務區(qū)實現(xiàn)運行。（諷刺的是，此次輸入錯誤導致該儀表板于周二失靈，因此AWS方面必須依靠Twitter向客戶發(fā)布問題的動態(tài)更新。）

原文標題：Amazon knocked AWS sites offline because of typo 原文作者：Stephanie Condon

【51CTO譯稿，合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯：test 來源： 51CTO.com

亞馬遜 AWS S3故障

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

工程師一個錯誤輸入 導致AWS S3“沉”了4個小時

工程師一個錯誤輸入導致AWS S3“沉”了4個小時