2018年,云宕機事故盤點
雖然云安全是業界最為關注的問題,云服務商在云安全上也一遍遍秀肌肉,但故障還是防不勝防。
1、6 月 17 日:微軟 Azure 愛爾蘭數據中心宕機
事故詳情:2018 年 6 月 17 日至 18 日,因愛爾蘭數據中心的恒溫系統出現問題,微軟 Azure 被高溫影響導致存儲和網絡中斷。
宕機時間:5 小時以上
2、6 月 27 日:阿里云故障
事故詳情:2018 年 6 月 27 日 16:21 左右,阿里云出現重大技術故障,16:50 分開始陸續恢復,官方給出的故障時間為 30 分鐘左右,恢復時間大概花費一小時。經過技術復盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執行了一項變更驗證操作,該操作在測試環境中未發生問題,上線后觸發未知 bug。
補救措施:人工介入,定位并解決問題。
宕機時間:30 分鐘,恢復時間花費一小時左右。
3、7 月 20 日:騰訊云云硬盤故障
事故詳情:2018 年 8 月 5 日,北京清博數控科技有限公司(以下簡稱“前沿數控”)在官方微博發布了一篇題為《騰訊云給一家創業公司帶來的災難》的博文,文中表明,2018 年 7 月 20 日,騰訊云云硬盤發生故障(騰訊云后期給出的事故原因說明),導致該公司存放的數據全部丟失,并且不能恢復,這是該創業公司近千萬元級的平臺數據,包括經過長期推廣導流積累起來的精準注冊用戶以及內容數據。
補救措施:騰訊云表示,監控到異常后***時間向用戶告知了故障狀態,并立即組織文件系統專家并聯合廠商技術專家嘗試修復數據。但經過多方努力,最終仍有部分數據完整性校驗失敗。
4、7 月 24 日:騰訊云宕機
事故詳情:2018 年 7 月 24 日,用戶登錄騰訊云時反復出現超時、退出等情況,即便更換運營商,結果也一樣。隨后,騰訊云發布通知稱初步確定是運營商光纜中斷,運營商已經找到斷點,正在連線中,主要受影響的為廣州區域部分用戶。
補救措施:運營商***時間介入搶修。
宕機時間:宕機時間不明,恢復時間花費 30 至 40 分鐘
5、Prime Day:亞馬遜 AWS 故障
事故詳情:Prime Day 是亞馬遜在全球范圍內啟動的為期 36 小時的會員促銷活動,活動剛開始,亞馬遜網站及 App 就同時發生嚴重宕機,不光電子商務業務受損,亞馬遜的其他產品和服務都受到了不同程度的影響。亞馬遜對此給出的解釋是 AWS 管理控制臺出現全球性問題。
宕機時間:故障持續了將近 6 小時。
6、9 月 4 日:微軟 Azure 數據中心遭雷劈宕機
事故詳情:9 月 4 日上午,微軟 Azure 美國中南區數據中心附近發生雷擊在內的惡劣天氣,影響冷卻系統的電壓,導致多個 Azure 服務出現連接問題,客戶難以訪問存儲在該區數據中心的資源。受影響的服務包括 Office36***ctive Directory、Visual Studio Online、Visual Studio Team Services 等。
補救措施:9 月 5 日上午,微軟工程師已恢復數據中心的電力和大多數網絡設備,其他服務也在陸續恢復中。
宕機時間:超過 24 小時
7、11 月 9 日:谷歌公有云下的 Kubernetes 服務(GKE)宕機
事故詳情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服務(GKE)節點池建置功能出現異常,維運人員無法透過 Cloud Console UI 建立新節點。
補救措施:谷歌派工程團隊調查故障原因,并開始著手維修。谷歌表示,受影響的企業用戶可以先改為使用 GCP 內建的 gcloud command,建置新 Kubernetes 節點。
宕機時間:接近 19 小時