年終盤點 | 2020云巨頭們的宕機事件
本文轉載自微信公眾號「SDNLAB」。轉載本文請聯系SDNLAB公眾號。
今年,疫情的爆發給云計算帶來了一次非凡的考驗——云計算不僅要提供正常運營業務的能力,還需要具有在負載激增的情況下保持可用性的能力。目前,云計算已被很多企業采用,但是,在此過程中也出現了許多問題。
以下是今年規模巨大的十大宕機事件,隨著這些問題的出現和解決,云計算技術正面臨著新的挑戰和機遇。
1. 3月份,Microsoft Azure
3月,微軟發生兩次大規模宕機事件。
3月3日,微軟位于美國東部的數據中心發生了服務中斷,持續六小時,導致美國北部的客戶無法使用Azure云服務。
微軟稱,這次故障應歸咎于冷卻系統故障。發生故障的樓宇自動化控制導致氣流減少,隨后整個數據中心的溫度達到峰值,影響了網絡設備的性能,使得計算和存儲都無法繼續使用。
3月24日-26日,Azure Pipelines發生故障,這是DevOps團隊使用的持續交付服務,接下來的幾天,軟件開發管道遇到了嚴重的延遲,開發人員受到的影響特別大。
微軟證實,由于全球疫情爆發,需求激增,虛擬機容量受限使得設備重新映像的時間增加,導致可用代理的等待時間也隨之增加。
2. 3月26日,Google Cloud Platform
3月26日,Google多個云服務出現無法訪問的問題。Google用戶發Twitter稱,他們遇到了Google 500和502錯誤代碼——500代碼代表因內部錯誤導致請求失敗;502代碼則代表網關出現故障。
Google最終將這次故障歸咎于“基礎設施組件”問題。據Downdetector稱,美國東部沿海地區的Google客戶受到的影響最大。
3. 4月10日,華為云
4 月 10 日,華為云出現大面積宕機,華為云登錄、管理后臺無法訪問,部分公司業務無法正常維持。本次宕機持續約三小時。
不少網友在微博反映,華為云登錄、管理后臺便開始無法訪問,并出現了“服務器暫時過載或處于維護中,請稍后重試。”、“建立數據庫連接時出錯”等提示。華為云官方微博隨后發布公告回應稱:“檢測到部分主機異常,目前故障基本修復,部分客戶的業務正在配合恢復中。”
對此,有消息稱這次宕機主要是由于北京的機房出現故障導致的,廣州和上海的用戶表示能夠正常使用。
4. 4月21日,GitHub
微軟旗下的源代碼存儲庫GitHub在4月底發生了多次宕機。
4月21日,多個GitHub服務出現訪問異常,持續了一個半小時。4月22日,服務再次出現中斷,持續時間至少兩小時。4月23日,多個GitHub服務也遇到了各種問題的影響,持續了近三小時。軟件工程師經常使用的API請求、Webhooks等服務被標注為 "已降級"。
官方沒有提供任何原因,也沒有公布恢復過程的信息。雖然GitHub網站上更新了微軟試圖修復各種故障的情況,但并沒有提供任何關于問題的細節,開發者們在Twitter上抨擊微軟缺乏透明度。
(5) 6月9日,IBM Cloud
6月9日,IBM Cloud 遭遇了重大宕機故障,平臺上托管的多項服務也因此中斷,其中就包括知名科技新聞聚合網站 Techmeme。本次宕機事件從下午2點30分左右開始,并快速蔓延至全球。
IBM Cloud頁面也在故障發生期間短暫關閉,然后在下午6:30之后報告稱一系列問題已經得以解決。
IBM網站解釋到,INM網絡運營團隊調整了路由策略,處理了第三方提供商引入的問題,這次故障也得以解決。
(6) 8月24日,Zoom
8月24日,Zoom發生了部分中斷,導致用戶無法訪問其離線會議和在線視頻會議,本次中斷持續了3小時。Zoom并未解釋造成中斷的原因,他只是在狀態頁面上說找到并解決了問題。
Zoom現在每天約有1.15億活躍用戶,該公司的服務可能已成為2020年在家工作的關鍵詞。
(7) 9月28日,Microsoft 365和Azure
9月29日,Microsoft Office 365辦公軟件和Azure云產品出現故障,導致部分用戶服務中斷數小時。
微軟表示,故障涉及Outlook電郵服務和Teams辦公協作工具的部分用戶,其中Teams具備聊天和視頻會議功能,在新冠疫情期間其用戶增長迅速。微軟表示,一些用戶無法登錄這些服務,但已經登錄上去的不受影響。
當天,Azure云計算用戶也遭遇了與Office365套件類似的問題。Azure是微軟的大規模云計算系統,許多企業都依靠其存儲和分析數據。
(8) 10月7日,Microsoft Office 365
10月7日,Microsoft更新了其網絡基礎結構,隨后,Microsoft Teams,Outlook,SharePoint Online,OneDrive for Business和Outlook.com的功能均下降。
當天下午2:48,Twitter上的Microsoft 365官方號確認中斷。微軟隨后表示,網絡基礎結構的最新更新對Microsoft 365服務產生了影響,目前環境正在恢復更新。
(9) 11月25日,AWS
11月25日,亞馬遜云服務出現中斷,大量網站和服務受到影響。本次宕機持續約5小時。
AWS發布通知稱,處理流媒體數據的Kinesis服務出現問題,大量網站受到影響,錯誤率上升。并且,宕機還影響了它向狀態頁發布更新的能力。
據了解,此次宕機導致亞馬遜智能安全子公司Ring、Roku、軟件開發商Autodesk紐約大都會運輸署的地鐵網站,論壇出版集團旗下的《芝加哥論壇報》和《巴爾的摩太陽報》等一些公司或機構的服務受到了影響,網站頻頻出現錯誤。
值得注意的是,AWS 的大客戶蘋果、Slack、Netflix 并沒有受到宕機的影響,仍然運行正常。
(10) 12月14日,Google Cloud
12月14日晚間,Google服務器又一次全球宕機。這是近5個月來第3次全球宕機。
Google旗下的YouTube、Gmail、Google Drive、Google Search等服務出現死機,用戶無法正常使用,全球多個國家及地區用戶均受到影響。
Google隨后發推文確認,由于內部存儲配額問題,Google身份驗證系統中斷。宕機45分后問題得以解決,現在所有服務都已恢復。
互聯網時代對系統的可靠性提出了更高的要求。關鍵系統往往要求每年的不可用時間不能超過53分鐘,而以上事故很多都遠遠超過了故障預算。
未來,系統架構會越來越復雜,整體的數據和流量也會越來越大,有專家表示,快速響應和控制影響半徑,是當前的互聯網需要重視起來的兩個實踐方向。