微軟就云服務故障發(fā)布初步分析報告
微軟已經(jīng)對9月4日影響全球客戶的故障發(fā)布了一份初步根本原因分析(RCA)報告。Azure工程團隊正在繼續(xù)調查此事件,并表示他們將在"未來幾周內"提供更詳細的分析。
微軟的官員們在這份分析報告中表示,受到影響的客戶將在10月份的賬單中,根據(jù)微軟Azure服務水平協(xié)議(Microsoft Azure Service Level Agreement)得到相應的補償。
9月4日,微軟在美國中南部的數(shù)據(jù)中心附近出現(xiàn)了一次雷擊,很多Azure服務出現(xiàn)了故障,需要通過Azure 動態(tài)目錄(Azure Active Directory)進行身份認證的Office 365也受到影響,此次事件的影響波及到了微軟全球的很多客戶。
微軟的分析報告總結表示,風暴導致"電力系統(tǒng)供應的波動,導致電壓驟升。"電壓的驟升導致一個Azure數(shù)據(jù)中心切換至發(fā)電機供電,并關閉了該數(shù)據(jù)中心的制冷系統(tǒng),但該中心配備有浪涌抑制器。該數(shù)據(jù)中心仍然通過冷卻系統(tǒng)中與負載相關的熱緩沖器維持所需的工作溫度,但是等到緩沖器作用耗盡,溫度就出現(xiàn)了升高,設備就出現(xiàn)了自動關閉。
一些硬件在關閉之前就已經(jīng)被損壞,包括"大量存儲服務器"以及其他網(wǎng)絡設備和電源單元。現(xiàn)場團隊開始嘗試恢復基礎架構,這意味著更換故障硬件,將服務器遷移到健康的服務器上并檢查數(shù)據(jù)是否已經(jīng)損壞。
對于那些想知道為什么微軟的數(shù)據(jù)中心沒有在故障中轉移到備份站點的人:"當時做出的決定是為了恢復數(shù)據(jù)而不是轉移到另一個數(shù)據(jù)中心,因為由于地理復制的異步特性,故障轉移會導致部分數(shù)據(jù)丟失。"
關閉數(shù)據(jù)中心會影響許多依賴于該數(shù)據(jù)中心內存儲服務器的Azure服務。受影響的服務包括:torage、虛擬機(Virtual Machines)、Application Insights、認知服務和自定義視覺API(Cognitive Services & Custom Vision API)、備份(Backup)、應用程序服務(以及用于Linux的應用程序服務和用于容器的Web應用程序)、用于MySQL的Azure數(shù)據(jù)庫、SQL數(shù)據(jù)庫、Azure自動化(Azure Automation)、站點恢復(Site Recovery),Redis緩存(Redis Cache)、Cosmos數(shù)據(jù)庫、流分析(Stream Analytics)、媒體服務(Media Services)、Azure資源管理器(Azure Resource Manager)、Azure VPN網(wǎng)關、PostgreSQL、Application Insights 、Azure機器學習工作室、Azure搜索、數(shù)據(jù)工廠、HDInsight、物聯(lián)網(wǎng)中心、分析服務、密鑰庫、日志分析、Azure監(jiān)視器、Azure計劃程序、邏輯應用程序、Databricks、ExpressRoute、容器注冊表(Container Registry)、應用程序網(wǎng)關(Application Gateway)、服務總線(Service Bus)、事件中心(Event Hub)、Azure Portal IaaS Experiences-- Bot服務、Azure批處理、Service Fabric和Visual Studio Team Services(VSTS)。
微軟表示"這些服務中的絕大部分在協(xié)調世界時9月5日的11:00都已經(jīng)恢復了",但是也承認到了9月7日的8:40才完全解決這些問題。
為什么美國中南部地區(qū)以外的客戶也會受到這一系列事件的影響?據(jù)該帖子稱,"Azure Service Manager的彈性不足",它采用的是"經(jīng)典"資源類型的運營管理服務。微軟的高管們表示,"雖然ASM是一項全球服務,但它不支持自動故障轉移。"由于對ASM和其他相關服務的各種依賴性,美國中南部地區(qū)以外的Azure資源管理器服務也受到了影響。