年終盤點:2024年影響最大的十個云中斷事件
今年2月AT&T服務中斷事件引起了聯邦監管機構的關注。9月,Verizon客戶又發現出了問題。某家網絡安全廠商的更新導致全球Windows機器崩潰。這些都是2024年全球面臨的最大云服務故障事件。
本文提到的事件主要涉及對解決方案提供商特別重要的云中斷故障,而跳過了消費級產品的故障,例如Meta Facebook和Instagram,后者在3月5日發生的故障被Downdetector母公司Ookla評為今年最大的故障事件,有超過1110萬人提交了關于該事件的報告。
2024年云故障
可觀測性技術提供商New Relic在今年10月發布了一份基于對全球1700名技術專業人員進行調查的報告。報告顯示,高影響中斷事件造成的年平均停機時間為77小時,每小時高達190萬美元的收入、生產力損失以及其他費用。
該報告發現,有工程團隊表示,他們每40小時的工作周中,有12小時(30%的時間)花在了解決服務中斷的問題上。網絡故障、第三方或云提供商服務故障、以及人為錯誤是導致計劃外中斷事件的主要原因。
數據庫供應商Cockroach Labs在今年10月發布了一份題為《2025 年彈性狀況》的報告,報告對全球1000名高級技術主管進行了調查,報告發現有84%的受訪者表示,他們在過去12個月內因服務中斷而損失了至少10000美元的收入。有三分之一的受訪者表示,他們的損失在10萬美元到100萬美元之間。
下面就讓我們看看2024年最大的這10個云故障事件。
1月數據庫升級導致Jira服務癱瘓
Atlassian今年的開局并不順利,它的Jira項目管理工具從UTC時間1月18日6:52開始向用戶發出503條服務不可用消息和其他錯誤警告,持續了大約四個小時。
ThousandEyes表示,Jira服務已經于UTC時間10:30恢復正常運行。根據ThousandEyes 在2月2日發布的報告顯示,這些問題影響了澳大利亞Atlassian提供的Jira Work Management、Jira Software、Jira Product Discovery等服務。
Atlassian把Jira產品系列性能下降歸因于“內部Atlassian Marketplace服務的預定數據庫升級”。
“這種性能下降表現為響應時間增加并最終超時,服務降級隨后連鎖上行,導致Jira系列產品的請求超時,影響產品體驗。”
2月AT&T中斷引起FCC關注
2月22日,AT&T用戶報告了這家電信巨頭的服務出現中斷,包括互聯網訪問中斷。Downdetector記錄有超過340萬份用戶報告,問題持續了超過12個小時。
2月25日,AT&T公司首席執行官John Stankey在一份聲明中表示,此次中斷似乎是“由于在擴展網絡時應用和執行了錯誤流程而導致的”,并向受中斷影響的客戶提供了5美元的信用額度。
7月,聯邦通信委員會(Federal Communications Commission,FCC)發布了一份關于該事件的報告,將原因歸咎于缺乏同行評審、安裝后測試不足、沒有足夠的保障措施和控制措施以獲得影響網絡變更的批準以及其他因素。
報告指出,AT&T已經做出改變以防止問題再次發生,包括“掃描網絡以查找任何缺乏可防止中斷控制措施的網絡元素,并及時實施這些控制措施”。報告稱,該事件已經被提交到執法局“以查明可能違反委員會規則的第4部分和第9部分”。
Downdetector母公司Ookla稱這是2024年全球第三大中斷事件,也是自2020年以來全球最大的運營商中斷故障。
2月元數據存儲給Google Cloud帶來麻煩
ThousandEyes在3月1日發布的帖子中表示,2月14日,區域元數據存儲問題導致Google Cloud us-west1用戶遭遇服務中斷。
據Google稱,該事件持續了大約2小時40分鐘。“我們的工程團隊通過隔離有問題的流量來緩解問題,并已經采取了措施防止再次發生,”Google將此歸咎于區域元數據存儲出現了問題。
此次中斷事件影響了各種Google Cloud產品、Vertex AI產品、身份和訪問管理(IAM)。
CrowdStrike更新故障
可以說,今年最嚴重的中斷事件就是CrowdStrike的更新故障,導致全球數百萬臺微軟Windows機器崩潰,而且這次事件仍然沒有結束,達美航空圍繞該航空公司五天內取消7000架航班的責任與CrowdStrike互相起訴。
在這次中斷事件之后,微軟重新審視了安全技術供應商為Windows開發產品的方式。去年11月微軟表示,正在研究一種方法,讓安全產品避免直接訪問Windows內核,并像應用一樣在用戶模式下運行。
CrowdStrike對內核(Windows的核心控制中心)的訪問已經被確定為導致7月19日CrowdStrike Falcon更新故障讓850萬臺Windows設備進入“藍屏死機”狀態的關鍵因素,這次事件導致大范圍的商業混亂甚至是社會混亂。
7月微軟中斷故障
除了CrowdStrike更新故障之外,微軟在7月還遭遇了服務中斷問題。
據ThousandEyes報道,7月30日,Azure Front Door (AFD)、Azure Content Delivery Network (CDN)以及依賴它們的下游服務遭遇中斷,微軟網絡的部分功能在UTC時間10:30左右出現故障。
微軟將這次事件歸咎于默認流量路由在自動緩解一次DDoS攻擊和歐洲某站點斷電后未能按預期恢復。
微軟在事后報告中表示,服務可用性已經在UTC時間19:43恢復到事發前的水平。微軟表示,通過確保一個地區的DDoS緩解問題不會蔓延到其他地區,改進監控和無效配置檢測,降低此次事件再次發生的可能性,減少事件帶來的影響。
9月AT&T和微軟出現故障
據微軟稱,9月12日,AT&T用戶無法訪問Microsoft 365和Azure服務,原因是“第三方互聯網服務提供商事件影響了部分客戶能力”。
微軟在X上的一篇文章中表示,此次中斷故障是由第三方互聯網服務提供商托管環境中未指明的“變化”所引起的,該提供商在其他地方被認定是AT&T。
ThousandEyes將這個問題描述為“僅限于直接從或通過AT&T對等點連接到微軟網絡的部分用戶”。
微軟在Azure狀態頁面上表示,在大約90分鐘的時間里,“使用AT&T連接到微軟服務的客戶在訪問我們的服務時遇到了問題”。
微軟的事件后報告稱,這一問題從UTC時間11:46一直持續到UTC時間13:14。
ServiceNow中斷故障
UTC時間9月23日2:00左右,約有600名客戶開始遭遇ServiceNow中斷故障,原因是過期根證書更新失敗。
根據ThousandEyes對該問題的報道,管理、檢測和發現 (MID)服務器受到中斷故障的影響,一些客戶發現云實例和服務器之間存在連接問題。
報告稱:“此次中斷故障提醒我們,數字生態系統或端到端交付鏈中的每項功能,在保持無縫運營方面都發揮著關鍵作用,應用或服務的強度取決于其最薄弱的環節。”
9月Verizon出現問題
9月30日,美國Verizon服務出現中斷故障,Downdetector記錄了超過170萬份報告。
從紐約到洛杉磯的用戶都報告稱沒有服務或服務受限,只有“SOS模式”除外,該模式允許用戶通過返回覆蓋范圍內的其他運營商網絡撥打緊急電話。
Downdetector將問題的開始時間定為美國東部時間上午9:30左右,Verizon在美國東部時間上午11:48在X上發布了有關該問題的帖子。僅在上午11:15至11:30之間就有超過10萬份事件報告提交,報告總數已超過40萬份。
Verizon表示,該問題在大約10小時后美國東部時間晚上7:18得到解決。
Cloudflare關于此次中斷故障的帖子中稱,HTTP流量在中斷期間比預期水平下降了9%,內布拉斯加州奧馬哈等地的流量下降了約30%。
Downdetector母公司Ookla將9月Verizon的故障事件列為2024年全球最大的故障事件之一,在美國排名第四,有240萬用戶提交了報告。
10月Salesforce中斷故障
10月1日,CRM軟件巨頭Salesforce經歷了全球服務中斷,沙盒實例在UTC時間2:40以50%的容量運行。
“在受影響期間,用戶可能無法訪問Salesforce服務,而另一部分用戶雖然可以登錄,但性能不佳,”Salesforce在11月的一份關于該問題的報告中表示。“在中斷和性能下降期間,用戶可能收到了‘我們正在維護’的故障消息。”
Salesforce關于這次中斷故障的報告稱,“由于可并行升級的單元數量容量限制,緊急版本的全面推出耗時14小時,手動抑制重啟和添加缺失的元數據”減輕了影響。
Salesforce將這次中斷歸咎于“缺少時間特定配置”,“阻止了核心應用服務器的啟動。”
11月微軟中斷故障
就在感恩節前一天多,微軟Outlook和Teams產品出現中斷,使其登上了新聞媒體頭條新聞。
11月26日CNN表示,有超過5000名用戶報告了該問題。微軟于太平洋時間11月25日凌晨1:06發現問題,并報告該問題已于太平洋時間11月26日下午12:07得到解決。微軟將這次中斷故障歸咎于“最近的一次變化”。
ThousandEyes表示,從UTC時間11月25日2:00開始,它觀察到Outlook在線和其他微軟產品出現了服務器錯誤、超時和數據包丟失。