鋰電池機房著火超30個小時,阿里云字節服務宕機,AWS趁火打劫?
9月10日,阿里云服務又宕機了。此次宕機的原因是,新加坡可用區 C 數據中心的機房發生了一場嚴重的火災。火災原因是鋰電池爆炸,導致機房升溫和燃燒。離譜的是,自10日早上8點到11日晚上8點,火災持續了整整36小時,仍未完全撲滅。
根據阿里云發布的事件公告,火災發生后,阿里云新加坡地域可用區 C 網絡訪問出現異常,部分云產品服務出現異常。其中云數據庫 Redis、MongoDB、RDS MySQL,對象存儲 OSS,表存儲 OTS 以及云原生大數據計算服務 MaxCompute等關鍵服務受影響。
此次阿里云服務宕機再次引發了打工人的瘋狂吐槽。
據官方消息,火災發生后,阿里云按照產品調度策略,云數據庫 Redis/MongoDB/RDS MySQL、對象存儲 OSS、表格存儲 OTS 、云原生大數據計算服務 MaxCompute 等已陸續完成容災切換。但部分 OSS 對象存儲、數據庫等產品的單 AZ 版本,需待受影響物理機柜具備重新開機條件后恢復。
直到9月12日凌晨,阿里云官方客服回復稱,新加坡區域大部分受到網絡影響的云產品已恢復正常服務,剩余斷電的機房業務仍需等待物理條件的恢復。如現場評估后不具備原地恢復的物理條件,應急小組將執行服務器設備遷移恢復預案。
此外據媒體報道,該數據中心不僅托管了阿里云和字節的服務器,還包括一些其他跨國公司的服務器。有用戶報告稱,Digital Ocean、IaaS 服務 Coolify 以及 Cloudflare 出現了宕機或服務降級,也與此次火災有關。
在 Lazada 以及 TikTok Shop 等電商平臺上,賣家反饋無法通過平臺接口同步訂單信息;TikTok Shop 的用戶也透露,系統故障使得小黃車功能無法正常使用等。
最搞笑的是,AWS趁火打劫,疑似在社交平臺上發帖宣傳自家云服務產品,引發了不少網友評論:高端的商戰有時候就是這么簡單。
總的來說,作為中國云服務領域的頭部廠商,阿里云聲稱其災難恢復與故障轉移程序已按預期運行,意味著高可用性云產品達到了承諾的服務水平,但表示部分用戶仍須手動將工作負載從受火災影響的可用區遷出。
數據中心火災撲救難點
數據中心的火災撲救難點主要包括封閉空間、熱量積累、用電量大和復雜的電氣環境。為了確保網絡安全中的物理安全,需要采取多層次的防護措施,包括訪問控制、視頻監控、環境監控和防災設計等。同時,綜合安全策略、員工培訓、定期評估和演練以及安全文化建設也是確保物理安全的重要措施。
(1) 封閉空間
數據中心通常采用封閉式空間設計,無窗或窗戶不易開啟,這使得火災時熱量和煙霧難以散發,導致火勢迅速蔓延,增加了撲救的難度。封閉空間不僅阻礙了熱量的散發,還可能導致有毒煙霧在室內積聚,對人員和設備造成嚴重威脅。
(2) 熱量積累
數據中心內部設備密集,發熱量大,且由于密封環境,熱量無法有效散發,導致室內溫度迅速升高,增加了撲救的難度。高溫環境不僅加劇了設備的損壞,還可能導致電氣設備的絕緣性能下降,增加短路和火災的風險。
(3) 用電量大
數據中心用電量大,線路復雜,容易發生電氣火災。此外,線路老化和絕緣保護層破損也是常見的火災原因。大量的電氣設備和高負荷運行增加了電氣系統的復雜性,任何一個電氣故障都可能引發連鎖反應,導致火災迅速擴散。
(4) 復雜的電氣環境
數據中心內部線纜眾多,布線復雜,電氣火災頻發。電氣火災通常難以早期發現,且撲救難度大。電氣環境的復雜性使得火災預警和撲救變得更加困難,需要依賴先進的監控和滅火系統。
數據中心物理安全優秀實踐
(1) 多層防護體系
建立多層防護體系是確保數據中心和網絡設備安全的關鍵,包括物理屏障、訪問控制、環境控制和訪客管理等。多層防護體系可以有效防止未經授權的訪問和破壞,減少火災等安全事故的發生。
(2) 物理訪問控制
通過設置門禁系統、身份驗證設備和訪問記錄日志,確保只有經過授權的人員才能進入重要的物理區域。嚴格的物理訪問控制可以大大降低數據泄露和設備破壞的風險,是數據中心物理安全的基礎。
(3) 視頻監控環境
安裝高清攝像頭和運動檢測器,對數據中心內外的活動進行實時監控,及時發現可疑行為或安全威脅。視頻監控系統不僅提高了安全性,還可以在事后進行審計和分析,優化安全策略。實施溫濕度控制、水浸檢測和火災報警系統,避免自然災害或設備故障對數據中心造成嚴重損害。環境監控系統可以及時發現和處理環境異常,防止因環境問題導致的設備故障和火災。
綜合安全策略
將物理安全和網絡安全納入到整體安全計劃中,確保它們相互協調。例如,安裝監控攝像頭時應考慮網絡安全措施,如加密視頻流和訪問控制。綜合安全策略可以確保物理安全和網絡安全的有機結合,防止潛在的安全漏洞。
(1) 員工培訓和意識
加強員工培訓和意識,教育他們如何識別和應對物理和網絡安全威脅,使用強密碼并定期更改密碼。員工的意識和行為是網絡安全的重要組成部分,通過培訓可以提高他們的安全意識和應對能力。
(2) 定期安全評估和演練
定期進行綜合的安全評估和演練,發現潛在的物理和網絡安全風險,并及時修復。通過定期的評估和演練,可以及時發現和解決安全隱患,提高應對突發事件的能力。
(3) 安全文化建設
建立強大的安全文化,確保安全意識和責任感貫穿于整個組織,每個人都應該認識到安全是每個人的責任。安全文化是確保物理安全和網絡安全的基礎,只有每個員工都重視安全,才能有效降低安全風險。