阿里云全球故障凸顯“云集中”風險
阿里云12日發生的全球性故障再次將“云集中風險”推上風口浪尖。這一公有云史上罕見的事件不僅影響了數以萬計的企業和服務,也引發了對云服務集中化趨勢的深刻反思。
2023年11月12日17:44(GMT+8)開始,阿里云基礎設施發生嚴重故障,導致阿里巴巴大量產品無法連接,“阿里云盤崩了”“淘寶又崩了”“閑魚崩了”“釘釘崩了” 等話題相繼登上熱搜,阿里系諸多產品受到影響。
故障期間阿里云控制臺無法正常登錄,API調用異常,導致阿里云全系列產品服務及全球區域(包括阿里云位于中國內地、港澳臺、亞洲其他地區、歐洲、北美、中東、政務云以及金融云等)數據中心均受影響。
故障恢復期間,一些用戶抱怨由于DNS服務也出現問題,導致無法做故障轉移,“想跑都跑不了”。
根據阿里云發布的通知,故障持續了3個多小時后才基本完全恢復:
- 17:50——阿里云確認故障原因與某個底層服務組件有關,工程師正在緊急處理中。
- 18:54——經過工程師處理,杭州、北京等地域控制臺及API服務已恢復,其他地域控制臺服務逐步恢復中。
- 19:20——工程師通過分批重啟組件服務,絕大部分地域控制臺及API服務已恢復。
- 19:43——異常管控服務組件均已完成重啟,除個別云產品(如消息隊列MQ、消息服務MNS)仍需處理,其余云產品控制臺及API服務已恢復。
- 20:12——北京、杭州等地域消息隊列MQ已完成重啟,其余地域逐步恢復中。
- 21:11——受影響云產品均已恢復,因故障影響部分云產品的數據(如監控、賬單等)可能存在延遲推送情況,不影響業務運行。
阿里云此次全球性故障的嚴重程度、影響規模和范圍在公有云歷史上都極為罕見,嚴重打擊了各行業用戶對公有云可靠性和安全性的信心,進一步凸顯了Gartner三季度風險報告中強調的“云集中”風險。
“云集中”名列五大新興風險榜單
根據Gartner最新公布的2023年三季度新興風險報告,云集中風險連續第二年進入“五大新興風險”綜合榜單:
在美國和中國市場,云集中風險則更為突出(排名分別上升至第三):
Gartner法律風險與合規實踐部門研究總監徐然表示:“云服務集中化風險正在成為大多數企業的共識。許多企業和機構現在面臨這樣的處境:一旦單個云服務商出現故障,將導致業務發生嚴重中斷。”
“云集中”的三大風險
導致“云集中風險”的原因有很多,許多組織為了降低IT復雜性、成本和技能要求,選擇將IT服務集中在少數幾個戰略云供應商手中;而加劇這一風險的是,少數幾個云計算巨頭憑借其技術能力優勢、業務覆蓋范圍和合作伙伴生態系統,在全球和區域市場占據主導地位。
徐然表示:“對于那些選擇將其IT服務托管在公共云中的組織來說,要避免云集中風險的同時又獲得云服務的好處,很難兼顧。此外,國家和次國家層面的法規在處理集中風險、反競爭、數據主權和云服務隱私規則方面存在分歧,這進一步復雜化了情況。”
根據Gartner的說法,云集中目前主要有三大風險:
- 超大的事件“爆炸半徑”:越多的應用程序(和業務流程)依賴于特定的云提供商,云服務問題可能帶來的影響范圍就越廣,這可能加劇業務連續性的擔憂。
- 高度的供應商依賴和鎖定:對特定供應商的集中依賴可能會減少未來技術選擇,并允許供應商對組織的技術未來施加重大影響。
- 監管合規失敗:組織可能無法滿足不同監管機構對處理集中風險的要求,這些機構對集中風險的處理方法可能各不相同。
如何緩解云集中風險
徐然表示:“目前,如果公共云的優點對企業戰略至關重要,企業迫切需要制訂一個完備的連續性計劃,以應對可能面臨的任何重大云服務風險。”
知名密碼學專家布魯斯施奈爾認為,增加云服務商數量并不能從根本上降低“云風險”,他在IEEE Spectrum上撰文指出:
在全球科技巨頭和云服務商爭先恐后“大煉數據”的生成式人工智能時代,企業和個人對存放于云端數據的安全焦慮與日俱增,一個可行的策略是將身份、數據和行為解耦合。
“企業不應再對云服務商的數據安全能力和意愿抱有幻想,企業唯一的出路是將數據安全重新掌握在自己手中。”施奈爾說道。