阿里云史詩級崩潰......
前言
昨天晚上阿里云史詩級崩潰了。
涉及到阿里云盤、淘寶、咸魚、釘釘、語雀等等多條業務線產品。
“阿里云盤崩了”“淘寶又崩了”“閑魚崩了”“釘釘崩了”等話題相繼登上熱搜,阿里系諸多產品受到影響。
這一次事故,影響范圍之大,可以說是史詩級別的。
1、語雀出現異常
昨天那段時間,我正在使用語雀編輯知識星球中的文章,發現保存出現異常,頁面直接報錯了。
2、朋友圈很熱鬧
緊接著,我的朋友圈一下子熱鬧起來了。
大家都在評論這件事故,說明了它的嚴重性,影響范圍太大了。
3、事件的過程
阿里云對此公告稱,2023年11月12日17:44起,阿里云監控發現云產品控制臺訪問及API調用出現異常,阿里云工程師正在緊急介入排查。
18:54阿里云再度公告,經過工程師處理,杭州、北京等地域控制臺已恢復,其他地域控制臺服務逐步恢復中。
而最新流出的截圖顯示,阿里工程師通過分批重啟組件服務,大部分地域控制臺服務已恢復訪問。
據悉,此次受影響產品包括企業級分布式應用服務、消息隊列MQ、微服務引擎、鏈路追蹤、應用高可用服務、應用實時監控服務、Prometheus監控服務、消息服務、消息隊列Kafka版、機器學習、圖像搜索、智能推薦AlRec等。
而受影響地域涵蓋華北2 (北京)、華北6 (烏蘭察布)、 華北1 (青島)、華東2(上海)、華南2(河源)、華北3(張家口)、中國香港、印度(孟買)、美國(硅谷)、華南1(深圳)、英國(倫敦)、韓國(首爾)、日本(東京)、阿聯酉(迪拜)、西南1 (成都)、華南3 (廣州)、新加坡、澳大利亞 (悉尼)、馬來西亞(吉隆坡)、 華北5 (呼和浩特)、 印度 尼西亞(雅加達)、美國 (弗吉尼亞)、菲律賓 (馬尼拉)、泰國(曼谷)、華東1(杭州)、華南1金融云。
這并非阿里云首次出現大面積故障。
目前是什么原因,還不得而知。
4、我以前的經歷
其實這次事故使用阿里云產品的其他用戶也受到影響。因此,作為普通用戶的我們如果有高并發的業務場景,務必要做高可用,異地多活的設計。
我們之前做游戲平臺的時候,為了保證游戲登錄接口的高可用,為了防止機房網絡的問題,比如:整個機房突然斷電,或者機房遇到某些不可逆的因素,比如:發生地震或者洪災,導致這個機房掛了。
為了保證機房出現問題時,盡可能小的影響用戶。
我們在做系統設計的時候,使用了異地多活的架構,將用戶流量負載到了三個機房:深圳機房、天津機房和成都機房。
其中深圳機房占了40%的流量,天津機房占了30%的流量,成都機房占了30%的流量。
而且我們當時選了兩個以上的云服務廠商。
我們那段時間,還真的遇到過某個機房整個停電的問題。
不好幸好做了異地多活的設計,如果一個機房掛了,流量可以切到另外兩個機房當中,將用戶的影響降低最低。