阿里云崩，釘釘崩，咸魚崩，淘寶崩...應用集群故障后自動恢復測試之進程自我拉起應該怎么做？

作者：佚名 2023-11-14 14:19:59

今年的11月12日，也就是雙十一的第二天，阿里云崩了！！！

今年的11月12日，也就是雙十一的第二天，阿里云崩了!!! 使用阿里云服務的一系列阿里軟件，淘寶，咸魚，天貓，釘釘、阿里云盤等阿里軟件，全都崩了，一下就上了微博熱搜，我司作為阿里云使用客戶也受到了影響，特別是mq等組件;

淘寶天貓自去IOE后取得巨大成功，阿里云也從螞蟻集團的體系中獨立出來給全球企業提供云服務，不久前在云棲大會上都還在分享阿里云如何如何的高效支撐業務，包括前幾天的雙十一阿里云也抗住了購物洪峰壓力，但是沒想到雙十一第二天就崩了，這已經是影響全球使用阿里云的客戶的嚴重事故;

通過阿里云推送的消息顯示整個事件過程

尊敬的客戶：

您好!北京時間2023年11月12日 17:44起，阿里云監控發現云產品控制臺

問及API調用出現異常，阿里云工程師正在緊急介入排查。非常抱歉給您的使用帶來不便，若有任何問題，請隨時聯系我們。

--進展更新

17:50 阿里云已確認故障原因與某個底層服務組件有關，工程師正在緊急處理中;

18:54 經過工程師處理，杭州、北京等地域控制臺及API服務已恢復，其他地域控制臺服務逐步恢復中;

19:20 工程師通過分批重啟組件服務，絕大部分地域控制臺及API服務已恢復;

19:43 異常管控服務組件均已完成重啟，除個別云產品 (如消息隊列MQ、服務MNS) 仍需處理，其余云產品控制臺及API服務已恢復;

20:12 北京、杭州等地域消息隊列MQ已完成重啟，其余地域逐步恢復中。

21:11 受影響云產品均已恢復，因故障影響部分云產品的數據 (如監控、賬單等)可能存在延遲堆送情況，不影響業務運行。

這次非常嚴重的P0級事故，致使使用阿里云服務的客戶的損失非常之大。

上一次阿里P0級事故是在10月24日的語雀平臺故障8小時，最后恢復服務之后補償了用戶6個月的會員;

上一次阿里云大面積服務器故障的P0級事故是2022年12月，阿里云香港地域發生超過12小時的持續性故障。通過以上故障事件，在高可用的應用集群中，出現節點故障，進程是否能夠進行自我拉起從而實現恢復呢? 咱們今天聊聊應用集群故障之進程自我拉起場景。

一個正在運行的程序或者軟件就是一個進程，它是操作系統進行資源分配的基本單位，也就是說每啟動一個進程，操作系統都會給其分配一定的運行資源(內存資源)保證進程的運行。

應用集群故障后自動恢復測試之進程自我拉起測試場景：

當服務的進程異常掛掉后，能夠自動將進程拉起，恢復服務，實現高可用;

測試目的：

考察服務進程自我拉起有效性。

1、測試場景采用混合交易模型交易配比;

2、測試執行時，采取穩定壓力施壓，以被測試系統最大處理能力的80%或預設壓力，穩定運行5分鐘;

3、通過kill -9命令 kill 掉某進程;

4、場景持續運行5分鐘，通過PS -ef|grep 服務名稱，命令觀察被kill 的進程是否自動拉起。

步驟3后，進程被Kill;

步驟4后，進程自我拉起。

TPS、交易失敗率、系統資源使用率等。

服務進程自我拉起有效性(除了能夠拉起還有時效要求，為60秒之內)為有效。

責任編輯：華軒來源：測試小號等閑之輩

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看