成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

2023-11-12阿里云故障解密和反思

運(yùn)維
訪問(wèn)密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控 API 服務(wù)出現(xiàn)異常,同時(shí)部分依賴(lài) AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。

阿里云故障過(guò)去一段時(shí)間了,目前原因基本確認(rèn)了;相關(guān)原因和反思可以重新思考一下看看有哪些是值得借鑒和反思的地方。

先來(lái)看一下網(wǎng)上披露官方報(bào)告。

原因

訪問(wèn)密鑰服務(wù) (AK)在讀取白名單數(shù)據(jù)時(shí)出現(xiàn)讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導(dǎo)致不在此白名單中的有效請(qǐng)求失敗,影響云產(chǎn)品控制臺(tái)及管控 API 服務(wù)出現(xiàn)異常,同時(shí)部分依賴(lài) AK 服務(wù)的產(chǎn)品因不完整的白名單出現(xiàn)部分服務(wù)運(yùn)行異常。

改進(jìn)措施

  • 增加 AK 服務(wù)白名單生成結(jié)果的校驗(yàn)及告警攔截能力。
  • 增加 AK 服務(wù)白名單更新的灰度驗(yàn)證邏輯,提前發(fā)現(xiàn)異常。
  • 增加 AK 服務(wù)白名單的快速恢復(fù)能力。
  • 加強(qiáng)云產(chǎn)品側(cè)的聯(lián)動(dòng)恢復(fù)能力。

問(wèn)題回顧

2023 年 11 月 12 日 17:39 起,阿里云云產(chǎn)品控制臺(tái)訪問(wèn)及管控 API 調(diào)用出現(xiàn)異常、部分云產(chǎn)品服務(wù)訪問(wèn)異常,工程師排查故障原因與訪問(wèn)密鑰服務(wù) (AK) 異常有關(guān)。工程師修訂白名單版本后,采取分批重啟 AK 服務(wù)的措施,于 18:35 開(kāi)始陸續(xù)恢復(fù),19:20 絕大部分 Region 產(chǎn)品控制臺(tái)和管控 API 恢復(fù)。

處理過(guò)程

  • 17:39:阿里云云產(chǎn)品控制臺(tái)訪問(wèn)及管控 API 調(diào)用出現(xiàn)異常。
  • 17:50:工程師確認(rèn)故障是 AK 服務(wù)異常導(dǎo)致,影響云產(chǎn)品控制臺(tái)、管控 API 調(diào)用異常,以及依賴(lài) AK 服務(wù)的云產(chǎn)品服務(wù)運(yùn)行異常。
  • 18:01:工程師定位到根因。
  • 18:07:開(kāi)始執(zhí)行恢復(fù)措施,包括修訂白名單版本、重啟 AK 服務(wù)。
  • 18:35:杭州等 Region 開(kāi)始恢復(fù)正常。
  • 19:20:絕大部分 Region 的云產(chǎn)品控制臺(tái)和管控 API 調(diào)用恢復(fù)正常。

這里的主要原因

  • 數(shù)據(jù)沒(méi)有隔離雖然服務(wù)層面做了隔離。但是數(shù)據(jù)層生成白名單之后沒(méi)有做隔離,做了全球的推全
  • 因?yàn)橛脩?hù)的權(quán)限是全球的,所有在用戶(hù)層面沒(méi)有做隔離,全球推全之后造成了全球故障
  • 白名單是故障時(shí)什么導(dǎo)致的網(wǎng)上沒(méi)有披露

暴露出來(lái)的問(wèn)題 

  • 隔離:所有用戶(hù),所有地區(qū);服務(wù)做了隔離,但是數(shù)據(jù)沒(méi)有做隔離;
  • 分級(jí):數(shù)據(jù)上線(xiàn)前檢查:數(shù)據(jù)直接推全,沒(méi)有做提前檢查,沒(méi)有分級(jí)也沒(méi)有做檢查必然影響所有的用戶(hù)。

最后

我們一定不要抱著吃瓜的態(tài)度去看這個(gè)問(wèn)題,冷嘲熱諷,如果事件發(fā)生在我們頭上能做哪些優(yōu)化 

優(yōu)化點(diǎn):

  • 隔離:數(shù)據(jù)層面一定要想辦法做隔離;
  • 分級(jí):數(shù)據(jù)推送線(xiàn)上環(huán)境之前一定要做檢查和分級(jí),比如我可以在一個(gè)小的地區(qū)和國(guó)家先推送,沒(méi)問(wèn)題再推送;
  • 檢查:在上線(xiàn)前一定要做case回歸。

關(guān)于穩(wěn)定性的一些個(gè)人思考:

  • 我工作大概10年了一直在處理著各種各樣的故障;
  • 越是重大的故障其實(shí)越是簡(jiǎn)單,越是簡(jiǎn)單的事情就越難得老板的認(rèn)可;
  • 其實(shí)我覺(jué)這個(gè)也是需要老板去思考的,一味的追求高大上,很難應(yīng)對(duì)簡(jiǎn)單的故障;
  • 簡(jiǎn)單的事情往往又很難得到職級(jí)和薪資待遇的提升。如何取得平衡是需要思考的。
責(zé)任編輯:武曉燕 來(lái)源: SRE說(shuō)
相關(guān)推薦

2023-11-13 16:09:09

2018-06-29 10:36:29

阿里云互聯(lián)網(wǎng)故障

2013-07-25 10:28:31

阿里云阿里云SLB故障

2011-10-24 21:32:08

阿里云云應(yīng)用

2015-11-20 13:29:19

雙11阿里云異地多活

2023-11-12 19:31:34

阿里云語(yǔ)雀

2015-03-17 19:35:49

Xen漏洞阿里云

2021-04-12 10:07:06

云計(jì)算邊緣云阿里云

2025-06-06 11:27:12

2015-08-25 10:02:48

阿里云

2010-09-08 21:14:09

2011-04-26 09:21:55

亞馬遜

2023-12-25 21:56:22

2015-06-24 15:29:56

阿里云香港機(jī)房癱瘓

2010-11-01 13:10:33

2013-08-08 10:34:50

阿里巴巴BAT

2018-01-23 10:55:07

阿里數(shù)據(jù)庫(kù)技術(shù)雙11

2013-12-09 09:56:28

2013-08-08 10:20:04

云計(jì)算災(zāi)難恢復(fù)反思
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: av免费网站在线观看 | 国产丝袜一区二区三区免费视频 | 91色在线视频| 免费看黄色国产 | 欧美特级黄色 | 久久不卡视频 | 欧美日韩精品一区二区三区四区 | 特级做a爰片毛片免费看108 | 日韩欧美国产一区二区 | 久久精品99久久 | 亚洲美女一区二区三区 | 天天操天天摸天天干 | 午夜精品一区二区三区在线视频 | 精品国产一区二区三区日日嗨 | 日本三级电影在线观看视频 | 国产精品久久片 | 97视频网站 | 免费一级黄色录像 | 久久精品一区二区三区四区 | 不卡视频一区二区三区 | 91精品中文字幕一区二区三区 | 国产一区欧美 | 国产91九色 | 日本成人免费网站 | 黄色成人免费看 | 日本在线视频不卡 | 日韩av三区 | 成人黄色在线观看 | 亚洲视频免费在线观看 | 亚洲视频区 | 丁香婷婷久久久综合精品国产 | 日韩精品久久一区二区三区 | 欧美日韩午夜精品 | 91视频一区二区 | 一区二区三区在线免费观看视频 | 国产一级黄色网 | 国产亚洲一区二区三区 | 欧美日韩一二三区 | 久久成人一区二区三区 | 在线观看av中文字幕 | 欧美精品91 |