成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

互聯(lián)網(wǎng)故障管理體系建設(shè),看這一篇就夠了

新聞 前端
業(yè)界故障管理均基于ITIL演化而來,根據(jù)實際情況精簡流程以適配互聯(lián)網(wǎng)的精益迭代。

[[321989]]

 一、故障及故障管理定義

業(yè)界故障管理均基于ITIL演化而來,根據(jù)實際情況精簡流程以適配互聯(lián)網(wǎng)的精益迭代。

1、ITIL中的定義

故障:①非計劃性的IT服務(wù)中斷,或者IT服務(wù)性能的下降。②配置項的失效,即便沒有影響到服務(wù)。

故障管理:對所有故障進行處理的流程。

故障管理的目標:盡快恢復(fù)服務(wù)到正常運行,并且最小化對業(yè)務(wù)運營的不利影響,從而盡可能地保證服務(wù)質(zhì)量和可用性的水平。

2、業(yè)界較完善定義

故障:除用戶方環(huán)境或者用戶自身操作引起的外,其他無論什么原因?qū)е路?wù)中斷、服務(wù)品質(zhì)下降或者用戶服務(wù)體驗下降。

故障管理:圍繞故障生命周期采取的一系列活動和流程,包括故障等級定義、故障發(fā)現(xiàn)、故障響應(yīng)、故障應(yīng)急、故障恢復(fù)、故障復(fù)盤及持續(xù)改進。

故障管理的目標:預(yù)防可預(yù)知的問題,快速恢復(fù)不能預(yù)知的問題,不再重復(fù)已發(fā)生的問題。

二、為什么要做故障管理

互联网故障管理体系建设,看这一篇就够了

無論是理論還是實踐,均證明故障只要有發(fā)生的可能,它總會發(fā)生。所以為了保障業(yè)務(wù)穩(wěn)定性,需提前發(fā)現(xiàn)、解決風險,及時發(fā)現(xiàn)、定位原因、快速恢復(fù)故障,同時要確保改進措施有效落地、避免故障重復(fù)發(fā)生,我們需要建立一個規(guī)范可遵循、閉環(huán)的故障管理體系。

三、故障管理怎么做

故障管理就是圍繞故障全生命周期管理,形成體系閉環(huán)、持續(xù)改進。

互联网故障管理体系建设,看这一篇就够了

無論是理論還是實踐,均證明故障只要有發(fā)生的可能,它總會發(fā)生。所以為了保障業(yè)務(wù)穩(wěn)定性,需提前發(fā)現(xiàn)、解決風險,及時發(fā)現(xiàn)、定位原因、快速恢復(fù)故障,同時要確保改進措施有效落地、避免故障重復(fù)發(fā)生,我們需要建立一個規(guī)范可遵循、閉環(huán)的故障管理體系。

1、故障等級定義

1.1 故障序列

故障管理部門(例如質(zhì)量部門、NOC、運維管理部門等)可根據(jù)實際情況定義故障序列,以下為目前業(yè)界可參考的序列,一類序列一般分為4級,級別數(shù)字越小嚴重程度越高。

  • P(PRIORITY)序列:技術(shù)基礎(chǔ)序列,為故障處理的綜合優(yōu)先級。
  • D(DATA)序列:數(shù)據(jù)質(zhì)量序列,綜合數(shù)據(jù)資產(chǎn)等級與數(shù)據(jù)影響因素。
  • R(RISK)序列:輿情風險序列。
  • S(SLA)序列:衡量影響SLA嚴重程度。

1.2 故障定級

以P序列舉例:

故障定級建議分為通用型和業(yè)務(wù)型兩類,業(yè)務(wù)線型故障定級標準不得低于通用型故障定級標準。

通用型故障等級由故障管理部門定義,可包含受影響用戶數(shù)、受影響商家數(shù)、客訴增量、資金損失等通用指標。通用型故障場景在業(yè)務(wù)線型故障場景未覆蓋情況下兜底。

業(yè)務(wù)型故障等級由故障管理部門聯(lián)合業(yè)務(wù)團隊基于用戶視角共同定義,以下為業(yè)務(wù)型故障定級舉例。公司內(nèi)部工具也可按照此模板定義故障級別以納入故障管理。

2、監(jiān)控告警

核心是業(yè)務(wù)監(jiān)控關(guān)聯(lián)故障等級定義做到故障及時發(fā)現(xiàn)。

告警本身要做到智能告警以提升告警準確率,例如智能閾值、智能基線、根因算法等。

3、故障應(yīng)急

問題升級為故障后,由故障管理部門及時通告故障信息,拉起故障處理群/電話會議,協(xié)調(diào)、跟進、監(jiān)督故障處理直至恢復(fù)。

由于故障管理部門需要7X24應(yīng)急響應(yīng),有條件的公司可以參考google的SRE、阿里的GOC組建團隊,成員分布不同時區(qū),實現(xiàn)日出而作,日落而息。

4、故障恢復(fù)

故障發(fā)生后的第一要務(wù)是恢復(fù)業(yè)務(wù),預(yù)案、重啟、降級、隔離、切流、飽和式應(yīng)急等,都是可選的方案。

5、故障復(fù)盤

5.1、故障復(fù)盤時效

為確保問題、風險能夠得到足夠重視,并及時制定改進措施,建議P1P2級別故障1個工作日內(nèi)完成復(fù)盤,P3P4故障3個工作日完成復(fù)盤,其他序列故障可參考P序列時效性。

5.2、故障復(fù)盤準備工作

為提升復(fù)盤會議效率,故障管理人(復(fù)盤會議主持人)應(yīng)該在會議之前整理如下信息:

  • 故障處理過程:必須包含故障注入、故障發(fā)生、故障發(fā)現(xiàn)、故障響應(yīng)、初因定位、恢復(fù)執(zhí)行、故障恢復(fù)、根因定位等核心時間點及操作,其他關(guān)鍵時間點及操作視實際情況補充。
  • 影響業(yè)務(wù):具體到下跌時段、下跌比例,資金損失金額。
  • 用戶/商家影響情況:理論影響量,來電、在線咨詢量
  • 故障根因及對應(yīng)根因分類:設(shè)備故障、代碼問題、流程規(guī)范、應(yīng)急災(zāi)備、容量等。

5.3、故障復(fù)盤重要關(guān)注點

  • 故障預(yù)防:是否變更觸發(fā)
  • 故障發(fā)現(xiàn):發(fā)現(xiàn)時長,發(fā)現(xiàn)來源,監(jiān)控優(yōu)化
  • 應(yīng)急響應(yīng):響應(yīng)時長
  • 故障恢復(fù):恢復(fù)時長,恢復(fù)措施沉淀,改進
  • 改進措施:基于以上信息制定可驗的證改進措施,完成時間點,負責人

6、持續(xù)運營

持續(xù)運營是個廣義的概念,除了故障數(shù)據(jù)各種維度晾曬、經(jīng)驗傳承、文化宣導(dǎo)外,最主要的是通過故障數(shù)據(jù)分析,識別故障各個生命階段的薄弱點、風險點,針對薄弱點、風險點有專項改進。

比如多次未灰度直接發(fā)布引起重大故障,變更制度、變更平臺是否可強管控;故障恢復(fù)主要依賴代碼發(fā)布導(dǎo)致恢復(fù)慢,是否可打造及時恢復(fù)文化,針對常見故障場景是否能沉淀快恢預(yù)案等。

四、對故障管理工作者的建議

故障管理路長且艱,以下給故障管理同學的建議,希望共勉。

1. 積極主動、認真負責

  • 風險、問題跟進不到位,演變成故障的數(shù)量會增多
  • 故障跟進不到位,影響面會擴大
  • 故障根因不明確,改進措施可能無效
  • 改進措施無效,故障還會重復(fù)發(fā)生

2. 敢于質(zhì)疑

  • 監(jiān)控發(fā)現(xiàn)是否及時
  • 故障處理過程是否可優(yōu)化,有沒有人為失誤
  • 業(yè)務(wù)影響面統(tǒng)計是否真實
  • 故障原因是否是本次故障的根因
  • 改進措施制定是否合理

3. 自我提升

故障管理者不是統(tǒng)計、記錄文員,要以架構(gòu)師嚴格要求自己,能夠指出故障各個階段存在的問題,并能夠獨立承擔對應(yīng)優(yōu)化專項。

 

責任編輯:張燕妮 來源: 高效運維
相關(guān)推薦

2019-04-01 10:43:59

Linux問題故障

2019-12-31 09:56:16

Linux 系統(tǒng) 數(shù)據(jù)

2020-02-18 16:20:03

Redis ANSI C語言日志型

2022-06-20 09:01:23

Git插件項目

2023-02-10 09:04:27

2022-08-01 11:33:09

用戶分析標簽策略

2021-04-08 07:37:39

隊列數(shù)據(jù)結(jié)構(gòu)算法

2023-09-11 08:13:03

分布式跟蹤工具

2020-07-29 11:00:43

運維架構(gòu)技術(shù)

2020-07-03 08:21:57

Java集合框架

2024-09-23 08:00:00

消息隊列MQ分布式系統(tǒng)

2019-05-14 09:31:16

架構(gòu)整潔軟件編程范式

2023-10-17 08:15:28

API前后端分離

2018-05-22 08:24:50

PythonPyMongoMongoDB

2017-03-11 22:19:09

深度學習

2022-04-07 10:39:21

反射Java安全

2023-11-18 09:30:42

模型AI

2022-05-19 08:28:19

索引數(shù)據(jù)庫

2020-10-18 07:32:06

SD-WAN網(wǎng)絡(luò)傳統(tǒng)廣域網(wǎng)

2022-07-06 12:07:06

Python函數(shù)式編程
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: www.日本在线观看 | 特a毛片 | av 一区二区三区 | 亚洲成人午夜电影 | 99久久国产免费 | 国产精品久久久久久二区 | 九九热国产视频 | 日本成人福利视频 | 免费观看黄 | 色综合国产| 国产一区中文字幕 | 午夜免费看视频 | 成人小视频在线观看 | 成人在线一区二区三区 | 成人深夜福利网站 | 欧美激情亚洲天堂 | 一级大片免费 | 亚洲视频在线观看 | 亚洲国产精品va在线看黑人 | 99亚洲| 欧美不卡一区二区 | 成人h动漫亚洲一区二区 | 在线免费观看黄网 | av综合站 | 人人看人人草 | 国产精品我不卡 | 国产精品一区二区av | 日韩精品在线播放 | 国产精品久久久久久久午夜片 | 亚洲国产成人精品久久 | 国产精品久久久久久影视 | 国产午夜精品一区二区三区四区 | 成人h免费观看视频 | 亚洲免费精品 | 国产一级特黄aaa大片评分 | 日韩精品一区二区三区视频播放 | 久久精品成人 | 久久三区 | 国产午夜精品久久久 | 国产精品网址 | 国产成人精品亚洲日本在线观看 |