成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

分級處理IT故障 運維管理從容不迫

網(wǎng)絡(luò)
在北塔BTIM綜合運維系統(tǒng)中,可以把IT運維“那些事”(包括人員、資源、突發(fā)故障)分成不同級別和不同運維操作,以便有效的配置運維人力資源。正是因為監(jiān)控系統(tǒng)與SLA協(xié)議的匹配,通過管理上對于不同故障等級采取不同的監(jiān)管策略,才能實現(xiàn)了人力、財力成本投入不增加的情況下,起到高效管理的收益。

任何計算機(jī)系統(tǒng)都有出現(xiàn)故障的時候,可能發(fā)生在測試階段,也可能發(fā)生在系統(tǒng)剛剛上線,還可能發(fā)生在已經(jīng)穩(wěn)定運行很多年的系統(tǒng)上,又可能發(fā)生在系統(tǒng)一個小小的升級之后。而這些系統(tǒng)出現(xiàn)故障所帶來的負(fù)面影響則可大可小,小到一個終端的軟件無法使用,大到整個系統(tǒng)癱瘓,所有業(yè)務(wù)不能辦理。由此便有了IT故障處理分級的運作形式,將問題或故障做到先后有序,將IT運維故障劃分為普通、急、緊急……依靠這套省力的約定建立故障處理流程,是解放IT支持部門最有效的法則。

當(dāng)計算機(jī)故障升級到“核災(zāi)難”

佩特羅夫是原蘇聯(lián)一位年輕軍人、計算機(jī)工程師。1983年9月26日晚上,他正在莫斯科附近的某個導(dǎo)彈中心值班,他回憶說:“忽然,我面前的計算機(jī)屏幕變成了刺眼的紅色,刺耳的警報聲也隨之響起,聲音大得簡直能把死人都從墳?zāi)估飮樞选_@是計算機(jī)預(yù)警系統(tǒng)發(fā)出美國向蘇聯(lián)實施核進(jìn)攻的警報,美國人向我們發(fā)射核武器了!”一般人認(rèn)為,計算機(jī)按事先編制的程序工作,它提供的信息應(yīng)是絕對可靠的,計算機(jī)不會玩花招,但這次出現(xiàn)的情況卻不是這樣。警報還在不斷地響,佩特羅夫沒有被嚇呆,而是在積極思考。根據(jù)他掌握的情況來判斷,他認(rèn)為,美國沒有理由在當(dāng)時對蘇聯(lián)發(fā)動核攻擊,唯一的可能是計算機(jī)出錯。導(dǎo)彈中心接到佩特羅夫的報告后,急如星火地派人對計算機(jī)進(jìn)行緊急檢修。結(jié)果證明,錯誤警報的發(fā)出完全是由計算機(jī)的故障造成的,計算機(jī)在這起故障中,充當(dāng)了挑起核戰(zhàn)爭的罪魁禍?zhǔn)住?/p>

上面這個真實存在的計算機(jī)故障被列為IT界十大故障之首。雖然這起故障最終沒有引發(fā)全世界的“災(zāi)難”,但是不是今后的數(shù)十年之后,就會完全避免此類事件發(fā)生呢?這引起了我們深深地思考。

作為IT運維產(chǎn)品和服務(wù)提供商的北塔軟件認(rèn)為:“無論從技術(shù)角度出發(fā),還是就業(yè)務(wù)角度而言,我們都需要對經(jīng)常發(fā)生的IT故障進(jìn)行各種考慮和權(quán)衡。在看起來似乎無法立即解決所有故障的情況下進(jìn)行正確的權(quán)衡,則是IT運維人員成功的關(guān)鍵。這意味著要首先確定有哪些系統(tǒng)出現(xiàn)問題,會波及到核心業(yè)務(wù)的停滯范圍,以及理解并確定如何在出現(xiàn)故障的時候按照緊急度權(quán)衡,從而避免影響面最大的災(zāi)難事件發(fā)生。”

北塔軟件的技術(shù)專家以一家正在實施BTIM IT綜合管理系統(tǒng)的銀行IT系統(tǒng)為例,為我們說明了故障和災(zāi)難的區(qū)別。例如,對于一般的電腦系統(tǒng)故障,信科部或業(yè)務(wù)部門通過通常的措施(如激線、重組、重起、切換、脫機(jī)交易、沖證等)在短時間內(nèi)能夠恢復(fù)對外的服務(wù),對銀行業(yè)務(wù)和客戶利益沒有造成重大影響,此類事件稱之為故障。如果信息中心發(fā)生嚴(yán)重故障,導(dǎo)致管轄內(nèi)大部分或全部的業(yè)務(wù)無法進(jìn)行,且在一天內(nèi)仍無法恢復(fù)正常對外服務(wù),此類故障則要稱之為“災(zāi)難”了。

故障優(yōu)先級的兩大核心要素

確定優(yōu)先級需要綜合考慮突發(fā)事件對業(yè)務(wù)的影響情況、恢復(fù)服務(wù)對業(yè)務(wù)的緊迫性、突發(fā)事件的大小、范圍和復(fù)雜程度以及當(dāng)前可供突發(fā)事件處理的資源等等。在定義優(yōu)先級之前,我們必須清楚它與兩個最重要的因素有關(guān),即:影響度、緊急度。其中,影響度是衡量故障影響業(yè)務(wù)大小程度的指標(biāo),通常相當(dāng)于故障影響服務(wù)質(zhì)量的程度,它一般是根據(jù)受影響的人或系統(tǒng)的數(shù)量來確定的。而緊急度是評價故障和問題危機(jī)程度的指標(biāo),是根據(jù)客戶的業(yè)務(wù)需求和故障或問題的影響而制定的。因此,如何設(shè)定優(yōu)先級,這需要根據(jù)影響程度和緊急程度的評估和數(shù)據(jù)收集工作,之后才是制定故障的處理順序。

一般來說,當(dāng)IT出現(xiàn)故障時,首先要記錄與故障有關(guān)的客戶和用戶的信息,如姓名、工作地點和聯(lián)系電話等等,先對故障進(jìn)行“初步歸類”,然后再進(jìn)行初步處理。 在對故障進(jìn)行歸類后,如果沒有成功地將故障與問題或先前知名錯誤(知識庫)進(jìn)行匹配,下一步就是確定故障的優(yōu)先級了,以確保對應(yīng)的負(fù)責(zé)人給予故障必要的注意。當(dāng)IT運維部門必須同時處理數(shù)個故障的時候,由于受到了時間、資源和人力等限制而無法立即解決全部問題時,此時就要排定處理的先后次序,即確定每個故障的優(yōu)先級。但當(dāng)出現(xiàn)故障后,沒有用戶會說他的問題可以放到以后解決。相反,他們總是認(rèn)為自己的問題才是最需要優(yōu)先解決的。因此,企業(yè)最好的IT運維方式,是通過服務(wù)臺機(jī)制、或是歷史的積累,以及業(yè)務(wù)部門負(fù)責(zé)人的認(rèn)定之后,才能根據(jù)統(tǒng)計一些量化的指標(biāo)來決定優(yōu)先級。

當(dāng)然,不同的企業(yè)所定義的故障優(yōu)先級是不同的。例如:制造企業(yè)的ERP系統(tǒng)的故障的緊迫性和影響度就非常之高,有些故障或問題會直接影響業(yè)務(wù)運作,或影響公司的對外服務(wù)水平,或有法律上的風(fēng)險。因為這會影響對客戶承諾的送貨時間,價格數(shù)據(jù)有誤等等,這些故障或問題需要IT支持部門馬上做出支持,以便最大限度地降低對業(yè)務(wù)運作的影響。

定義告警事件優(yōu)先級 有效地處理故障

企業(yè)的 IT 管理部門就是為企業(yè)提供 IT 后勤服務(wù),而IT運維軟件又是為企業(yè)的 IT 管理部門提供后勤服務(wù)的,而這恰恰是很多未能推進(jìn) IT 運維監(jiān)控工作的企業(yè)最容易忽視的地方。這些企業(yè)依賴一些經(jīng)驗豐富的“排錯專家”,他們的技能是能夠?qū)υ趶?fù)雜環(huán)境中可能出現(xiàn)的性能和吞吐問題進(jìn)行事先估計,并進(jìn)行恰當(dāng)?shù)臎Q策來避免這些問題。

但并不是每個人都是“佩特羅夫”,在我們看來,成功的IT運維部門所具有的最有價值的技能是將IT系統(tǒng)各個部分連接起來的能力。但是,由于傳統(tǒng)的,手工作坊一樣的管理效率不但低下,并且管理人員由于無法掌握全網(wǎng)的網(wǎng)絡(luò)設(shè)備運行情況,當(dāng)網(wǎng)絡(luò)發(fā)生故障時也無法定位根源(即使我們從“影響度+緊急度==優(yōu)先級”的公式計算中得到了結(jié)果)。同時,我們還應(yīng)該清楚,不同的優(yōu)先級,所處理得流程也是不一樣的。但是由于一些工程師的維護(hù)職責(zé)不是很清楚,每個人都大概知道自己該做什么,但是某個具體事情到底該誰負(fù)責(zé),卻沒有明細(xì)流程。林林總總,這些都可能導(dǎo)致看似非致命的故障,最終則是全網(wǎng)范圍的網(wǎng)絡(luò)中斷,或者服務(wù)平臺災(zāi)難性的事件發(fā)生。

而一套優(yōu)秀的IT運維系統(tǒng)恰好可為優(yōu)先級的管理奠定了預(yù)警和管理的技術(shù)。為了能夠?qū)T告警事件區(qū)分出優(yōu)先級,我們唯一的辦法是將分散或看起來不相關(guān)的組件(問題)聯(lián)系起來,以形成一個完整的系統(tǒng)。因為,只有從完整的監(jiān)控系統(tǒng)中才能派生出“有意義的(可執(zhí)行的)”的故障恢復(fù)流程。以北塔軟件BTIM為例,在操作界面中的對于圖標(biāo)使用 “紅、棕、黃、綠、藍(lán)”不同的顏色,這代表5個告警等級,此告警等級可以代表不同的運維等級,它們是:緊急、高級、中級、低級、提示級。根據(jù)優(yōu)先級的不同,對應(yīng)的處理人員不同,處理流程也不同,響應(yīng)的時間也是不同的。例如:SLA優(yōu)先級較高的系統(tǒng)出現(xiàn)問題,IT運維部門需要在1小時之內(nèi)解決問題,或者啟用備用系統(tǒng)。而相對級別較低的服務(wù)便可根據(jù)SLA協(xié)議約定的范圍內(nèi),如4小時、8小時內(nèi)完成修復(fù)。

在北塔BTIM綜合運維系統(tǒng)中,可以把IT運維“那些事”(包括人員、資源、突發(fā)故障)分成不同級別和不同運維操作,以便有效的配置運維人力資源。正是因為監(jiān)控系統(tǒng)與SLA協(xié)議的匹配,通過管理上對于不同故障等級采取不同的監(jiān)管策略,才能實現(xiàn)了人力、財力成本投入不增加的情況下,起到高效管理的收益。

流程優(yōu)化與人力優(yōu)化是同時進(jìn)行的,實現(xiàn)IT故障分級處理也是一次對IT運維人力資源配置的優(yōu)化過程。例如,明確故障分級處理流程,便同時界定了運維人員對于故障的響應(yīng)時間、職責(zé)、權(quán)限、義務(wù)和績效考核標(biāo)準(zhǔn)等等。事實上許多企業(yè)的實踐和北塔軟件的成功實施案例也證明,這樣可以減少IT運維操作的隨意性和混亂性,并能大大提高運維中的人力資源效率。使服務(wù)的每個環(huán)節(jié)均標(biāo)準(zhǔn)、可控,從而使服務(wù)質(zhì)量能夠得到保證,避免了服務(wù)質(zhì)量過分依賴技術(shù)工程師的個人能力和責(zé)任心,而使服務(wù)質(zhì)量不可控和隨機(jī)性。

 

責(zé)任編輯:守望幸福 來源: 51CTO.com
相關(guān)推薦

2016-03-04 15:38:49

運維故障規(guī)范

2013-07-24 17:51:44

運維管理北塔軟件

2014-02-25 11:27:49

運維經(jīng)驗緊急故障

2021-07-21 16:22:40

運維架構(gòu)技術(shù)

2014-04-02 10:56:21

2018-07-04 09:16:06

運維業(yè)務(wù)接口

2012-06-25 16:40:54

2021-10-28 17:05:11

IT運維故障

2020-09-25 11:10:51

運維故障排查監(jiān)控

2010-11-24 10:38:59

8020人才網(wǎng)

2013-03-21 17:17:34

2015-06-23 14:24:03

2010-04-20 15:47:31

面試

2018-05-08 09:49:15

數(shù)據(jù)庫運維優(yōu)化

2018-05-02 14:30:33

數(shù)據(jù)庫運維優(yōu)化故障

2021-07-23 17:24:48

技術(shù)資訊

2019-03-19 08:41:38

Linux運維變更

2014-08-04 10:10:35

IT運維自動化運維

2018-06-29 10:36:29

阿里云互聯(lián)網(wǎng)故障
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91精品国产91久久久久久吃药 | 亚洲一区视频在线播放 | 日韩一区二区三区在线视频 | 欧美久久久久 | 日韩免费看视频 | 在线国产小视频 | 国产高清视频一区二区 | 亚洲国产精品99久久久久久久久 | 日韩精品视频在线 | 一区二区高清 | av免费入口| 免费观看羞羞视频网站 | 国产欧美一区二区三区久久人妖 | 欧美无乱码久久久免费午夜一区 | 久久国产精品-久久精品 | 国产精品成人国产乱 | 91 视频网站| 亚洲精品欧美 | 亚洲 欧美 日韩在线 | 亚洲一区中文 | 国产精品国产精品国产专区不蜜 | 欧美福利 | 福利视频日韩 | 国产一级在线 | av免费网站在线观看 | 日韩电影一区 | 亚洲男人天堂av | 亚洲一区二区三 | 国产精品三级久久久久久电影 | 国产精品久久av | 久久亚洲国产精品 | 99久久精品免费看国产四区 | 91精品一区 | 精品日韩一区二区 | 亚洲一区二区视频 | 在线观看免费国产 | 一区二区三区国产 | 久久久久久国产精品 | 日本免费一区二区三区 | 久久精品成人热国产成 | 欧美不卡一区二区三区 |