如何有效地管理不可避免的IT中斷
過(guò)去的幾個(gè)月中,發(fā)生了一些重大的IT故障事件:富國(guó)銀行的業(yè)務(wù)停止運(yùn)營(yíng)長(zhǎng)達(dá)一天導(dǎo)致客戶無(wú)法訪問(wèn)他們的賬戶;芝加哥鐵路公司故障導(dǎo)致60000名乘客滯留;以及由于Gmail和Google Docs發(fā)生故障而導(dǎo)致全球各地用戶無(wú)法訪問(wèn)和使用這些產(chǎn)品。此外,今年2月VFEmail.net所有客戶端數(shù)據(jù)(包括備份)完全丟失。
制定計(jì)劃
這些事件和類似的IT問(wèn)題為人們提供了兩個(gè)重要的信息:
- IT中斷可能發(fā)生在任何人身上。
- 下一次IT中斷造成的損害程度取決于現(xiàn)在的準(zhǔn)備情況。
值得注意的是,超過(guò)60%的IT中斷或“災(zāi)難事件”都是由人為錯(cuò)誤引起的。那么,企業(yè)如何才能減少下一次IT中斷對(duì)其收入、聲譽(yù)和客戶造成的損害?
首先,確保企業(yè)有一個(gè)業(yè)務(wù)連續(xù)性計(jì)劃(BCP),其中包括災(zāi)難恢復(fù)計(jì)劃(概述企業(yè)將如何處理IT事務(wù))以及保持業(yè)務(wù)其余部分的計(jì)劃(例如,如果關(guān)鍵渠道是確保關(guān)鍵人員知道發(fā)生了什么、會(huì)面地點(diǎn)、定義指揮鏈等等)。
在這里將概述在IT方面取得成效的四個(gè)關(guān)鍵步驟:
1. 定義潛在的災(zāi)難情景
對(duì)于大多數(shù)企業(yè)而言,主要有兩種IT災(zāi)難場(chǎng)景:
- 系統(tǒng)中斷,網(wǎng)絡(luò)或應(yīng)用程序的某些關(guān)鍵部分出現(xiàn)故障,企業(yè)或其服務(wù)在一段時(shí)間內(nèi)處于“脫機(jī)”狀態(tài)。這通常是一個(gè)相對(duì)簡(jiǎn)單的恢復(fù)點(diǎn),因?yàn)槠髽I(yè)重新上線運(yùn)營(yíng),受停機(jī)影響的事務(wù)最少。
- 數(shù)據(jù)丟失,企業(yè)丟失信息、內(nèi)容或數(shù)據(jù)(企業(yè)自己或其客戶)。并不總是可以從數(shù)據(jù)丟失中恢復(fù),例如在VFEmail.net的黑客事件中,刪除了其所有備份副本。
確保企業(yè)為災(zāi)難做好準(zhǔn)備是需要了解這些常見(jiàn)類型的中斷的風(fēng)險(xiǎn)狀況:例如,系統(tǒng)中斷會(huì)影響哪些功能?這些功能對(duì)企業(yè)的業(yè)務(wù)有多重要?中斷是否會(huì)導(dǎo)致數(shù)據(jù)丟失?還有哪些其他事件會(huì)導(dǎo)致數(shù)據(jù)丟失?等等。
此外還要記住,人為錯(cuò)誤將是造成這兩種災(zāi)難的最常見(jiàn)原因(如在芝加哥鐵路公司的停機(jī)事件中,一名工人在更新服務(wù)器期間摔倒在電路板上)。
2. 評(píng)估對(duì)企業(yè)的業(yè)務(wù)可能造成的損害
這是IT部門和其他領(lǐng)導(dǎo)共同完成的工作。企業(yè)的目標(biāo)是了解如果單個(gè)數(shù)據(jù)塊出現(xiàn)故障或各種類型的數(shù)據(jù)丟失,其業(yè)務(wù)將受到的影響。
在這些對(duì)話中,目的是了解業(yè)務(wù)關(guān)鍵型應(yīng)用程序之間的依賴關(guān)系(例如,企業(yè)知道需要激活支付處理應(yīng)用程序,但它是否取決于庫(kù)存應(yīng)用程序的功能?)闡明停機(jī)對(duì)用戶的影響,并評(píng)估每分鐘停機(jī)對(duì)企業(yè)的業(yè)務(wù)的財(cái)務(wù)影響。
以下是衡量的標(biāo)準(zhǔn):
- RTO(恢復(fù)時(shí)間目標(biāo)),定義企業(yè)的業(yè)務(wù)可以在業(yè)務(wù)中斷之后多長(zhǎng)時(shí)間而不會(huì)造成嚴(yán)重?fù)p害。企業(yè)的災(zāi)難恢復(fù)計(jì)劃應(yīng)概述通過(guò)企業(yè)定義的RTO(恢復(fù)時(shí)間目標(biāo))恢復(fù)業(yè)務(wù)運(yùn)營(yíng)的策略。
- RPO(恢復(fù)點(diǎn)目標(biāo)),定義數(shù)據(jù)備份之間的時(shí)間長(zhǎng)度,而不會(huì)顯著損害企業(yè)和業(yè)務(wù)運(yùn)營(yíng)。企業(yè)的業(yè)務(wù)中斷分析將定義企業(yè)的RPO(恢復(fù)點(diǎn)目標(biāo))。因此,如果企業(yè)的災(zāi)難恢復(fù)計(jì)劃要求從上次已知備份中恢復(fù)數(shù)據(jù),則RPO(恢復(fù)點(diǎn)目標(biāo))會(huì)定義該備份可接受的時(shí)間。
如果企業(yè)想再采取其他步驟,請(qǐng)確保評(píng)估中包含對(duì)停機(jī)時(shí)間可能造成聲譽(yù)損害的評(píng)估。這很難計(jì)算,但它可以成為決策過(guò)程中的一個(gè)有價(jià)值的組成部分。
3. 查看當(dāng)前的災(zāi)難恢復(fù)計(jì)劃
一旦企業(yè)了解了自己可以合理承擔(dān)的停機(jī)時(shí)間,請(qǐng)查看其當(dāng)前的災(zāi)難恢復(fù)計(jì)劃。如果像大多數(shù)企業(yè)一樣擁有一個(gè)災(zāi)難恢復(fù)計(jì)劃,但是沒(méi)有努力去更新或者定期測(cè)試它,那么現(xiàn)在是時(shí)候改變了。
在查看災(zāi)難恢復(fù)計(jì)劃時(shí),請(qǐng)考慮以下事項(xiàng):
- 它是否反映了企業(yè)當(dāng)前業(yè)務(wù)的現(xiàn)實(shí)情況,包括企業(yè)之前的對(duì)話中闡述的業(yè)務(wù)關(guān)鍵型應(yīng)用的計(jì)劃?如果沒(méi)有,就需要更新它。
- 規(guī)模合適嗎?IT團(tuán)隊(duì)非常擅長(zhǎng)提出創(chuàng)造性的災(zāi)難恢復(fù)方法。這部分是因?yàn)檫@些系統(tǒng)是他們創(chuàng)建的,他們非常適應(yīng)所有可能出錯(cuò)的方式。但精心設(shè)計(jì)的災(zāi)難恢復(fù)通常不僅僅是企業(yè)的需求,而且比其能夠承受的成本更高。如果企業(yè)確定可以承受三天的停機(jī)時(shí)間,并且當(dāng)前的災(zāi)難恢復(fù)計(jì)劃讓其在六小時(shí)內(nèi)重新上線運(yùn)營(yíng),則需要進(jìn)行一些更改。
- 企業(yè)測(cè)試過(guò)嗎?制定了許多災(zāi)難恢復(fù)計(jì)劃來(lái)檢查選項(xiàng)或滿足監(jiān)管要求。但如果企業(yè)沒(méi)有測(cè)試自己的計(jì)劃,那么在真正的災(zāi)難中對(duì)企業(yè)毫無(wú)價(jià)值。企業(yè)無(wú)法知道它是否會(huì)實(shí)際阻止意外中斷和數(shù)據(jù)丟失可能導(dǎo)致的收入損失和聲譽(yù)損害。
4. 更新并測(cè)試企業(yè)災(zāi)難恢復(fù)計(jì)劃
大多數(shù)企業(yè)不會(huì)定期更新和測(cè)試他們的災(zāi)難恢復(fù)計(jì)劃,這是一個(gè)很大的問(wèn)題,因?yàn)檫^(guò)時(shí)的災(zāi)難恢復(fù)計(jì)劃在發(fā)生真正災(zāi)難時(shí)或多或少地變得毫無(wú)價(jià)值。
在進(jìn)行更改時(shí),請(qǐng)執(zhí)行以下步驟:
- 指派專人負(fù)責(zé)災(zāi)難恢復(fù)和測(cè)試。這意味著如果出現(xiàn)錯(cuò)誤,就會(huì)有人負(fù)責(zé),這會(huì)大大增加測(cè)試完成的機(jī)會(huì)。
- 確保企業(yè)管理層與制定災(zāi)難恢復(fù)計(jì)劃和進(jìn)行定期壓力測(cè)試的重要性保持一致。這對(duì)于獲得非IT同事所需的參與至關(guān)重要。
- 包括“災(zāi)難”的定義。管理人員知道何時(shí)以及如何啟動(dòng)災(zāi)難恢復(fù)計(jì)劃,停機(jī)一小時(shí)后?一天?也可以確定聯(lián)系人,如果不在,還有哪個(gè)人可以處理。
- 制定防災(zāi)規(guī)則。之前提到的芝加哥鐵路公司災(zāi)難發(fā)生的部分原因是因?yàn)樵摴驹诟叻鍟r(shí)段對(duì)服務(wù)器進(jìn)行了升級(jí)。這是一個(gè)令人難以置信的卻可以避免的錯(cuò)誤:如果那名工人沒(méi)有在半夜摔倒在電路板上,就不會(huì)有那么多客戶受到影響。
- 包括溝通計(jì)劃。在災(zāi)難期間(“發(fā)生的事情”)和災(zāi)難之后(“發(fā)生的事情和正在做的事情以提高未來(lái)的績(jī)效”)與利益相關(guān)者保持透明,對(duì)于減輕災(zāi)難可能造成的聲譽(yù)損害將有很大的幫助。
有效的災(zāi)難恢復(fù)就是細(xì)節(jié)
雖然每個(gè)企業(yè)都應(yīng)該擁有并測(cè)試災(zāi)難恢復(fù)計(jì)劃,但企業(yè)能夠滿足他們的需求或應(yīng)對(duì)災(zāi)難的方式并不都是相同的。對(duì)于任何企業(yè)來(lái)說(shuō),災(zāi)難恢復(fù)應(yīng)該基于兩個(gè)方面:風(fēng)險(xiǎn)狀況和從事件中恢復(fù)的能力。
為了確保企業(yè)的下一次IT中斷對(duì)其客戶、收入、聲譽(yù)造成盡可能小的損害,需要花費(fèi)時(shí)間了解可能出現(xiàn)問(wèn)題的具體情況以及這些問(wèn)題將如何影響其客戶,并制定災(zāi)難恢復(fù)計(jì)劃以盡量減少這種影響。