業(yè)務(wù)連續(xù)性計(jì)劃:威脅管理的主動(dòng)方法
俄烏沖突的持續(xù)升級(jí)讓許多公司擔(dān)心居住在烏克蘭的員工或承包商的安全。此類(lèi)事件也凸顯了根據(jù)威脅形勢(shì)制定應(yīng)急計(jì)劃的重要性。
業(yè)務(wù)連續(xù)性是CIO和CTO規(guī)劃流程的重要組成部分。“黑天鵝事件”(極不可能發(fā)生,實(shí)際卻又發(fā)生的事件)會(huì)對(duì)業(yè)務(wù)產(chǎn)生重大影響。雖然其中一些事件是無(wú)法預(yù)料的——但有些卻是可以提前預(yù)知的,甚至是完全可以做好防備的。業(yè)務(wù)連續(xù)性就是評(píng)估威脅形勢(shì)并制定計(jì)劃,以應(yīng)對(duì)可預(yù)見(jiàn)的威脅并構(gòu)建應(yīng)對(duì)威脅的運(yùn)營(yíng)彈性。
威脅形勢(shì)
領(lǐng)導(dǎo)團(tuán)隊(duì)的最佳實(shí)踐是不斷思考威脅形勢(shì),識(shí)別潛在問(wèn)題并做好準(zhǔn)備,否則的話可能會(huì)對(duì)企業(yè)造成重大的財(cái)務(wù)影響。
可能需要計(jì)劃在內(nèi)的事件包括(但不僅限于):
- 地緣政治威脅(例如,俄烏事件);
- 自然災(zāi)害(例如地震);
- 定向威脅(例如勒索軟件);
- 監(jiān)管變化;
針對(duì)其中的一些威脅需要立即采取措施。其他威脅則需要制定計(jì)劃,以確保團(tuán)隊(duì)知道關(guān)鍵目標(biāo)是什么,以及面對(duì)威脅時(shí)需要采取的行動(dòng)。CIO和CTO需要不斷監(jiān)控威脅形勢(shì)并在必要時(shí)進(jìn)行更新。像SOC-2認(rèn)證這樣的檢查就具備很好的強(qiáng)制功能,允許對(duì)某些威脅進(jìn)行外部檢查。
SOC-2是一份基于美國(guó)注冊(cè)會(huì)計(jì)師協(xié)會(huì)現(xiàn)有信托服務(wù)標(biāo)準(zhǔn)(TSC)審計(jì)標(biāo)準(zhǔn)委員會(huì)的報(bào)告,目的是評(píng)估與安全性、可用性、處理完整性、機(jī)密性和隱私相關(guān)的組織信息系統(tǒng)。
為地緣政治威脅做好應(yīng)對(duì)計(jì)劃
以Inflection公司為例,早在俄烏沖突發(fā)生前一年半,該公司就已經(jīng)為可能與烏克蘭相關(guān)的業(yè)務(wù)中斷做好了準(zhǔn)備。他們制定了一套原則,并根據(jù)這些原則制定了計(jì)劃,關(guān)鍵原則包括:
- 建立一個(gè)地域多元化的團(tuán)隊(duì)。除烏克蘭外,Inflection還在美國(guó)和巴西建立了大量業(yè)務(wù)。
- 建立工作多樣性。Inflection并非在每個(gè)區(qū)域都擁有完整的功能,而是要求團(tuán)隊(duì)跨區(qū)域協(xié)作。這種方式存在缺點(diǎn)(例如,溝通障礙),但長(zhǎng)遠(yuǎn)來(lái)看,這是一個(gè)正確的權(quán)衡。
- 優(yōu)先考慮員工和承包商的安全。在地緣政治事件中,想要確保安全無(wú)疑需要產(chǎn)生額外的財(cái)務(wù)支出,Inflection愿意花更多的錢(qián)來(lái)確保員工和承包商的安全。他們?yōu)闉蹩颂m的團(tuán)隊(duì)成員提供了三個(gè)月的生活費(fèi),以便他們能夠搬到不同的地方。
- 強(qiáng)調(diào)書(shū)面交流而非口頭交流。例如,每個(gè)重要的工程決策都要經(jīng)過(guò)嚴(yán)格的架構(gòu)決策過(guò)程。
這些主動(dòng)措施使Inflection能夠在確保業(yè)務(wù)連續(xù)性的同時(shí),優(yōu)先考慮員工安全。除了上述這些原則外,Inflection還制定了一份詳細(xì)的計(jì)劃來(lái)確保為長(zhǎng)期無(wú)法工作的員工提供保障。
實(shí)踐中的連續(xù)性規(guī)劃:深入了解軟件可用性
主動(dòng)規(guī)劃的一個(gè)例子與自然災(zāi)害有關(guān)。如果災(zāi)難(例如地震)襲擊企業(yè)的數(shù)據(jù)中心所在的區(qū)域并導(dǎo)致網(wǎng)絡(luò)分區(qū),企業(yè)的計(jì)劃是什么?假設(shè)企業(yè)使用的是公有云供應(yīng)商,下面的示例將呈現(xiàn)整個(gè)思考過(guò)程。
規(guī)劃可用性的出發(fā)點(diǎn)是企業(yè)向客戶承諾的正常運(yùn)行時(shí)間。標(biāo)準(zhǔn)的SaaS正常運(yùn)行時(shí)間基準(zhǔn)是99.95%的可用性,這相當(dāng)于每年允許4小時(shí)22分58秒的不可用性。在計(jì)劃這一點(diǎn)時(shí),企業(yè)需要考慮:
- 當(dāng)事件確實(shí)發(fā)生時(shí),企業(yè)的RTO(恢復(fù)時(shí)間目標(biāo))和RPO(恢復(fù)點(diǎn)目標(biāo))是什么?做出權(quán)衡決策需要就這些指標(biāo)達(dá)成一致。
- 有維護(hù)窗口嗎?如果有,請(qǐng)從不可用性預(yù)算中減去它。(還應(yīng)該問(wèn)自己為什么有一個(gè)維護(hù)窗口。)
- 所在平臺(tái)的基本保證是什么?云供應(yīng)商通常不提供任何正常運(yùn)行時(shí)間保證。
- 如果可用區(qū)(數(shù)據(jù)中心)失去可用性,企業(yè)的計(jì)劃應(yīng)該是什么?
- 如果一個(gè)區(qū)域(多個(gè)可用區(qū))出現(xiàn)中斷,企業(yè)的計(jì)劃應(yīng)該是什么?
- 如果供應(yīng)商(多個(gè)地區(qū))不可用,企業(yè)的計(jì)劃是什么?
這些問(wèn)題有不同的“成本-復(fù)雜性”(cost-complexity)權(quán)衡。較小的企業(yè)可能會(huì)選擇規(guī)避更大的復(fù)雜性,而對(duì)于大型企業(yè)來(lái)說(shuō),選擇可能會(huì)有所不同。
計(jì)劃的目標(biāo)是對(duì)這些問(wèn)題中的每一個(gè)都有一個(gè)清晰的認(rèn)知和把控。
企業(yè)是否應(yīng)該通過(guò)多個(gè)可用區(qū)(vailability zones)支持高可用性?對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),這是一個(gè)簡(jiǎn)單的決定:在AWS中支持多個(gè)可用區(qū)并不復(fù)雜,并且可以用相對(duì)較少的費(fèi)用和復(fù)雜性來(lái)完成。
如果出現(xiàn)區(qū)域性中斷-災(zāi)難恢復(fù) (DR) 情況,企業(yè)應(yīng)該怎么做?進(jìn)行跨區(qū)域同步既復(fù)雜又昂貴。很少有企業(yè)會(huì)選擇這樣做。相反地,企業(yè)可以選擇將數(shù)據(jù)備份到另一個(gè)區(qū)域,并讓企業(yè)的RTO(恢復(fù)時(shí)間目標(biāo))和RPO(恢復(fù)點(diǎn)目標(biāo))反映這樣一個(gè)事實(shí),即企業(yè)的權(quán)衡結(jié)果是用更長(zhǎng)的恢復(fù)時(shí)間換取更簡(jiǎn)單的架構(gòu)。
如果云供應(yīng)商完全中斷怎么辦?進(jìn)行跨供應(yīng)商部署非常復(fù)雜且昂貴。在大多數(shù)情況下,將企業(yè)的數(shù)據(jù)備份到不同的云提供商就足夠了。但是,如果企業(yè)經(jīng)營(yíng)的是一家大型企業(yè),出于成本和規(guī)模的原因,企業(yè)可能希望加入多個(gè)云供應(yīng)商。
企業(yè)制定的計(jì)劃需要考慮到所有這些問(wèn)題,并獲得公司高管的同意。當(dāng)事件真實(shí)發(fā)生時(shí),企業(yè)還需要制定溝通計(jì)劃(例如,我們將如何通知客戶?),最重要的是,必須對(duì)計(jì)劃進(jìn)行測(cè)試。除非定期實(shí)踐,否則這些計(jì)劃將毫無(wú)意義。
以Inflection公司為例,他們最終做出的決定包括:
- 通過(guò)部署多個(gè)可用區(qū)來(lái)支持高可用性。客戶無(wú)法察覺(jué)單個(gè)數(shù)據(jù)中心的損失。
- 在多個(gè)區(qū)域之間同步數(shù)據(jù),以支持小于24小時(shí)的恢復(fù)點(diǎn)目標(biāo)(RPO)和小于72小時(shí)的區(qū)域?yàn)?zāi)難恢復(fù)時(shí)間目標(biāo)(RTO)。
- 將數(shù)據(jù)同步到二級(jí)云供應(yīng)商,以確保在云供應(yīng)商完全中斷的情況下,企業(yè)仍然可以恢復(fù)運(yùn)行。
- 最后,每年進(jìn)行一次數(shù)據(jù)庫(kù)恢復(fù)實(shí)踐,每季度測(cè)試一次災(zāi)難恢復(fù)實(shí)踐。
規(guī)劃定向威脅
在過(guò)去幾年中,勒索軟件等威脅顯著增加。這些威脅需要正面應(yīng)對(duì)。在Inflection公司,他們的計(jì)劃包括:
- 獲得 SOC-2 認(rèn)證并確保公司的流程與業(yè)內(nèi)最佳流程相媲美;
- 確保靜態(tài)數(shù)據(jù)和傳輸數(shù)據(jù)始終加密;
- 參與漏洞賞金計(jì)劃;
- 讓外部機(jī)構(gòu)進(jìn)行滲透測(cè)試;
- 確保員工設(shè)備已加密并具有適當(dāng)?shù)能浖Wo(hù),可抵御惡意軟件、網(wǎng)絡(luò)釣魚(yú)和其他攻擊;
- 為自己投保;
事前分析
領(lǐng)導(dǎo)者需要考慮的一個(gè)有用的練習(xí)是“事前分析”。在考慮業(yè)務(wù)連續(xù)性問(wèn)題時(shí),最好是主動(dòng)而不是被動(dòng)的。
事前分析與事后分析相反。雖然事后分析可以讓我們?cè)谑虑橐呀?jīng)發(fā)生之后分析“出了什么問(wèn)題”,事前分析的重點(diǎn)在于了解“可能出了什么問(wèn)題?我們?cè)鯓硬拍芊乐惯@種情況發(fā)生?”事前分析允許對(duì)業(yè)務(wù)連續(xù)性進(jìn)行更深入的規(guī)劃,以便在意外發(fā)生時(shí)毫不費(fèi)力地利用已規(guī)劃好的內(nèi)容,從容地應(yīng)對(duì)現(xiàn)實(shí)事件。
結(jié)語(yǔ)
規(guī)劃業(yè)務(wù)連續(xù)性是領(lǐng)導(dǎo)者必備的一項(xiàng)職能要求。被動(dòng)接受災(zāi)難發(fā)生的企業(yè),將無(wú)法迅速做出響應(yīng)。企業(yè)的執(zhí)行團(tuán)隊(duì)必須就原則和成本/復(fù)雜性權(quán)衡達(dá)成一致。