公司新來了個90后，把舊的DRP“吊打”和“按到地上摩擦”

原創

作者：陳峻 2018-01-08 09:31:14

運維系統運維

常言道：流水不腐、戶樞不蠹。您企業的災難恢復計劃是否 N 久沒被更新了？我們來看看一位 90 后是如何對 DRP 進行整改的案例。

【51CTO.com原創稿件】常言道：流水不腐、戶樞不蠹。您企業的災難恢復計劃是否 N 久沒被更新了？我們來看看一位 90 后是如何對 DRP 進行整改的案例。

[[216314]]

話說我們公司應急響應中心新來了一位小嵇同學。作為典型的90后，他受過良好教育、個性張揚、特立獨行。

那天，他對我們說：他覺得咱們現在的 DRP（災難恢復計劃）就像他過去彈鋼琴一樣，存在著如下三大問題：

我們當初聽過了后，也沒在意。可沒想到幾日后，他在某次 IT 管理層會議上，一邊問著：“驚喜不驚喜？意外不意外？”，一邊向我們展示了他改進后的 DRP。

大家雖然不喜歡這種粗暴的“手撕”方式，但耐著性子認真閱讀之后，也不得不承認他的更改的確解鎖了一些新技能，并填補了一些老坑點。

總的來說，這份新的 DRP 基本上“沒毛病”。下面就讓我們來具體看看他在原來的基礎上做了哪些改進。

事前篇

清晰定義“災難”

“傻傻”分不清楚，但是你要分清楚

原來的 DRP 上手就談如何應對災難，可是公司上上下下在多數情況下，經常會混淆問題（Problem）、緊急情況（Emergency）與災難（Disaster）之間的細微差別，并造成了一旦出事就“匆忙上陣”，出現人浮于事的狀況。

因此，他開宗明義地做了如下定義：

問題：是指單個或少量的計劃外的業務和/或服務中斷或質量水平驟降，造成損失較輕，直接責任部門容易迅速實施補救。

不涉及到 DRP 和 DR 相關團隊，一般小于 24 小時。

緊急情況：是指多個不可預見性的業務和/或服務中斷情況的組合，造成了一定的損失或破壞，多個部門需要盡快解決。

DR 相關團隊需時刻根據實際情況觸發 DRP，一般大于 24 小時但小于 48 小時。

災難：是指成規模的對資產和/或服務造成了損害、損失或破壞的重大事件。需要公司管理層的參與。

DR 相關團隊立即啟用 DRP 并分步驟實施 DR，一般大于 48 小時。

厘清上述關系，可見對于掌握 DRP 的觸發條件是至關重要的，而后續的恢復活動才能夠有的放矢地進行開展。

BIA + RA

“預則立，不預則廢”

業務系統在日常運營過程中，可能發生的各種災難，對我們來說就是“天災人禍”類的重大事件。

過去的 DRP 對于當前的生產系統來說不但已經陳舊，而且有著較大的出入。

因此要想達到有條不紊的恢復效果，就需要通過 BIA（業務影響分析）和 RA（風險分析）來識別出那些與本公司日常運營密切相關的職能模塊和關鍵應用。

小嵇通過參考各種 SLA（服務水平協議）、事故記錄、以及內/外審報告，對各類主/次要系統定義了 MTD（最大允許中斷時間），區分了輕重緩急，并排定了恢復的先后次序。

在 BIA 中，他依次以“業務職能”和“關鍵應用”兩大部分為出發點，分別根據關鍵（1-4 小時）、緊急（24 小時）、重要（72 小時）、一般（7 天）、非必要（30 天）五種 MTD，擬出了 2×5 =10 張表格。

下面就是兩類表頭的示例，大家可以批判地審視一下：

上述的 BIA 主要從“知己”的角度出發，為了實現“百戰不殆”的小目標，它還努力定義了“知彼”，即 RA。

下面就是他依次引入的三個維度的參考指標：

內/外部威脅源或威脅代理：自然層面上的各種災害；技術層面的，如軟/硬件損壞所造成的大量數據丟失和分布式拒絕服務攻擊等。

支撐系統方面的，如供電、空調和接入網絡等；以及人為方面，如故意使用惡意軟件進行破壞和操作疏忽與失誤等。

風險可能性：基于過往事件/事故的記錄、放置和使用區域特征、相關合規要求、自身魯棒性，得出高中低的性質。
影響范圍：整個組織/所有外部客戶、多個站點/多個系統與服務、或是單個站點/單個系統。

最后將這些都對應到各個業務模塊上形成風險分析的矩陣。由此可見，他通過對現有系統的全方位、立體“掃描”和剖析，掃清了識別層面上的“死角”，為必要時的全面復盤做好了基礎性的準備工作。

團隊與責任

拒絕懵逼、也拒絕“布朗運動”

舊的 DRP 僅簡單定義了一個應急響應小組來全面履行災難恢復，可是有過實戰經驗的小伙伴一定知道，這種“低配”是完全不夠的。

在此，小嵇同學細化并深耕了 DR 團隊，并為他們“賦能”。下面讓我們來看看這些“破壁”的人們需要哪些必備的技能，才能幫助我們把災難懟回去：

恢復管理團隊：

設置緊急熱線電話、保持“呼叫樹（Call Tree）”的準確性。
審查通知模板、災難評估報告、測試結果。
確保相關人員的技能和意識培訓、以及演練的落實。
定期審閱 DRP 并落實更新。
批準和控制恢復全程的成本。
檢查確認系統的恢復。

損失評估團隊：

評估災難影響程度、量化損失以獲賠償。
起草并提交損失報告。

設施資源團隊：

編錄并更新生產環境中的軟/硬件列表和備件庫存情況。
保證能在必要時獲取外部服務與支援。
維護離站資源和備用站點，提供各類相關的參考文檔和操作手冊。
必要時安排離站資源向受損主站的調配，以及人員轉往備用站點的各種后勤。

技術恢復團隊：

向評估團隊提供必要的技術和數據信息。
提出過渡性的臨時運營方案。
按照既定的順序執行具體災難恢復的各項技術操作。
防止次生災難的發生。
災難期間，對備用站點提供各項技術支持。
事后總結，提出加固方案，并更新 DRP。

公關法務團隊：

在各個階段，保持與各個方面的溝通，并使用既定的模板進行相關發布。
給予法律、合規方面的指導。
如有必要，則實施電子或物理取證。

由上可見，在“大難臨頭”之時，如果沒有明確規定好計劃中相對應的團隊角色和其負有的職責的話，別說什么組隊打“怪”了，只要出現一位“豬一樣的隊友”，大家就真的只能去“領盒飯”了。

事中篇

設定應對流程

“審判日”的絕地反擊

曾經的 DRP 在這個環節寫得“頭重腳輕”，開始響應階段細致入微，甚至有些吹毛求疵，而實際操作中并無過多的時間去層層報告和批示。

另外，在原 DRP 中，其恢復過程過于“速度與激情”化，導致業務回歸上線后就草草收場，缺乏必要的確認與總結，而小嵇改版后的 DRP 則能明顯體現“步步為營”的流程感。

讓我們一起往下看：

事故出現，初步檢測與識別，并定性災難。
通知管理層，吹響 DR 團隊的“集結號”。
DR 團隊迅速拍馬趕到，各司其職，展開深入調查與取證。
損失評估，分析災難源、填寫如下災難評估模板。（注意：評估報告需在災難發生的 4 小時之內完成并提交。）

對內/對外宣告災難。注意對內可以使用不同顏色的通知模板，以便受眾一目了然。對外提供可能問及的技術細節解答和支持。
在受災處，根據主次關系和既定順序，先抑制再恢復，逐步實施各種基礎設施、通信線路、硬件、軟件的安裝和配置、以及數據的恢復。

在 DR 的各項活動中，除了要注意各個 RTO 與“里程碑”外，也要注意填寫并提交如下的日志檢查表。

實時評估并驗證恢復的有效性。如有必要，迅速修改恢復流程與方法，避免滋生次生破壞。
各個受影響的部門對災難的恢復結果予以確認，并對內/外宣布完成。
總結評審執行效果，分析與原計劃的偏離，并提出改進措施。

事后篇

更新與測試

自建生態，形成閉環

我們或許都有這樣的共識：IT 服務和系統是隨著企業的業務動態生長，并不斷迭代的，可見舊版本的 DRP 之所以能被小嵇“吊打”和“按到地上摩擦”，就是因為它針對的是彼時多年前的系統狀態。

因此，為了防止老化和淘汰，小嵇版本的 DRP 特地在最后部分增加了按需更新和例行測試。

具體來說，他羅列到的更新觸發條件包括如下因素的增加、變更與淘汰：

服務器/用戶端硬件設備與模塊
網絡設備、連接與架構環境
機房、數據中心與外部鏈路
關鍵軟件程序、應用平臺和服務系統
辦公自動化（OA）與協同（Collaboration）相關軟/硬件產品
關鍵配置與數據格式
服務策略（SLA）與員工規則

為了避免出現“扎心了，老鐵，這方案沒法實施”的情況發生，小嵇也定義了相應的例行維護與測試頻率：

俗話說：貓有九條命，但是我們的業務服務系統可沒有那么多的命哦。

因此，唯有保持 DRP 可操作性和可實現性，才能讓這個所謂的剛性需求不斷地“滿血復活”。

小結

前些時“第一批 90 后已經…”的各種段子刷爆了微信朋友圈。

但是不可否認的是 90 后一代正在成為企業內的中堅技術力量，并正在逐步向管理崗位邁進。

雖然我們公司里的 90 后在技術水平上經常被黑，但是講真：這次以小嵇為代表的 90 后對于 DRP 的大刀闊斧式的改進，讓我們這些自稱佛系，卻時常油膩的 70 后老年人不得不刮目相看了。

[[216317]]

作者：陳峻

陳峻（Julian Chen），有著十多年的 IT 項目、企業運維和風險管控的從業經驗，日常工作深入系統安全各個環節。作為 CISSP 證書持有者，他在各專業雜志上發表了《IT運維的“六脈神劍”》、《律師事務所IT服務管理》和《股票交易網絡系統中的安全設計》等論文。他還持續分享并更新《廉環話》系列博文和各種外文技術翻譯，曾被(ISC)2 評為第九屆亞太區信息安全領袖成就表彰計劃的“信息安全踐行者”和 Future-S 中國 IT 治理和管理的 2015 年度踐行人物。

【51CTO原創稿件，合作站點轉載請注明原文作者和出處為51CTO.com】

責任編輯：武曉燕來源： 51CTO技術棧

災難恢復 DRP

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

公司新來了個90后，把舊的DRP“吊打”和“按到地上摩擦”