“雙活”容災想做好,災備演練少不了
大家都很重視數據、重視自己的業務系統,也投入了很多做災備系統的建設,在建設中對產品的選項也很重視,但是在完成建設后卻錯以為大功告成了。忽略了災備演練這個重要環節。
現在很多災備公司都不太重視災備的演練,很多一年也沒有做到一次,不能完全發現災備中心的缺陷。
容災系統的業務連續性是企業的關鍵業務在災難發生時的應對能力和恢復能力,即通過盡可能快速的、全面的企業業務恢復運作,將因災難造成的損失降低到最小程度。由于在遠程網絡傳輸的實時性能力以及對現有生產系統不產生負面壓力的要求等多種綜合因素的制約,目前各類技術實現手段均是以一定的RPO和RTO作為災難備份的指標實現,而零丟失或零間斷基本上都不具有技術基礎。由于實現零間斷采用全同步方式造成的高額的支出和系統運行損害使得零間斷或零丟失都不具有可行性。
災備演練是驗證災難發生時,業務系統能否有效聯動切換的極為重要的手段。沒有災備的演練計劃和手段,往往無法預知災難發生時生產中心和災備中心的數據一致性,也無法預知災備中心是否具有了業務接管的一切必要條件。以往,由于一些企業采用的容災技術實現不具有災備演練的技術手段,出現了一些企業在故障發生時,仍然無法啟動后援系統進行業務的接管的現象,這些企業不得不仍然采用傳統的備份恢復方式進行耗時的數據恢復,不僅出現了大量的數據丟失而且,動輒數十小時的業務停頓,也使得災備系統的設計者狼狽不堪,教訓十分深刻。因此,選擇有效的災備技術手段的同時,決不能忽略災備演練的技術手段的提供,在具有多種技術手段的基礎上,制定災備系統的演練和測試計劃。災備的演練計劃有以下幾種方式:
***:計劃性測試/演練
災難恢復計劃要求建立業務連續性管理團隊,不僅涉及IT部門,而且關聯眾多業務部門,為減少演練對于生產的影響,可以將恢復計劃細化到很小的單位或者模塊,逐個應用進行接管驗證。
當模塊都成功通過測試后,測試的范圍可以擴充到更多的模塊。
第二:突發演練
在災備系統全面完成并且制定了全面的恢復計劃后,可以在進行了一定備份的情況下安排突發性的測試。當然,業務連續性管理小組需要確保業務不會因為突發性測試造成不可接受的損失和業務中斷。
演練對于提高團隊的恢復經驗和協作能力以及確保災難恢復計劃的可行性是至關重要的。所有的演練結果都要進行評估、記錄、并且生成到容災流程里。
另外:有哪些要預先考慮的因素?
答:容災體系需要現有的基礎設施狀況,如現有異地傳輸網絡的狀況、現有主機系統和存儲系統狀況、現有生產環境的變動能力等等,體現在考慮因素上就是以下幾點:
1.是否是低帶寬特征,如果是則需要考慮具有帶寬優化的技術實現
2.是否是異構系統?如果是則需要考慮異構的災備體系
3.成本。權衡和比較不同災備實現的成本,這里會產生很大的差異。
4.災備系統是否對于生產系統產生很大的變動?有時候,這往往是致命的。
5.災難的防御范圍。除了人們已知的各類自然災害、設備故障外,是否需要防范人為的數據篡改或丟失?如果是,所采用的技術就需要更為全面、功能覆蓋面更為廣泛。
6.工程實施過程。實施是否簡單、維護過程是否簡單往往決定了系統今后的維護和運營成本和對生產系統的影響。