保險公司災備系統建設淺析
為提高IT系統的可靠性,IT系統的容災建設已相當普遍。隨著許多企業實施業務系統大集中,針對IT系統的高可靠性和容災能力的需求日漸突出。
對于保險公司來說,其數據的安全性以及業務的連續運營的要求更高。雖然各保險公司十分重視災備系統的建設,陸續完成了基本容災系統的IT基礎架構建設,但如果沒有相應的災難恢復計劃,也沒有針對災難發生后的應對、決策、詳細的災難恢復步驟,容災系統將難以發揮真正功效。保險業越發展,數據“保險”越重要。相信在保監會的政策支持和引導下,越來越多的保險公司終將為核心業務數據找到安全的容身之所,為保險業安全持續運行提供重要保證。
災備是災難備份的簡稱。它就是說利用技術手段、管理手段,或者任何可以獲取的管理資源,來確保一些關鍵的數據和處理關鍵數據的手段,以及關鍵的業務,在災難發生以后可以盡可能多、盡可能快地恢復的這么一個過程。災備的目的就是要確保關鍵的業務能夠持續不斷地運行,盡量的減少非計劃的宕機時間。
保險公司災備系統重要性
隨著保險公司業務的飛速發展,海量的業務數據對IT系統的依賴性也隨之增加,而數據處理的高可靠性和系統可用性就尤為關鍵。一旦IT系統運轉異常甚至崩潰,將直接導致異常嚴重的后果,相關的責任方不但會被追究責任,整個企業也要承擔由此引發的相應損失。
這些損失包括:
數據丟失:一旦數據由于某種原因永久性丟失,不但會給企業的運作帶來極大的困難,企業的商業信譽也必將受到致命的打擊,在當今社會,商譽已經是越來越重要的企業戰略資源,商譽的受損會使企業在競爭中處于劣勢,造成難以彌補的惡劣影響。特別是對于保險公司這種以商業信譽為生存條件的金融機構。
服務滯后:IT系統在由種種原因導致的系統不可用情況下,對于依靠IT系統對客戶進行快速、全面服務工作的企業成員來說,是一個極大的打擊,很多營銷工作因此失去寶貴的客戶資源,而已有的客戶資源也可能因此流失。
決策失準:由于只有依靠IT系統才可以迅速匯總統計企業所有數據,因此如果由于系統不可用,將導致決策人員不能及時得到期望的數據結果,而在瞬息萬變的現代社會,決策的失準將浪費企業寶貴的機會。
在信息化系統高速發展的今天,如何保證數據安全和IT系統故障下的及時恢復已經成為每個保險公司業務體系穩定運行的基礎。災難備份系統就是基于上述問題的最佳解決方案,災難備份系統是在企業IT系統發生故障甚至崩潰時,能迅速地將企業IT系統恢復到可用狀態的輔助IT系統。它可以保證企業IT系統在由各種原因引起的系統崩潰條件下,最大限度地保護企業資源,最快速地使企業重新開展各項工作。
對于導致IT系統崩潰的災難,我們分為兩類,第一類是不可預料錯誤導致的IT系統故障和崩潰;第二類是不可抗力下的嚴重自然災難導致的IT系統不可用。
(1)第一類災難通常是指IT系統本身存在的錯誤或人為錯誤,比如系統設計失誤,人為誤操作等原因導致的事故,影響到了IT系統數據安全和導致系統不可用。對于第一類災難,災難備份系統可以迅速恢復系統狀態到錯誤發生前,保證系統平穩運行。
(2)第二類災難則指發生嚴重自然災害情況下,如地震,海嘯,臺風等嚴重自然災害導致的IT系統硬件損毀而使IT系統不可用和數據丟失情況。對于第二類災難,災難備份系統可以保證在發生計算機系統災難后,在遠離災難現場的地方重新組織系統運行和恢復數據。
上述兩種災難將不可避免地會發生在企業和企業使用IT系統上,所以IT系統災難備份就顯得十分重要。災難備份系統可以減少甚至避免災難對IT系統造成的影響。災難恢復的目標:一是保護數據的完整性,使業務數據損失最少甚至沒有業務數據損失。二是快速恢復運行,使業務停頓時間最短甚至不中斷業務。
災備技術系統的建設
災備技術中,核心的內容包括:存儲技術、災備體系結構技術和信息安全技術。
存儲技術是災備系統的基礎。存儲技術是對海量數據進行備份的技術,它由存儲設備和相應的軟件存儲技術組成,存儲設備包括,磁帶,磁盤,光盤等為存儲介質的硬件設備,存儲技術隨著科技的發展,已經發展的日新月異,現在最主要使用的是網絡存儲技術,通過局域網甚至廣域網將數據和存儲介質結合。
災備體系結構技術包括系統容錯技術、數據恢復技術、系統恢復技術、業務連續性服務。
災備信息安全技術主要用于保障數據在存儲與傳輸過程中的安全性問題、網絡系統的可靠和安全連接問題、計算機系統的安全性問題、使用用戶的身份安全問題和系統操作的不可抵賴性問題等。其核心包括:數據安全性技術、網絡安全技術、系統安全技術、身份安全技術、安全審計技術。
災備系統建設應從以下幾個方面著手:
1.建立負責災難備份系統的專門機構
首先,要建立災難備份系統的專門機構,由專門機構提出災難備份方案并管理和實施這個系統。災備系統方案應由董事會或高級管理層決策,并指定高層管理人員組織實施。由科技、業務、財務、后勤支持等災難備份相關部門組成專門機構進行后續管理。
2.災備系統需求分析
專門機構建立以后,就要分析災備需求。重要的信息系統災備需求包括:對數據處理中心的風險分析,對業務進行分析以及確定災難恢復目標。
3.災備系統方案確立
災備方案主要分為7個等級,企業選擇哪一級災備方案,要根據其業務對IT依賴的程度,如什么樣的數據必須在多長時間內恢復、哪種業務能承受多大的數據丟失等,要分析清楚各種業務的實際需求。
(1)等級零:無異地備份。
(2)等級一:備份介質異地存放。
(3)等級二:備份介質異地存放及備用場地。
(4)等級三:備份介質異地存放及備份中心。
(5)等級四:定時數據備份及備份中心。
(6)等級五:實時數據備份及備份中心。
(7)等級六:零數據丟失。
基于災備需求分析,一個完整的災備方案的設計將涉及各個災備等級的使用,并且綜合考慮技術手段、投資成本、管理方式等方面的因素,提出數據備份方案、建設備份處理系統,災備中心、并制定相應規程和管理制度。
4.實施災備方案
按照所制定的災備方案,完成災備工作。實施過程中,要嚴格災備方案的要求和內容進行。落實相關的規章制度、應用災備方案、建設和運行災備中心。目前比較實用的的數據備份方式可分為:本地備份異地保存、遠程磁帶庫與光盤庫、遠程關鍵數據%2B定期備份、遠程數據庫復制、網絡數據鏡像、遠程鏡像磁盤等六種。
(1)本地備份異地保存:是指按一定的時間間隔(如一天)將系統某一時刻的數據備份到磁帶、磁盤、光盤等介質上,然后及時地傳遞到遠離運行中心的、安全的地方保存起來。
(2)遠程磁帶庫、光盤庫:是指通過網絡將數據傳送到遠離生產中心的磁帶庫或光盤庫系統。本方式要求在生產系統與磁帶庫或光盤庫系統之間建立通信線路。
(3)遠程關鍵數據%2B定期備份:本方式定期備份全部數據,同時生產系統實時向備份系統傳送數據庫日志或應用系統交易流水等關鍵數據。
(4)遠程數據庫復制:在與生產系統相分離的備份系統上建立生產系統上重要數據庫的一個鏡像拷貝,通過通信線路將生產系統的數據庫日志傳送到備份系統,使備份系統的數據庫與生產系統的數據庫數據變化保持同步。
(5)網絡數據鏡像:是指對生產系統的數據庫數據和重要的數據與目標文件進行監控與跟蹤,并將對這些數據及目標文件的操作日志通過網絡實時傳送到備份系統,備份系統則根據操作日志對磁盤中數據進行更新,以保證生產系統與備份系統數據同步。
(6)遠程鏡像磁盤:利用高速光纖通信線路和特殊的磁盤控制技術將鏡像磁盤安放到遠離生產系統的地方,鏡像磁盤的數據與主磁盤數據以實時同步或實時異步方式保持一致。磁盤鏡像可備份所有類型的數據。
5.制定災難恢復計劃
其主要目的是規范災難恢復流程,使重要的信息系統在災難發生后就能夠快速地恢復數據處理系統運行和業務運作,同時可以根據災難恢復計劃對其數據處理中心地災難恢復能力進行測試,并將災難恢復計劃作為相關人員培訓內容之一。
6.保持災難恢復計劃持續可用 在災難恢復計劃制定以后,為保證計劃的可用性和完整性,需要制定變更管理流程,定期審核制度和定期演練制度。
災備系統評價標準
災備系統主要有四個指標評價:分別是RTO、RPO、DOO和NRO。
RTO是恢復時間目標,這個指標就是容災恢復的時間指標。它的含義就是說從災難發生造成的業務中斷,一直到使業務能夠以繼續恢復所需要的這段時間。因此可以看出,如果RTO越短就意味著這個容災系統的容災能力越強。
RPO就是所謂的恢復點目標。什么是恢復點?恢復點是宕機以后數據開始恢復的時間點,RPO所對應的災難,所造成數據丟失情況,我們可以這樣來看,如果RPO等于零,換句話來說,也就相當于沒有造成數據丟失。因為從什么地方跌倒,就從什么地方爬起來,就沒有造成數據本身的丟失,當然對其他可能還是有損失的。否則的話就需要對業務進行恢復處理,需要對丟失數據進行修復。
第三個指標DOO,就是降級操作指標,這個時候它主要考慮宕機恢復以后到第二次故障的災難以后的時間。
第四個目標NRO,就是網絡恢復的目標,主要是考慮網絡恢復的時間。那么一個信息系統的災備,它的結構怎么來描述呢?那么在信息領域里面,災備系統可以描述為四大塊:那么哪四大塊呢?它其實是一個以存儲系統作為基本的支撐,以網絡作為基本的傳輸,以容錯的軟件、硬件技術作為直接的技術手段,以管理技術作為重要的輔助手段,這么四大塊所組成的一個綜合系統。
【編輯推薦】