淺談信息系統應急處置能力評估體系構建
隨著銀行數字化轉型持續推進和互聯網技術的迅猛發展,分布式、大數據等互聯網架構應用也逐步在我行試點和推廣,銀行系統物理架構和技術框架日趨復雜,信息系統的高效穩定運行面臨更大的挑戰。而作為銀行科技的立身之本,安全運營更是科技賦能業務、支持業務敏捷發展的基石。信息系統的應急處置能力作為安全運營的核心能力,在面對新形勢下的各類變化和風險下,是否具備在短時間內內恢復生產服務,將業務運營的影響降至最低?因此我們需要具備一個“應急能力”視角下的評估體系,直觀展現系統應急能力現狀,及時發現應急層面存在的不足,在風險到來前排除隱患,防患未然。
一、應急處置能力評估體系建設的目標和意義
應急處置能力評估體系的目標是通過科學的評價辦法,直觀、快速地識別出安全運營工作中存在的隱患和不足,使其既符合應急管理的一般原理,又適用于當前IT應急體系的現實特點。實現自我改進,迭代發展,推動和促進安全運營體系的完善。其具體意義體現在:
1.風險識別
定期開展應急能力評估,發掘故障應急的薄弱環節,及時排除生產安全隱患,確保IT應急管理工作的持續性和有效性;
2.指標導向
直觀體現應對突發風險時的業務恢復能力,為各領域應急能力是否達標提供衡量依據,引導應急資源的合理分配,提高故障應急的專業化、數字化和智能化水平;
3.閉環賦能
通過對模型的應用和迭代,檢驗專業評估能力與風險應對能力的匹配度,促進各專業領域完善風險評估細則,支持系統交付標準的完善和非功能需求的提出,推動應急手段向工具化和智能化邁進。
二、G行現有信息系統應急處置體系
1.運維平臺支撐
主要包含基礎架構、大數據分析、監管防控和統一門戶四層。基礎架構層主要包含對機房、網絡、存儲等基礎設施相關的操作和應急處置平臺,其中機房管理基于基礎設施管理系統,網絡管理基于域名解析等系統,云管理基于云管平臺,存儲管理基于分布式數據庫管理系統,災備基于災備切換管理系統,底層消息基于分布式消息平臺。
大數據分析層負責對運維數據的采集采集、處理、分析和應用,為監管防控層的應急處置和管理層應急決策提出數據判斷依據,主要包含基于統一AGENT、科技運營數據平臺、運維數據分析平臺、容量管理等系統。監管防控層負責依據數據分析層的決策對應用系統進行應急處置,主要包含運維管控平臺、運維管理平臺、運維操作平臺和運維安全管理平臺。統一門戶層負責基于運維處置訴求和場景對運維數據的統一展示,包含基于運維業務視角、運維管理視角、運維操作視角和運維移動端視角的相關運維平臺。
2.信息系統支撐
為保障信息系統整體運行穩定,在故障發生時能夠快速發現、定位、處置和恢復業務,在上線前會針對以下領域進行專家評估:運維架構設計、互聯網安全測試、網絡指標、大數據、容器云、災備應急、信息安全、監控設計、應用容量、應用運維、批量標準、數據備份、數據庫設計、中間件配置、系統及相關指標,整體達標后方可安排相關上線操作,從信息系統自身建設層面保障系統的應急處置和快速恢復能力。
3.流程制度支撐
主要為滿足業務連續性要求、保障故障發生時應急操作能夠快速有效開展的相關流程制度,具體包含了《業務連續性管理政策》、《應急處置管理辦法》、《突發重大較大事件應急實施細則》等。
4.人員組織支撐
包含應對信息系統突發狀況的應急處置人員、組織人員和決策人員等。其中應急處置人員主要包括采取初始應急操作的各領域一線人員、根據業務影響和初始判斷采取進一步應急操作的二線人員和協助二線進行問題快速定位和分析的三線人員,組織人員主要為保障應急處置快速高效合規開展的事件流程管控人員如事件經理等,決策人員為事態發展到一定階段需要進行授權采取進一步重要操作的相關處室、中心及部分負責人等。
三、應急處置能力評估體系的內容
G行數據中心借鑒互聯網運營理念,融合金融IT傳統管理要求,結合現階段安全運營的特點,就應急處置能力分解為:主動發現能力、影響判斷能力、故障定位能力、業務恢復能力、數據恢復能力五個專項能力。
每個專項能力是否達標,除了包括是否滿足相關能力的要求,還要考慮到熟練度和自動化程度。最終應急能力達標情況,是綜合了專項應急能力指標、熟練度指標和自動化程度指標后的綜合評估結果。
四、應急處置能力模型適用場景
1.系統體檢
作為系統即將面臨預知風險時的應急能力“體檢報告”,如重大變更、業務營銷等重點保障場景等。對于不合格的“體檢項”有的放矢的提前進行防控工作的部署;
2.故障復盤
重大事件發生后,故障復盤時的“對照手冊”,對故障當時應急能力水平進行系統性的審視,在整改后重新評估,確保系統或故障場景“體檢合格”;
3.系統掃雷
作為系統長期運行后,對于應急能力狀況摸底調查的 “掃雷目錄”,及時發現運行風險,推動優化。
五、應急恢復能力模型案例
近期,某系統近期有重大變更,系統對系統整體架構進行調整,由于變更可能引發較大風險,因此對該系統進行系統應急能力評估。經評估,各領域細分能力結果、大類應急能力結果及專項能力結果如下:
結論:該系統變更的應急恢復能力綜合定級為“中”,熟練度不涉及,自動化應急能力為L2(部分自動化)。建議管理員完善影響判斷、配置備份和應急工具自動化程度等相關事項,采取條件通過投產的模式進行系統投產。
六、應急處置能力評估體系的持續完善
生產安全運營的形勢隨著內、外部的變化不斷變化,因此事件管理本身是一個動態的過程,沒有恒定不變的標準,需要不斷的動態迭代完善。一方面,專業領域需要成立專家評定小組,定期對評估對象和評估指標進行重審和完善,另一方面流程管理領域需要基于生產系統運行特點和管理導向對每個評估對象的性質、作用和所處的層次調整評估權重。通過不斷地迭代發展,達到應急恢復能力模型自我改進,系統風險及時發現排除,推動和促進安全運營體系不斷完善。
未來,金融信息科技將面臨更多發展的機遇和挑戰。光大銀行在持續提升科技服務能力和創新能力的同時,經過多年的實踐和積累,在事件管理方面形成了明確的事件管理制度和規范的應急處置流程,應急手段從標準化、自動化大步向數字化和智能化邁進。快速應急能力模型的構建,推動了IT信息管理向精細化方面再進一步。為故障應急,提供了一個更加全面、直觀且富有前瞻性的視角。未來光大銀行信息科技將繼續大力推進服務化、數字化、自動化、智能化“四化”建設,不斷完善事件應急管理體系,落實管理要求,加速提升光大銀行信息科技的核心競爭力。