從應用監控到業務可視化運營的探索
?引言
ITIL將IT服務管理分為十個核心流程管理和一項管理職能,目前國內銀行的運維體系大多基于ITIL規范建立。在ITIL十個核心流程之一的事件管理中,事件是指任何不符合標準操作且已經引起或可能引起服務中斷和服務質量下降的操作。銀行的IT系統中,“事件”的表現形式五花八門,但處理事件的要訣只有一個“天下武功,唯快不破”,根據事件的分類、影響范圍和緊急程度,用一切可能的辦法“不擇手段”地快速解決。本文想淺談G行應用管理中事件的發現過程,即應用監控的建設,以及從應用監控到可視化運營的發展方向。
傳統監控體系概況
傳統的應用監控指從應用層對應用交易的處理性能、流量、帶寬占用、用戶行為、渠道來源、服務占用等進行實時監控、分析、報警,下表簡單羅列了通用的應用基礎監控。
應用基礎監控 | |||||
類別 | 監控方式 | 指標 | 類別 | 監控方式 | 指標 |
資源層 | 進程 | 進程數量 | 應用層 | 應用功能 | 健康檢查 |
進程 | GC次數/分鐘 | 業務層 | 聯機交易 | 整體交易成功率 | |
文件 | COREDUMP | 整體交易響應時間 | |||
異常文件 | 整體交易量 | ||||
文件 | 缺失關鍵文件 | 整體交易響應率 | |||
文件 | 密鑰交換狀態 | 聯機交易 | 單支交易成功率 | ||
文件 | 日志關鍵字 | 單支交易響應時間 | |||
網絡 | 端口監控 | 單支交易量 | |||
網絡 | 網絡長連接 | 單支交易響應率 | |||
組件層 | 線程池 | 線程池狀態 | WEB頁面 | 頁面監控 | |
數據庫連接池 | JEDIS連接池 | 批量任務 | 批量任務狀態 | ||
應用API | 加密API連接 | 集群環境 | F5池可用率 | ||
應用隊列 | 隊列深度 | 部署層 | 集群環境 | 集群狀態 |
應用監控主要確保應用基礎環境和運行性能正常,并提供積極的用戶體驗,應用監控工具為IT管理提供必要的信息,幫助進行事件處置:隔離、服務降級或重啟。
1. 傳統監控體系下的應用基礎監控
Google SRE 定義了四個需要監控的關鍵指標。延遲(Latency),流量(Traffic),錯誤(Errors)和飽和度(Saturation)。
延遲 (Latency)
延遲是服務處理傳入請求和發送響應所用時間的度量。測量服務延遲有助于及早發現服務的緩慢。
- 流量 (Traffic)
流量可以更好地理解服務需求。通常稱為服務 QPS(每秒查詢數),流量是服務請求量的度量。此信號可幫助您決定何時需要擴大服務規模以應對不斷增長的客戶需求,或縮小服務規模以提高成本效益。
- 錯誤 (Errors)
錯誤是對客戶端請求失敗的度量。這些故障可以根據應用程序的響應返回碼、日志中的關鍵字輕松識別。在某些情況下,由于錯誤的結果數據或違反了約定,響應被認為是錯誤的。除了響應碼之外,可能還需要其他的代碼邏輯輸出的錯誤日志來捕獲錯誤。
- 飽和度 (Saturation)
飽和度是服務器資源利用率的度量。這個信號告訴你服務資源的狀態以及它們有多“滿”。這些資源包括內存、cpu、網絡 I/O 等。在資源利用率達到 100% 之前,服務性能也會緩慢下降。因此,有一個利用率目標很重要。延遲的增加是飽和度的一個很好的指標。
正如Google SRE所討論的,通過各類技術工具Zabbix、Prometheus、grafana等實現衡量服務的四個指標,可以實現對一個業務系統最基礎的監控。
2. 傳統監控體系的痛點
- 以交易為中心而不是以客戶為中心
傳統的應用監控大多是以技術組件可用性和交易性能為中心。在Bank4.0時代,場景金融被廣泛提及,其將視角從傳統以產品和交易為中心投向以客戶為中心,將服務的物理空間從銀行為中心轉向以場景為中心,通過連接客戶生活、生產場景中產生的金融需求而提供端到端的服務,帶來金融的創新和業態轉化。應用管理中的監控體系也必須不斷的進化和迭代以適應業務的快速發展,其出發點也必須轉變:從以交易為中心到以客戶為中心,未來的實踐方向或為監控場景化。
- 業務和技術監控視角不統一
另外我們需要討論的一個問題是,在傳統監控推送一個監控信息后,如何判斷業務影響范圍?由于業務人員和IT管理人員的視角存在明顯的偏差,對業務影響的準確判斷也存在明顯的偏差,這里我們可以通過埃舍爾的視錯覺的圖來描述這一現象,結果到底是鴨還是兔?
當銀行IT系統監控平臺推送一個聯機服務擁堵的信息,從應用管理的角度事件定義為服務擁堵,某幾支聯機交易無法正常處理,但是從業務管理角度看到的是支付系統貸記往報出現宕賬。業務視角和IT視角的不同,對事件的重要性和緊迫程度會有截然不同的判斷,對事件處置的決策會產生重大影響。當信息不足以準確分析環境中的復雜情況時,我們會根據固有的認知、邏輯和習慣進行猜測和補充。如何統一技術和業務視角、精確定位業務影響范圍是必須要思考的另一個難題。
G行從應用監控到業務可視化運營的探索
為適應“科技、敏捷、生態”戰略轉型要求,實現打造一流財富管理銀行”戰略目標,G行投入建設了“可視化運營”項目。該項目遵循數字化轉型戰略,切實做好安全運營保障、提升運維治理能力,為提升信息系統整體可用性、科技賦能業務發展、促進數字化銀行轉型提供有力支持。
可視化運營最大的特點就是:由業務人員和IT管理人員共同提出監控需求,解決“鴨兔”問題;實現重點應用系統重點業務場景化監控覆蓋、全流程管理。業務監控功能將從交易量、客戶、商戶等維度,利用生產數據,通過全國熱點地圖、柱狀圖、動態展示圖等形式對業務運行現狀進行呈現,以完成下述目標:
1. 通過監控掌握業務發展趨勢,對業務發展方向提供預判。
2. 通過對客戶行為數據的監控掌握客戶的行為軌跡,促進交易量提升。
3. 通過對業務的實時監控可及時發現業務功能是否能夠正常處理,如遇異常可及時做到科技業務聯動、總分行聯動、集中指揮,統一應急處理,提高業務整體運營能力。
4. 風險違規防范的監控功能,對重要業務場景深挖可能存在的業務風險點;通過對實時數據的監控,及時發現隱患進行應急處置。
5. 對監管考核事項重點監控,確保在各監管機構的合規率100%。
針對支付清算業務,G行定義了本幣支付清算5大業務場景(分別是:大額支付、小額支付、超級網銀、CIPS、ACS)和外幣清算場景。與傳統監控全流程只需要科技人員不同,可視化業務運營需要業務人員、開發人員和運維人員一起來指定場景的設定范圍、指標、閾值。項目實施的關鍵是整體需求的制定,整個過程需要大量和業務溝通確認的工作。G行可視化運管管理平臺在本幣支付清算場景,整體上梳理4個本幣場景中系統監控、系統管理、業務管理、統計分析、工作管理5大類123個重點需求,具體實現如下文所述。
對各場景整體狀態、交易量、交易金額、系統響應率等全面覆蓋。
傳統監控更多的是對一個點的監控,業務場景下更注重對業務流程化的運營管理。重點清算支付業務場景分級層層下鉆,按業務類型實時分析和統計,異常時在來往報告警信息中予以顯示,處理成功后根據終態結果自動核銷,自動判斷清算異常、流動性異常(頭寸預警、清算排隊)。
行內考核指標和監管考核指標全面覆蓋,G行關注信息(大額來往報異常、小額來往報異常、超網來往報異常、CIPS來往報異常、ACS異常數據);人行考核數據回復率及發起應答報文數量(查詢查復、退回申請、人行狀態查詢、客戶信息查詢、支付申請)。異常業務可自動推送通知至總分行管理人員,實現科技——業務,總行——分行實時聯動。
外幣清算一體化運營。
結語
未來銀行在業務及產品服務模式創新方面,有必要結合第一性原理進行開創性創新。對銀行本身而言,也應以第一原理思想,不斷突破固有思維模式,走出一條適應自身發展的創新之路。未來銀行的金融服務與我們的生活場景、消費場景深度融合,作為應用管理中業務監控的探索也必將深入場景,實現從以交易為中心到以客戶為中心的轉變:第一時間發現問題,準確做出業務判斷,及時解決問題,有效提升客戶體驗,從技術層面的應用監控走向業務可視化運營。