G行文件傳輸架構設計及運維管理
隨著銀行信息化的快速發展,應用系統的數量逐步增多,系統間數據文件的傳輸需求呈指數級增長,起初系統間自行約定對接傳輸的方式,產生諸多問題,使日常運維和管理工作變得更為復雜。
問題一:
業務系統間文件傳輸交換各自為政,形成復雜的傳輸關系,當出現異常時,問題根源和關聯影響很難定位;
問題二:
傳輸技術多樣化,同時存在多種傳輸方式,系統間對接需單獨開發,無統一標準,后期維護困難;
問題三:
同一份文件進行多次抽取、發送,數據共享性差,系統間的文件傳輸流量無法復用、歸并,增加網絡域重復流量;
問題四:
全行傳輸業務缺少統一視圖,沒有對全行傳輸業務的統一管理手段,無法對全行的文件傳輸實時監控。
G行文件傳輸系統作為基礎支撐系統,將數據文件傳輸進行統一規劃,向全行各應用系統提供數據文件傳輸服務接口,建立全行統一的傳輸接口規范和標準,保證全行文件數據傳輸過程的可管理性、高效性、可靠性,滿足G行業務發展和各應用系統間進行文件傳輸交互的需要。
一、架構設計
G行文件傳輸系統采用節點網狀部署、信息集中管理的設計,節點分布在需要進行文件傳輸的應用服務器上,并且每一個節點都可以與同網絡域的其他節點相連,網狀部署設計具有較高的可靠性,每兩個節點之間的傳輸不受其他節點和管理端的影響,發送節點服務正常運行,就可以根據預設任務發送文件,接收節點服務正常就可以將收到的文件按照約定目錄存放。文件共享或跨域文件傳輸可通過中心節點轉發,中心節點為集群模式,支持自動路由及負載均衡,具體傳輸鏈路如圖1。
圖1 傳輸鏈路圖
文件傳輸系統分為接入、管理、平臺三層業務架構,接入層負責與全行應用系統對接,根據本地存儲的任務信息對文件進行相應處理和傳輸,將傳輸結果上送至管理層,管理層負責節點和任務信息的管理,并實時同步信息給接入層和平臺層,平臺層則負責文件分發、傳輸擴展和數據存儲,如圖2。
圖2 三層業務架構
二、運維管理
一般系統的管理員主要工作在于應對系統中產生的各種需要人工干預的事件,以及來自開發的變更需求,保障系統對外提供穩定的服務。但隨著G行文件傳輸系統節點規模越來越大,每日傳輸文件數量越來越多,相關的事件和變更需求也越來越多,按照傳統模式一個管理員很難應對日益增多的事件。所以G行文件傳輸系統配套設計了管理模塊來解決運維中的問題,代替人工操作,減輕管理員壓力。
管理模塊的定位是保障生產穩定有序的運行,通過設計、構建自動化工具來發現、解決、降低風險,主要包括以下三個方面:
監控策略:
監控管理功能是監控全行文件傳輸服務可用性的一個主要手段。文件傳輸系統主要從傳輸節點和傳輸任務兩個維度監控:
- 傳輸節點啟動時會主動和管理端建立連接,管理端維護連接信息,并每30秒進行一次探測,連續5次探測失敗則進行報警;同時傳輸節點的運行信息會實時報送給管理端,當捕獲到異常時也會進行報警。
- 傳輸任務的監控,是針對每個傳輸任務的時間閾值進行設定,當傳輸異常或超時還未完成文件傳輸,則進行報警。對于多傳、重復傳的情況,管理端也會進行判斷,并依據設定直接終止傳輸和報警。
- 監控管理一直是持續優化重點工作,未來將更少的依賴人分析報警信息,直接由系統自動分析,僅當需要人來執行某種操作時,才會通知管理員。
應急處理:
任何需要人工操作的事情都只會延長恢復時間。一個可以自動恢復的系統即使有更多的故障發生,也要比事事都需要人工干預的系統可用性更高。
G行文件傳輸系統在服務異常和傳輸文件異常時都具備自動恢復的能力。當發現有進程異常終止時,系統會立即重新拉起,避免影響文件傳輸,同時進行相關記錄,收集起來以備調試和事后分析時使用。傳輸文件異常則是通過自動重傳或續傳的模式,確保文件傳輸及時恢復。如果文件生成過晚超出預定發送時間或者數據錯誤修正后需重新發送,這時不可避免的需要人工介入,可使用應急重傳功能,重新發起任務,系統會根據任務信息將文件重新傳輸。
變更管理:
以往的經驗告訴我們,大部分生產事件都是由變更而觸發。G行文件傳輸系統的變更管理功能實現了傳輸任務的自動化在線投產、實時跟蹤投產情況及當出現問題時,安全迅速回退。這樣可以將人工因素排除在流程之外,操作不再受經常發生在人身上的經驗主義錯誤以及大量重復性勞動帶來的疲勞所影響。有效的提高變更執行速度和降低變更帶來的風險。具體實現為管理端通過流程系統獲取變更文件,完成導入后自動將變更信息推送到每個節點,無需重啟應用,新增和調整的傳輸任務實時生效,保證文件傳輸的連續性。
管理模塊的另一個定位是提升運維效率,通過用戶權限區分,開放查詢和配置功能,做到安全控制的同時,提供給用戶便捷的服務:
用戶管理:
用戶管理功能按照角色將用戶分為超級管理員、管理員、操作員三種級別,具有不同的訪問權限,而且對某個用戶可管理的節點也可進行指派,避免錯誤操作職權范圍外的節點。結合G行實際場景,運維一線人員分配操作員權限,可查詢全行節點和傳輸任務信息,在傳輸異常時具備應急處理權限;運維二線人員分配管理員權限,可查詢、變更自己負責節點和任務的信息配置、監控設置;文件傳輸系統的運維人員具備超級管理員權限,對全行文件傳輸進行整體的管控。
傳輸查詢:
傳輸查詢功能有節點查詢、任務查詢、明細查詢。節點查詢能夠查詢全行節點地址、端口號、狀態和配置,便于運維人員實時獲取節點運行情況;任務查詢可以通過文件名稱、發送或接收節點等條件查詢任務信息,包括發送時間、發送目錄、接收目錄、文件生成情況,運維人員通過任務查詢能夠掌握系統間傳輸關系;明細查詢用來展示每一條傳輸記錄的發送和接收節點,傳輸時間,文件大小,是否成功等,使用明細查詢運維人員能夠確認每個任務的傳輸結果。
運行日志:
運行日志功能能夠直接查看全行各節點的日志信息,在節點異常或傳輸任務異常時,直接通過管理臺分析日志,無需登錄應用服務器,提高運維人員的問題排查效率。
G行文件傳輸系統,大大提升了文件傳輸運維管理的效率,但隨著業務的發展,文件傳輸場景和數量也會越來越多,文件傳輸的管理難度將會進一步增加,我們需要繼續迭代不斷創新,逐步推進運維管理充分實現智能化。
三、總結
文件傳輸的管理工作基礎且重要,G行文件傳輸系統的建設,全面整合了各種傳輸模式、梳理文件處理流程,實現文件傳輸標準化和統一管理,使應用系統能夠更好地專注于業務邏輯的建設,提高了系統處理能力,提升應用系統對業務的支撐能力,有利于業務的靈活展開。
未來隨著銀行科技的不斷發展,G行應用系統的全面上云,文件傳輸需先行完成節點負載均衡架構和文件分布式存儲改造,滿足應用上云后的文件傳輸需求,這也是文件傳輸系統未來的發展目標,即覆蓋全行文件傳輸場景,不斷提高管理效率,持續為全行業務提供可靠的文件傳輸服務。