淺談運(yùn)維場(chǎng)景下多方信息協(xié)作管理系統(tǒng)的設(shè)計(jì)與建設(shè)
隨著銀行業(yè)務(wù)場(chǎng)景數(shù)字化程度的提升,新技術(shù)、新產(chǎn)品、新框架被持續(xù)引入,IT系統(tǒng)運(yùn)維場(chǎng)景日益復(fù)雜。隨著云、容器相關(guān)虛擬化技術(shù)的蓬勃發(fā)展,在提供高可用部署方式同時(shí),信息系統(tǒng)運(yùn)行的集中性風(fēng)險(xiǎn)隨之?dāng)U大。隨之而來的問題就是,在緊急故障處置、集中投產(chǎn)、系統(tǒng)切換、重要業(yè)務(wù)保障等場(chǎng)景下,多技術(shù)領(lǐng)域、多地點(diǎn)、多團(tuán)隊(duì)的相關(guān)方進(jìn)行聯(lián)動(dòng)處理,信息的傳遞轉(zhuǎn)換為網(wǎng)狀分布式交互,多環(huán)節(jié)的信息如何收集、展示,各崗位角色的信息需求如何滿足,面對(duì)海量數(shù)據(jù),保證關(guān)鍵信息迅速、準(zhǔn)確交互,成為了銀行業(yè)IT運(yùn)維信息協(xié)作關(guān)注的重點(diǎn)。
一、當(dāng)下運(yùn)維場(chǎng)景中的痛點(diǎn)
1.信息收集和過濾效率低
在多方參與的運(yùn)維場(chǎng)景下,對(duì)信息的清洗、解釋、分析、匯總會(huì)消耗大量資源,一些看似不重要但關(guān)鍵的信息在緊急場(chǎng)景下很容易被忽略掉。并且重要的指令下達(dá)后,對(duì)應(yīng)的執(zhí)行人員出于種種原因可能無法做到快速響應(yīng)。
2.協(xié)處置與反饋的矛盾
對(duì)于參與處置人員,在埋頭排查問題的同時(shí),還要響應(yīng)調(diào)度和管理層多次的信息反饋要求,經(jīng)常面對(duì)的情況是同一個(gè)問題要解釋匯報(bào)多次,或者需要其他領(lǐng)域技術(shù)人員提供諸如IP地址、流水號(hào)、進(jìn)程號(hào)等信息,無法快速得到回應(yīng),打亂處置節(jié)奏和思路,拖慢處置速度。
3.協(xié)作秩序難以保證
在緊急情況下,人員召集效率低,熱點(diǎn)人員電話始終占線,管理層或其他領(lǐng)域人員的指令或需求難以有效傳達(dá)到對(duì)應(yīng)人員。在處置過程中,各崗位間的配合以及關(guān)鍵決策點(diǎn)靠人來調(diào)度,難免會(huì)出現(xiàn)由于個(gè)別人員緊張度不足或恢復(fù)優(yōu)先級(jí)不明確等問題拖慢整體處置進(jìn)度的情況。
4.人員能力差異
對(duì)于運(yùn)維操作中已經(jīng)成型的工具預(yù)案和操作流程,不同人員的執(zhí)行效果存在差異,緊急情況下,可能會(huì)拖慢故障的恢復(fù)速度,甚至出現(xiàn)誤操作,擴(kuò)大故障影響。
二、建設(shè)目標(biāo)
隨著近年來G行自建的視頻、語音、生物識(shí)別、影響分析、歷史經(jīng)驗(yàn)輔助、運(yùn)營(yíng)日志中心等類型的平臺(tái)紛紛建成,結(jié)合在運(yùn)維標(biāo)準(zhǔn)化、自動(dòng)化和智能化方面深耕多年的豐富經(jīng)驗(yàn),為解決以上痛點(diǎn)提供了可行的技術(shù)方案以及相對(duì)完善的理論體系。
信息協(xié)作管理系統(tǒng)建設(shè),旨在提升在緊急故障處置、集中投產(chǎn)、系統(tǒng)切換、重要業(yè)務(wù)保障等各類運(yùn)維場(chǎng)景下多人、多地協(xié)同處置的信息交互效率,提升處置人員操作的準(zhǔn)確度和時(shí)效性,為決策層提供直觀、快速的信息獲取渠道和便捷、有效的指令發(fā)布途徑。包括以下幾個(gè)方面:
1. 重要信息的定義能力
將各崗位人員對(duì)重要信息的識(shí)別經(jīng)驗(yàn)數(shù)字化,對(duì)各場(chǎng)景下重要信息的特征進(jìn)行定義,在協(xié)作發(fā)生時(shí)直觀迅速地展示給所需的角色,使參與者將更多精力投入到協(xié)作主體上。
2. 跨平臺(tái)數(shù)據(jù)集成能力
作為重要信息識(shí)別經(jīng)驗(yàn)數(shù)字化的載體,協(xié)作系統(tǒng)打通與各運(yùn)維場(chǎng)景涉及的平臺(tái)類系統(tǒng)數(shù)據(jù)接口,對(duì)多平臺(tái)的各類重要數(shù)據(jù)實(shí)現(xiàn)自動(dòng)整合,使離散的數(shù)據(jù)按照時(shí)間進(jìn)程匯總呈現(xiàn)給參與者,有效展示關(guān)鍵信息之間的時(shí)序及關(guān)聯(lián)關(guān)系。
3. 協(xié)作處置的標(biāo)準(zhǔn)化能力
基于事件、變更、災(zāi)備等領(lǐng)域運(yùn)維人員積累的處置經(jīng)驗(yàn),在決策信息收集、工具預(yù)案執(zhí)行等方面,為不同場(chǎng)景、不同領(lǐng)域人員在特定時(shí)點(diǎn)需完成的標(biāo)準(zhǔn)動(dòng)作進(jìn)行提示或提供參考,從而提升協(xié)做處置過程的質(zhì)量和效率。通過人臉、聲紋等生物識(shí)別技術(shù),語音轉(zhuǎn)文字等手段,結(jié)合場(chǎng)景特點(diǎn)定制界面操作,替代原有的文字輸入、身份驗(yàn)證等繁瑣操作。
4. 全過程數(shù)字化記錄和展示能力
在跨平臺(tái)數(shù)據(jù)集成的基礎(chǔ)上,對(duì)整個(gè)協(xié)作周期進(jìn)行完整的記錄和展示,并持續(xù)提升數(shù)字化覆蓋度,為處置決策和事后優(yōu)化提供數(shù)據(jù)支撐。
5. 運(yùn)維協(xié)作場(chǎng)景全覆蓋
全面覆蓋故障處置、切換、變更、演練等各類運(yùn)維場(chǎng)景,通過移動(dòng)端功能的持續(xù)完善,降低非現(xiàn)場(chǎng)人員遠(yuǎn)程協(xié)作時(shí)的距離感。
6.抗干擾、健壯性保障
保證系統(tǒng)本身從基礎(chǔ)設(shè)施到應(yīng)用功能上的獨(dú)立性,支持脫離關(guān)聯(lián)系統(tǒng)或平臺(tái)獨(dú)立運(yùn)行,最大限度地保證協(xié)作相關(guān)功能的可用性。充分考慮網(wǎng)絡(luò)信號(hào)不佳情況下的協(xié)作場(chǎng)景,提供后備手段。
三、重點(diǎn)功能實(shí)現(xiàn)
針對(duì)以上的建設(shè)目標(biāo),提供以下功能進(jìn)行支撐:
圖1 業(yè)務(wù)流程
圖2 技術(shù)架構(gòu)
1. 數(shù)據(jù)整合
(1)本系統(tǒng)作為運(yùn)維部門各配置及日志類平臺(tái)的數(shù)據(jù)消費(fèi)終端之一,具備處理各個(gè)外部關(guān)聯(lián)數(shù)據(jù)系統(tǒng)的信息導(dǎo)入和維護(hù)的類ETL功能,包括聯(lián)機(jī)交易接口、批量文件等形式,覆蓋人員、系統(tǒng)、崗位關(guān)系,業(yè)務(wù)交易、監(jiān)控、云桌面、堡壘機(jī)、遠(yuǎn)程安全接入、運(yùn)維自動(dòng)化等各類數(shù)據(jù),實(shí)現(xiàn)多維數(shù)據(jù)信息在同一維度內(nèi)根據(jù)協(xié)作場(chǎng)景需要關(guān)聯(lián)整合,提升消息傳遞效率以及關(guān)鍵信息捕獲的準(zhǔn)確度。
(2)通過低代碼形式配置外部數(shù)據(jù)。建立支持多類型數(shù)據(jù)的統(tǒng)一導(dǎo)入模塊,基于配置表對(duì)整理后的數(shù)據(jù)內(nèi)容進(jìn)行展示和使用,用戶可以通過前臺(tái)頁面完成特定場(chǎng)景下所需數(shù)據(jù)的特征和關(guān)系配置,持續(xù)提升外部數(shù)據(jù)的使用價(jià)值,降低數(shù)據(jù)導(dǎo)入與消費(fèi)等需求導(dǎo)致的變更數(shù)量。
2. 處置輔助
(1)對(duì)接科技運(yùn)營(yíng)日志平臺(tái),通過數(shù)據(jù)接口對(duì)涉及服務(wù)器的日志完成數(shù)據(jù)初步篩選并傳輸,系統(tǒng)根據(jù)處置場(chǎng)景配置對(duì)諸如關(guān)鍵交易成功率、響應(yīng)時(shí)間、網(wǎng)絡(luò)狀況、服務(wù)器資源等運(yùn)行指標(biāo)進(jìn)行展示。
(2)獲取運(yùn)維數(shù)據(jù)中處置對(duì)象近期發(fā)生的變更、切換、問題等情況,進(jìn)行關(guān)聯(lián)信息視圖調(diào)閱,與歷史同類事件處置情況參考比對(duì),為參與處置人員提供數(shù)據(jù)參考。
3. 協(xié)作任務(wù)模板
(1)以時(shí)間順序?qū)?biāo)準(zhǔn)的影響判斷、故障定位、基本處置、進(jìn)度匯報(bào)等應(yīng)急操作按照不同崗位以及時(shí)效要求組合成任務(wù)模板,會(huì)議召開時(shí)系統(tǒng)根據(jù)故障現(xiàn)象或業(yè)務(wù)影響等不同因素對(duì)模板吻合度進(jìn)行加權(quán)排序,選定模板后任務(wù)自動(dòng)分配到各崗位人員。
(2)任務(wù)與模板解耦。支持在協(xié)作過程中疊加或撤銷模板,模板發(fā)生替換時(shí),已完成過的操作在時(shí)效性內(nèi)自動(dòng)替換到新模板,避免重復(fù)操作。
4. 會(huì)議中心
(1)實(shí)現(xiàn)處置人員快速召集,支持按照系統(tǒng)、告警信息、人員組來確認(rèn)人員范圍發(fā)起協(xié)作會(huì)議,可選擇電子語音、短信、移動(dòng)APP消息等多種通知方式,一鍵完成入會(huì)通知,移動(dòng)端可通過點(diǎn)擊會(huì)議通知消息完成一鍵入會(huì)。
(2)人員組:以故障處置場(chǎng)景為例,考慮到每次處置會(huì)議啟動(dòng)時(shí)都需要拉入一些固定人員,采用享元設(shè)計(jì)模式思想,將人員按照班次、崗位、職級(jí)等設(shè)計(jì)成多個(gè)用戶組,支持會(huì)議啟動(dòng)或進(jìn)行中組合邀請(qǐng),簡(jiǎn)化通知通報(bào)流程。
(3)對(duì)參會(huì)人員的范圍、在線狀態(tài)、參與處置的方式(現(xiàn)場(chǎng)、遠(yuǎn)程)等信息按照崗位分組展示。可以重復(fù)呼叫未入會(huì)人員。
(4)通過虛擬仿真終端實(shí)現(xiàn)對(duì)監(jiān)控視圖、終端屏幕等參考信息投放共享的遠(yuǎn)程控制。
5. 協(xié)作中心
(1)除視頻會(huì)議外,同時(shí)創(chuàng)建基于websocket+socketjs的信息協(xié)作群,實(shí)現(xiàn)與會(huì)人員的信息共享以及任務(wù)模板下發(fā),輸入方式上支持語音輸入提升輸入效率。
(2)協(xié)作群中的信息可以作為任務(wù)派發(fā)或轉(zhuǎn)化為匯報(bào)信息。
6. 虛擬仿真終端
部署在客戶端的服務(wù)程序,接收服務(wù)端發(fā)送的指令信息,并根據(jù)指令信息執(zhí)行相應(yīng)的模擬操作。分為有人值守機(jī)器人和無人值守機(jī)器人。
(1)有人值守機(jī)器人部署在現(xiàn)場(chǎng)處置人員使用的ECC終端上。可以在沒有用戶感知的情況下監(jiān)控用戶的操作,在H264編碼模式下通過ffmpeg開源庫(kù)記錄活動(dòng)時(shí)的屏幕影像,支持視頻采集、視頻加水印等功能,實(shí)時(shí)上傳錄屏文件到服務(wù)端,通過視頻會(huì)議軟件提供的SDK自動(dòng)打開視頻客戶端,加入指定會(huì)議,以及共享處置人員終端桌面等。
(2)無人值守機(jī)器人被部署到無需用戶操作的設(shè)備上。使用模擬用戶操作模式,通過windows提供的UIAutomatio自動(dòng)控制界面,可以操作桌面窗口,模擬鼠標(biāo)和鍵盤,支持遠(yuǎn)程打開多個(gè)web界面,進(jìn)行分屏處理,共享到視頻會(huì)議中。使用windows提供的第三方登錄界面開發(fā)的COM組件可以監(jiān)控系統(tǒng)啟動(dòng)、帳戶解鎖和帳戶鎖定,實(shí)現(xiàn)對(duì)多地應(yīng)急終端的遠(yuǎn)程控制。
7. 信息公告板
以時(shí)間軸的形式全程記錄并顯示任務(wù)完成情況、現(xiàn)場(chǎng)和遠(yuǎn)程處置人員終端輸入的操作指令和屏幕錄像,為決策層實(shí)時(shí)提供所需參考信息,為事后復(fù)盤提供數(shù)據(jù)支持。公告板內(nèi)容支持跨協(xié)作會(huì)議發(fā)送,便于多個(gè)會(huì)議協(xié)同時(shí)的信息共享。
圖3 信息公告板
8.通訊能力保障
自動(dòng)判斷參會(huì)人網(wǎng)絡(luò)狀況,支持自動(dòng)或主動(dòng)切換以視頻或電話方式參與協(xié)作處置。
四、發(fā)展和展望
目前,信息協(xié)作管理系統(tǒng)以提供安全、標(biāo)準(zhǔn)化、可視化、數(shù)字化的多方協(xié)作平臺(tái)為目標(biāo),提升在各類運(yùn)維場(chǎng)景下通知通報(bào)、信息共享、影響分析、決策支持等各個(gè)環(huán)節(jié)的協(xié)同作業(yè)水平,通過對(duì)整個(gè)協(xié)作過程的完整數(shù)字化記錄,為后續(xù)流程優(yōu)化以及自動(dòng)化和智能化工具的建設(shè)提供數(shù)據(jù)基礎(chǔ)。未來,一方面持續(xù)提升信息協(xié)作管理系統(tǒng)平臺(tái)能力,將技術(shù)創(chuàng)新轉(zhuǎn)化為標(biāo)準(zhǔn)化進(jìn)程,提供開放性服務(wù),支撐全行運(yùn)維場(chǎng)景。另一方面強(qiáng)化頂層設(shè)計(jì),依托AI技術(shù),以數(shù)字化信息互通為抓手,構(gòu)建與周邊平臺(tái)的共生能力,增強(qiáng)縱橫融合深度,實(shí)現(xiàn)能力互補(bǔ)與拓展,促進(jìn)多元化智能運(yùn)維場(chǎng)景的衍生和創(chuàng)新,持續(xù)推進(jìn)移動(dòng)化、開放化、生態(tài)化服務(wù)能力建設(shè)。