擺脫“電話恐懼癥”的網絡工程師
盡管網絡基礎設施的穩定性越來越高、IT運維概念不斷推陳出新,但事實上,還有眾多的網絡工程師并沒有從日常維護工作中得到真正意義上的解脫。而作為被動運維管理的典型,“電話報修”這種傳統模式必須要得以徹底改變,才能將網絡工程師丟失的時間、精力和效率找回來,才能從在主動服務中將IT運維管理的真正價值釋放出來。
某大型電網公司網絡信息中心,每天接到的報修電話數量超過百個,由于長期處于高壓狀態,很多工程師都對電話鈴聲極其反感,有的人甚至懷疑自己患上了“電話恐懼癥”。如果從心理學角度上分析,這種莫名的恐懼,是一種容易治療的疾病。但若從技術和管理角度上分析,則是整個IT運維系統出現了問題,電話另一頭許多的“未知”是讓工程師產生不安的“病根”。
作為國內領先的IT運維管理專家,北塔軟件認為:只有具備主動事前管理+故障判斷功能的運維解決方案,才能幫助用戶徹底擺脫“電話報修”這種被動運維模式。網絡架構就如同人體構造一樣復雜,造成網絡故障的原因也是多種多樣。一方面,用戶在電話中的描述很難準確;另一方面,網絡工程師采用手工檢測、經驗判斷,一般也就能解決“通斷”之類的故障,對用戶端實際情況也很難判斷出真正原因。
那么,IT運維人員通過何種途徑能夠實現“事前管理“?針對本文中的案例來看,首要任務就是解決設備層面的監控和預警難題。信息網絡中心需要把鏈路、網絡設備、服務器等納入一個平臺上進行管理,提供7X24小時全天候監控。
對此,我們通過分析北塔軟件IT運維綜合管理解決方案可以看出端倪。首先,通過涵蓋網絡、應用、故障、資產等方面一體化管理平臺,徹底消除企業IT管理中的盲點,從而解決“被動運維”給企業造成的效率不高、服務水平低陷的問題。利用北塔軟件的自動拓撲發現功能,可以幫助管理員對所管理的設備類型進行分類,并對設備所涉及到的參數進行實時監控。同時,該方案還可以通過靈活多樣的告警方式,主動告知運維人員當前遇到的問題和原因,這便消除了電話中許多的“未知”因素,從而在全局和細節上都能實現主動運維。
其次,在故障發現方面,基于ICMP的管理,只能對服務器和網絡設備的連通性進行簡單性測試,但在業務逐漸復雜的后續階段就顯得力不從心了。不難看出,北塔軟件在解決方案中采用了以“路徑”為核心的故障分析方法,包含了化解故障復雜性的“故障根源分析策略”、TFS管理系統、業務流量視圖等等。
針對“路徑”的具體應用,北塔軟件表示:不論多么復雜的系統,都有數據行走的路線。而通過日常高頻度監測少量關鍵指標,控制被管系統承載壓力,一旦發現問題,便能依據業務系統實際的流量路徑,逐層擴大數據采集的深度和廣度,層層深入,這樣就可直達故障的根源。
恐懼的原因是缺乏自信,而作為支持企業實現從設備管理跨越到業務管理的運維平臺,IT綜合管理解決方案中許多功能可以消除“未知”,從而讓IT運維管理重獲自信。另外,該方案還包含了“業務視圖”、“自動巡檢”和“業務仿真”等更高級的運維“助手”,不但可以改善被動運維的局面,還可以站在用戶的角度實現網絡應用體驗。例如:設定完成“業務仿真”的流程和平均訪問時間閾值之后,北塔BTIM將模擬業務與運維人員自動執行登錄、模擬處理常規業務流程、搜尋業務系統故障、嘗試自動修復等操作步驟。而這些創新應用的引入,都是確保IT部門在電話鈴聲響起前,便能提前發現問題,讓主動服務輕松實現。
如此,網絡工程師遠離電話鈴聲已經不是問題,而所有故障處理也不必再憑借“假設推斷”和“個人經驗”來排除。主動運維格局的形成,不但具有了從運維怪圈跳出的彈力,更可以在日后的創新應用中擁有持續優化的能力,從而更好地將IT與業務相融合,促進業務的快速發展。