透過事件管理 看企業網絡生存法則
對于日常管理來說,管理人員難免會遇到網絡、設備出現故障,引起了網絡的阻塞或者設備宕機的情況。當發生這些問題的時候,一些可以提高IT系統運行率的機制和管理思路是沒有直接作用的,這時候管理員和CIO最希望看到的就是運維軟件能夠直接提供快速、精準的故障解決方案,能夠在最短時間內恢復網絡、設備正常運營,從而為企業的IT運營提供可靠的保障。
以上問題是業界所尤為關注的話題--如何做好事件管理。當然這也是眾多管理員最感興趣的話題,因為這涉及到問題的具體解決方法。在一套完善的網絡管理機制下,最終能夠體現管理員價值的莫過于處理故障的速度和效率,高水準的信息團隊是能夠在業務部門報修故障后迅速制定出完整解決方案,并著手開始實施,同時能夠確保在恢復好業務運行過程中對企業的生產經營帶來的損失最小。下面就為大家重點介紹北塔軟件所倡導的IT故障處理思路:
精準定位事件 企業管理之源
北塔軟件在為用戶實施眾多項目過程中,很多用戶都面臨到這樣的困境,發現故障緩慢,影響了處理效率,給業務帶來了一定的影響。因此,對用戶有價值的IT運維軟件是能夠在第一時間發現事件和故障,而這是基于事件發現的范圍和機制來實現的,即通過怎樣的手段來監控網絡系統,從而能夠確保故障告警的及時、準確、有效。
簡單來說,發現事件包括兩方面要素,一是覆蓋要廣,二是發現機制技術先進性。在管理面上,北塔的運維軟件能夠提供上千種KPI,對桌面PC、應用服務、機房環境、網絡系統、服務器系統、數據庫、數據流等IT要素進行全面的監測管理,管理員自然有充足的管理源進行管控,對于整個IT環境中任何細微的故障都能先知先覺,因此全面的監控是精準事件發現的基礎之一。另一條件則是事件發現機制,通過主動與被動的采集數據模式,實現了優勢互補,通過精確的輪詢提高了事件發現的準確度,同時被動的采集可以減輕系統壓力,并在一定程度上確保了故障發現的及時性。通過以上兩方面,就能讓管理員在運維管理中“高枕無憂”,因為準確、全面的發現事件,這將成為管理員事先管理模式的重要工具。
明確事件性質 根原因解決之路
當通過準確高效的發現機制將故障通知管理員以后,管理員可能并不能立即就明確故障的性質、影響度等情況,因此北塔的運維軟件還提供了事件的各種屬性,也就是本次事件的來源、時間、緊急度、影響度等情況,在對這些情況匯總后能夠得出對于企業網絡的影響等級。通過制定這樣一種策略,管理人員就可以輕松掌控事件,當有告警發生時,立即查看其告警等級,是屬于緊急、高級、中級、低級、提示級中哪一種,對于緊急的進行優化處理,而提示級則可以暫時不用處理。結合豐富的事件信息能夠為接下來事件處理提供充足的資源,并且結合事件優化級的管理模式也能夠同企業網絡管理的SLA相結合,提高信息部門的服務滿意度。
在明確事件的相關屬性之后,管理人員可能還是會有疑惑,在眾多告警中,怎樣才可能確保告警的精準,進而安排到相關人員進行處理。這就涉及到一個事件的壓縮問題,對于若干的告警,管理員肯定會顯得無所適從,而北塔的IT運維軟件能夠融合基線告警、復合告警兩種方式,則可提高高等級事件的準確度,即對于重大的故障能夠迅速定位,并且是正確有效的告警。進而深層次挖掘事件的根源,也就是根原因分析功能,IT運維軟件通過故障處理經驗的積累,順著思路采集數據,層層深入地找出問題的根源。明確根源后,最終IT運維軟件將故障處理意見進行輸出到相關責任人,這樣就形成了完整的事件處理過程。
統計規劃,企業網絡發展之策
通過以上的分析,基本上明確了事件處理的環節,事實上以上這些工作只是簡單的一次處理過程,那如何規避一些網絡故障的發生和提升網絡性能,因此北塔IT運維軟件還提供了事件統計分析功能。經過一段時間的運行,管理員能夠查看故障報表,從海量的事件中選出密集事件,發現問題根原所在,這也就指明了網絡改進的方向,這事實上也就同ITIL中所提供的問題管理功能類似,對于長期性的問題,我們需要由經驗來形成解決方案,改善運維情況,從而提升IT運行效率。
事件統計分析功能相當于一面明鏡,可以辨別企業網絡中的桎梏所在,也正是在完善的事件管理機制下,IT部門才真正體現了價值,去運營維護企業的網絡系統,去打造一套智能、全面的故障處理方案,并以最大化利用IT資源為部門己任而奮斗不息。