尋找IT運維管理中的“阿喀琉斯之踵”
英雄阿喀琉斯(希臘神話人物)出生時,他被母親海洋女神倒提腳跟浸沒在冥河水中,從此渾身刀槍不入。但***他死在冷箭下,中招的部位就在腳跟。從此,“阿喀琉斯之踵”成為致命弱點的代名詞。
這個詞被很多行業引用,來說明問題的嚴重性,而當遷移到IT領域,它的名字叫“故障”。其原因在于,當企業離不開IT的時候,必需為生存尋找隱藏其后的致命弱點,因為各種故障隨時都可能正在發生。
IT故障為何頻頻光顧?
這個問題有點匪夷所思,與十年前的生產工藝相比,如今的IT設備或是軟件的成熟度、穩定性大大增強, 但為何IT故障還是頻頻光顧呢?
對此,作為國內領先的IT運維管理專家,北塔軟件提供了比較客觀的分析:
***,確保不出現故障的硬件和程序,在這個世界上是不存在的。任何以穩定性著稱的系統都必需符合“相對論”,問題只在于這個錯誤你有沒有碰上而已。
第二,IT系統的復雜性,與微信中瘋傳的“一張圖看懂阿里巴巴”不同。許多企業中的業務子系統相關聯系非常緊密,對于企業的運營來說,這些IT基礎設備上跑的業務往往是一個閉環。斷其一點,循環不暢。
第三,云數據中心是虛擬化技術演進的結果,冗余性設計讓管理員不必再擔心瞬間停機,但故障主機的修復更具挑戰。這是因為,虛擬化解耦了物理設備之間一一對應的關系,虛擬主機可以位于云端任何計算節點或存儲設備上,這使得發現并排除故障的時間成本更長。
第四,當業務系統大到一定的程度后,如果依靠人力管理,則極易發生失控的狀況。一些骨灰級的IT運維高手可以手工巡檢、排錯,但如果支撐業務系統的對象數量、邏輯結構超越了“大腦記憶”容量,那些憑借經驗修復網絡的高手就很可能敗下陣來。
破解IT運維的復雜性
“IT運維管理部門的真正價值并不是出現故障之后的處理,而是在故障發生前能夠準確判斷,排除隱患,并避免故障的發生。”北塔軟件建議用戶采用主動運維的方式來對待故障管理,同時還借助北塔BTIM IT綜合管理軟件,介紹了消除業務系統復雜性,簡化運維管理的方法。
***,能夠幫助企業有效對抗故障難題的方法,就是建立主動性的發現機制和處理流程。而主動發現故障,取決于企業IT運維管理部門的思想轉變,踐行于IT基礎設施的有效監控。穩妥的IT基礎設施監控是后續環節的起點,同時也是將運維從復雜變化為簡單的關鍵步驟。將分散或看起來不相關的組件(問題)聯系起來,以形成一個完整的系統,此時監控系統中才能派生出預警信息,才能“有意義”。
以北塔軟件的北塔BTIM為例,在操作界面中的對于圖標使用 “紅、棕、黃、綠、藍”不同的顏色,這代表5個告警等級,此告警等級可以代表不同的運維等級,它們是:緊急、高級、中級、低級、提示級。根據優先級的不同,對應的處理人員不同,處理流程也不同,響應的時間也是不同的。
第二,主動運維的理念已經深入人心,但如果還使用基于ICMP(ping等命令)的管理,利用連通性來判斷業務系統“緩慢”原因的人就是“超人”。此時,如果個人經驗已經無從下手,用戶就需要使用到北塔BTIM產品中的一些“特殊功能”。
例如:“故障根源分析策略”、TFS管理系統、業務流量視圖,這都可以幫助管理員化解故障處理的復雜性。其原因在于,再復雜的系統,都有數據行走的路線。一旦發現問題,依據業務流量實際流量路徑,按分析需要逐層擴大數據采集的深度和廣度,層層深入,便能直達故障根源。
第三,針對數據中心場景的變化,IT運維也應隨之“進化”。虛擬化創造出一種全新的數據中心模型,基于X86技術的開發讓軟件定義數據中心彈性無窮。但其背后卻隱藏著許多隱患,很多傳統的IT運維管理方案都只能工作在物理環境中,許多管理員又再次陷入了手動運維、被動管理的泥潭。
為此,北塔BITM在虛擬化環境中采用獨有的“物理拓撲”運維,在可視化方面為ESX/ESXi主機、虛擬機、數據存儲、虛擬網絡構成了等同于物理設備一樣的管理中心。
故障不會徹底消失,巡檢是***助手
當前,IT已是現代企業***的“破冰船”,它可以為經營者隨時創新的思想提供支撐,通過更好的核心競爭力推動業務發展、維持競爭優勢、落地以客戶為中心的經營方針。然而,IT既強大又有軟肋。不斷冒出來的需求讓IT基礎架構和業務系統的復雜性超過以往,而任何微小的故障會因為系統的緊耦合性造成連鎖反應,這便是IT系統的“阿喀琉斯之踵”。
***,尋找IT運維管理中的“阿喀琉斯之踵”,不會讓IT故障從此消失。不過,“讓運維系統自動發現故障要比手動檢測快得多,快速解決復雜應用問題需要大量的細節指標”這兩點還請牢記。
自動巡檢不但可以解放人力、發現系統的隱患,更能大量收集系統運行的監控數據,并以此為依據建立一種可持續性的優化目標。另外,可以高效存儲并快速收集相關數據的IT運維解決方案也是你強大的隊員,它可以協助你在幾分鐘內解決問題,而不是數小時或數天。