誤區:BSM與NSM關系不大
原創IT運維管理離不開對IT基礎設施的管理,但是目前很多人認為,IT運維對于底層的NSM不是很重要,實施BSM可以拋開。5CTO.com在采訪中了解到,這種觀點是有問題的。IT運維管理的核心目的是保證基礎架構對業務的支撐。如果脫離了基礎架構管理,我們拿什么去支持業務呢?業務是什么,業務是一個端到端的過程。前幾年IT運維管理系統的流程沒做好,最重要的原因是基礎設施管理不扎實。基礎設施管得不好,就盲目追求流程的結果是很可怕的。比方說我們實施了一個事件管理的流程,但如果我們發現的事件是錯誤的話,整個流程是毫無價值的。舉個具體一點的例子,如果財務系統不能運行,IT運維系統會有很多告警,網絡、服務器、數據庫、中間件告警,但有造成這個故障肯定會有一個根原因,這個跟原因會造成系列的告警,如果對基礎設施管理不扎實,就無法發現根原因;告警十幾個,產生十幾個事件,派了十幾個人去執行十幾個工單,最后是一件事。這個流程越高效,浪費資源越厲害。所以說,流程化管理的第一步是把基礎設施管理做好,對這些問題有細致的了解,在此基礎上事件管理才是合理的,比如網絡有問題,結構不合理,如果沒有工具發現這個問題,經常出事,流程就歸為問題,事件管理是應急的。缺少大量的基礎數據,不能有效解決問題。所以流程化管理做得不好,脫離了企業的實際,要搭建BSM,首先綜合管理平臺要牢固,把企業的方方面面納入管理范疇,構建關聯有關系,類似于ITSM的CMDB,在此基礎上流程才是高效的,否則無法實現高效,都是誤報。
流程化的執行短期內是降低效率,如果要做ITSM,半年之內企業的效率必然下降,因為要進行資源整合,很多人要習慣,事件經理,問題經理,變更經理都不會很快習慣工作方式轉變。用半年時間去適應,再半年去體現效率,用同樣的人力物力處理事件數量成倍增長。
用戶需要的是一個綜合的管理平臺,業務是一個多層次的問題,從網絡到鏈路,到流量,到主機,操作系統,數據庫,應用系統,能做統一監控。這個工作是大量的,要整合這些資源是很難的,需要時間的。國內大型企業在做這個工作的時候忽略了整合,他們分離、分立式的進行了管理,比如思科、ORACLE、流量等方面都用不同的工具去管理,這些工具是隔離的,數據沒有關聯性的,這就導致出現問題就容易出現推卸責任。國內有家大型企業實施了SAP系統,在進行領導參觀前的最后一次演練時發現有人無法登錄,認證系統出錯。他們在排查鼓掌的時候,首先去查看AD系統。他們的AD系統是CA做的,經過驗證,AD系統正常,但是網絡有問題,經常丟包,這個丟包問題影響到了認證過程。為什么會不間斷的丟包呢?他們認為是交換機的問題,可是換了一個交換機后卻發現仍然丟包。最后用北塔BTIM系統排查,對信息收集歸并分析,發現機房環境系統,一個空調壞了,交換機溫度過高才導致的丟包,所以AD系統重復認證,CA認為其為非法,當時花了三天時間,終于找到故障。
這個例子就可以看出,如果沒有一個統一的管理門戶的話,信息是隔離的,管理人員如果無法找到問題的關聯性是很難發現問題原因所在的。企業用戶發展到業務系統很復雜的時候,一定會進行管理系統整合,把數據納入一個平臺,理清關聯性。比如早期的布線系統,如果使用了若干年后出現了故障,管理員就需要一個一個的進行測試,而到今天,有管理系統能夠對其進行標準化的管理。如果沒有這些關聯性,管理是沒有頭緒的。如果缺乏對基礎網絡的NSM管理,很容易把一些實際上很簡單的事情判斷成嚴重的問題,這對流程化的建設是不利的。國內脫離綜合管理平臺,不能做到有效實施,流程就成了OA系統。所以我們要注意,不要把ITSM做成了IT部門的OA系統,如果僅僅是把紙制變成了電子,同底層管理脫鉤,是很難實現。這樣造成的后果是知識庫是無法積累,沒有管理平臺,沒有解決問題的記錄。NSM是BSM的基礎,必須執行。