北塔BTIM綜合管理:事件故障管理
企業(yè)IT信息管理人員大多是多重身份,他可能既是管理者又是具體執(zhí)行者,不可能24小時(shí)緊盯監(jiān)控頁(yè)面,實(shí)時(shí)對(duì)所有運(yùn)行監(jiān)控參數(shù)進(jìn)行分析。管理軟件如果能提供智能分析,幫信息管理人員及時(shí)預(yù)警故障隱患,才算是真正起到作用。BTIM系統(tǒng)從以下四個(gè)方面做了重點(diǎn)考慮:
事件的發(fā)現(xiàn)的范圍是不是夠廣闊,作為重要的事件管理功能拒絕漏網(wǎng)之魚是走出成功的第一步。
是否有能有一個(gè)高效而準(zhǔn)確的發(fā)現(xiàn)機(jī)制,對(duì)于事件發(fā)現(xiàn)來(lái)說(shuō),高效即時(shí)是一個(gè)很重要的指標(biāo),但是因?yàn)橐磿r(shí)的發(fā)現(xiàn)實(shí)件而產(chǎn)生了大量的誤高或者無(wú)用的垃圾事件,這樣的高效即時(shí)的發(fā)現(xiàn)就沒(méi)有意義了。怎么去平衡即時(shí)和準(zhǔn)確是事件發(fā)現(xiàn)機(jī)制的一個(gè)關(guān)鍵點(diǎn)。
事件發(fā)生后需要輸出,需要告訴相關(guān)的人員。事件輸送的時(shí)間、方式、對(duì)象等這些事件發(fā)生中需要關(guān)注的信息點(diǎn)是否能靈活的組合和配置是需要關(guān)注的。
事件的后續(xù)處理也應(yīng)該納入事件管理的考慮范圍。對(duì)于事件管理來(lái)說(shuō),如果系統(tǒng)能幫忙判斷一些故障,能自動(dòng)定位某些故障點(diǎn),甚至是能自動(dòng)的解決一些常見(jiàn)的問(wèn)題,這樣的處理方式就比較完美。最后,事件一定要和流程管理相銜接,和ITIL流程管理兼容,具有ITIL的管理思路。
1 事件廣泛監(jiān)控
對(duì)于事件來(lái)說(shuō),首先我們要關(guān)注的是事件收集的廣泛性。對(duì)于業(yè)務(wù)的事件來(lái)說(shuō),從上面的分析我們也可以看的出,沒(méi)有任何的事件可以說(shuō)完全的不重要可以忽略不理會(huì)的。那既然是這樣,我們就要把所有的和業(yè)務(wù)系統(tǒng)相關(guān)的事件進(jìn)行收集,納入到系統(tǒng)層面進(jìn)行分析考慮,這樣也就要求對(duì)于事件的收集要達(dá)到事無(wú)大小,一覽無(wú)余的地步。
事件收集的對(duì)象包括了從底層的網(wǎng)絡(luò)設(shè)備、線路、流量、到主機(jī)的硬件、端口、基于主機(jī)上的操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件等等。
然后我們需要考慮的事件收集的是手段問(wèn)題,在這么廣泛的事件收集中我們可以通過(guò)以下多種方式來(lái)支持事件的收集。
支持Event Log、Syslog。Window主機(jī)的Event Log和Unix、Linux主機(jī)的Syslog反應(yīng)了系統(tǒng)的運(yùn)行狀況,可以及時(shí)反應(yīng)系統(tǒng)運(yùn)行中的問(wèn)題,系統(tǒng)支持Event Log和Syslog日志的關(guān)鍵字檢索功能,用戶可以定義自己關(guān)心的關(guān)鍵字,當(dāng)日志中出現(xiàn)相應(yīng)的關(guān)鍵字時(shí),系統(tǒng)產(chǎn)生告警。
無(wú)代理監(jiān)控技術(shù)是真正的無(wú)代理,不需要在被管理的主機(jī)或者應(yīng)用上安裝任何的軟件。代理技術(shù)采用多種采集方式達(dá)到對(duì)網(wǎng)絡(luò)設(shè)備、機(jī)房環(huán)境、主機(jī)、應(yīng)用和數(shù)據(jù)庫(kù)的監(jiān)控,這些技術(shù)包括:
WMI
PerfMon
HTTP/HTTPS
SQL
Ping
DNS
SNMP
Secure Shell (SSH)
TELNET
JDBC
ODBC等
2 事件發(fā)現(xiàn)機(jī)制
對(duì)于事件發(fā)現(xiàn)的機(jī)制,目前我們使用的比較多的,也是比較常見(jiàn)的技術(shù)有兩種,一種是被動(dòng)的接受,把所有的事件先接收下來(lái),然后在進(jìn)行分析。另外一種是主動(dòng)分析,把需要進(jìn)行分析的事件先安排好,讓需要分析的事件按照計(jì)劃進(jìn)行采集。下面我們比較細(xì)致的來(lái)解釋這兩種事件機(jī)制的優(yōu)點(diǎn)和缺點(diǎn)。
2.1、被動(dòng)事后分析模式
被動(dòng)事后分析模式是指:所有接收的事件都是系統(tǒng)被動(dòng)的接受的,主動(dòng)發(fā)出的在設(shè)備一方,這種工作模式比較通常的是設(shè)備以syslog或者Trip的方式把設(shè)備上所有產(chǎn)生的海量事件全部發(fā)送給接收端,接受端首先要有一個(gè)海量的存儲(chǔ)空間來(lái)放下這些事件信息,而且需要若干臺(tái)服務(wù)器來(lái)進(jìn)行密集的運(yùn)算來(lái)分析這些事件,把這些事件進(jìn)行分析、壓縮、過(guò)濾,關(guān)聯(lián)等等動(dòng)作。
這種事件處理的模式典型的優(yōu)點(diǎn)就是接受的事件全,基本上發(fā)生過(guò)的事件都沒(méi)有遺漏的接收了下來(lái)。有利用后期的分析,特別是對(duì)一些不可預(yù)知事件的分析。但是缺點(diǎn)也是很明顯的對(duì)于投資特別大,隨著設(shè)備增加,會(huì)對(duì)網(wǎng)絡(luò)的負(fù)荷,存儲(chǔ)空間的大小,事件處理服務(wù)器的運(yùn)算能力都有極高的要求。而且這類分析模式由于事件的雜亂性,后期的分析效率比較低,容易造成事件風(fēng)暴來(lái)困擾管理人員。
這類事件處理方式主要用于對(duì)于事件需要進(jìn)行精細(xì)分析,而對(duì)于投資并不敏感的用戶,例如:電信運(yùn)營(yíng)商等。
2.2、主動(dòng)分析事件模式
主動(dòng)分析事2.件模式是指:在系統(tǒng)預(yù)先建立好事件的發(fā)現(xiàn)模式,根據(jù)管理人員的要求,主動(dòng)的去采集一些事件,然后進(jìn)行分析。這類處理模式發(fā)起端通常在事件處理中心以SNMP輪詢的方式通過(guò)一個(gè)或者多個(gè)線程來(lái)進(jìn)行事件采集。把這些數(shù)據(jù)采集回來(lái)以后,然后再由事件中心進(jìn)行事件分析,關(guān)聯(lián),壓縮等等動(dòng)作。
這類事件處理模式的優(yōu)點(diǎn)是,事件的產(chǎn)生量小,對(duì)于資源的效率量大大的降低。而且由于是預(yù)先建立的事件發(fā)現(xiàn)模式,對(duì)于分析這些事件相對(duì)效率提高很多,最明顯的優(yōu)點(diǎn)是簡(jiǎn)單、明確。這類事件處理模式的缺點(diǎn)恰恰是被動(dòng)事后分析模式的優(yōu)先,由于是預(yù)先定義的事件采集模式,并不是所有的事件都進(jìn)行采集,這樣就有可能會(huì)產(chǎn)生遺漏。
這類事件處理方式主要用于對(duì)于事件需要進(jìn)行廣度分析,對(duì)于事件的類型并不是太復(fù)雜,基本通過(guò)工作中的經(jīng)驗(yàn)推斷一些事件的發(fā)生的。例如:企業(yè)用戶等。
3 靈活的事件輸出
事件發(fā)生后,的事件輸出最為重要的是通知相關(guān)的人員,這是整個(gè)事件輸出的首要任務(wù)。在這個(gè)前提下事件中心應(yīng)提供靈活的報(bào)警定義,可滿足各種業(yè)務(wù)需求。管理人員可以根據(jù)監(jiān)控需要,定義故障事件是否觸發(fā)報(bào)警、發(fā)送給哪個(gè)角色或人員、以及發(fā)送的時(shí)間段、發(fā)送的內(nèi)容等等 。用戶還可設(shè)置多種報(bào)警方式,當(dāng)事故發(fā)生時(shí),不僅以傳統(tǒng)方式習(xí)慣的彈出式窗口方式來(lái)進(jìn)行通知用戶,還可通過(guò)短信、語(yǔ)音、郵件等多種報(bào)警方式,全面及時(shí)的通知用戶。這樣就覆蓋到客戶的對(duì)于事件輸出的個(gè)性話需要,管理人員可以自由的組合某個(gè)事件告警可以在不同的時(shí)間范圍內(nèi),通過(guò)不同的輸出方式,給到不同的人員,顯示出不同的事件描述語(yǔ)句。甚至是在管理人員在未確認(rèn)接受到事件的情況下,事件能定時(shí)重復(fù)送達(dá),以保證相應(yīng)的管理人員能收到事件內(nèi)容。
4 事件的后續(xù)處理機(jī)制
4.1、提供處理意見(jiàn)
事件通知到管理員后能,按照通常的做法只是提高一個(gè)事件的內(nèi)容就完成了事件告知的任務(wù),但是從管理的角度上來(lái)說(shuō),都經(jīng)常說(shuō)要提供一個(gè)知識(shí)庫(kù)之類的說(shuō)法,但是這種知識(shí)庫(kù)都是結(jié)合在系統(tǒng)中的,還需要管理人家進(jìn)行檢索和查詢并進(jìn)行分析后才能找到相應(yīng)的解決方案。但是我們換一個(gè)思路來(lái)想問(wèn)題,如果在事件的告知的同時(shí)系統(tǒng)就能夠提供出相應(yīng)的事件處理意見(jiàn)將會(huì)為管理人員節(jié)省大量的時(shí)間,能夠更高效率的處理問(wèn)題。
4.2、主動(dòng)定位故障位置
當(dāng)我們了解到業(yè)務(wù)服務(wù)發(fā)生故障的時(shí)候,首先我們是想是不是能快速的進(jìn)行故障的定位處理,只有故障進(jìn)行了準(zhǔn)確的定位。接下來(lái)才有可能談起故障的排除和恢復(fù)。
對(duì)于故障的定位,我們最長(zhǎng)見(jiàn)的做法可能是直觀的看告警信息,當(dāng)然這對(duì)于一些比較容易判斷比較簡(jiǎn)單的故障可以這樣看待。例如:某設(shè)備的溫度過(guò)高,直接的處理辦法就是調(diào)整這個(gè)區(qū)域的空調(diào)的溫度控制值,以達(dá)到合理的工作范圍。這樣的判斷是最簡(jiǎn)單的,但是不幸的是經(jīng)過(guò)統(tǒng)計(jì)這樣簡(jiǎn)單的判斷在整個(gè)事件處理的比例里面占有不到15%。
更多故障是無(wú)法通過(guò)告警信息來(lái)進(jìn)行判斷的,是要通過(guò)管理人員的經(jīng)驗(yàn)和排查才能解決這些看似乎簡(jiǎn)單的問(wèn)題。
4.3、自動(dòng)啟動(dòng)應(yīng)急預(yù)案
事件的發(fā)生是復(fù)雜的,但是又是具有一定的規(guī)類的。在實(shí)際的運(yùn)維工作當(dāng)中發(fā)現(xiàn)在一些特定的事件發(fā)生后,只要制定相應(yīng)的結(jié)合應(yīng)急預(yù)案就能在第一事件內(nèi)通過(guò)一些自動(dòng)化的手段來(lái)快速的恢復(fù)服務(wù)的問(wèn)題。
特點(diǎn):
支持監(jiān)控密度可更改的各類信息點(diǎn)監(jiān)控,包括所有可訪問(wèn)的SNMP MIB信息點(diǎn),包括所有BTIM 支持的各類應(yīng)用、主機(jī)、中間件、數(shù)據(jù)庫(kù)參數(shù)點(diǎn)
支持針對(duì)性附加解決方案,支持定義事件的影響度、緊急度
提供接口規(guī)范,支持第三方事件檢測(cè)程序的聯(lián)入
支持事件的過(guò)濾
支持各類檢測(cè)手段的組合判斷,預(yù)置事件分析方法
通過(guò)告警關(guān)聯(lián)與抑制,提供更廣泛的層次化高級(jí)智能事件分析能力
支持多渠道(語(yǔ)音、短信、E_mail、屏幕、第三方程序)的故障告警輸出,不同對(duì)象、不同時(shí)段通過(guò)不同渠道可以得到附加處理意見(jiàn)的不同事件告警信息
支持事件直接驅(qū)動(dòng)預(yù)置處理,聯(lián)動(dòng)故障斷網(wǎng)隔離處理
除支持門限式事件檢測(cè)外,BTIM 支持基線告警管理