監(jiān)控系統(tǒng)五大必備特性匯總
譯文【2013年11月28日 51CTO外電頭條】縱觀我們部署在基礎(chǔ)設(shè)施當(dāng)中并始終保持運(yùn)作的全部測(cè)量機(jī)制,監(jiān)控系統(tǒng)無(wú)疑是重要性最高的機(jī)制之一,但它卻常常遭到我們的忽視。如果能夠建立起一套堅(jiān)實(shí)的監(jiān)控系統(tǒng)來(lái)針對(duì)可能發(fā)生的災(zāi)難加以警示,我們就有機(jī)會(huì)迅速啟動(dòng)災(zāi)難響應(yīng)方案或者著手排除復(fù)雜的性能故障,這對(duì)于任何規(guī)模的企業(yè)而言都極具巨大的實(shí)際價(jià)值。然而,應(yīng)用程序部署時(shí)間表與基礎(chǔ)設(shè)施升級(jí)的壓力往往令管理員們疲于應(yīng)對(duì),甚至因此將監(jiān)控系統(tǒng)的部署與維護(hù)拋在腦后。
不過(guò)這也難怪。無(wú)論大家實(shí)際購(gòu)買(mǎi)的是什么樣的監(jiān)控系統(tǒng),都很少能碰到交鑰匙方案--也就是那種設(shè)置之后就不必另行管理的廊。除非大家的實(shí)際業(yè)務(wù)環(huán)境簡(jiǎn)陋到及點(diǎn),否則在監(jiān)控所有重要細(xì)節(jié)信息的同時(shí)又要淘汰不必要的干擾與誤報(bào),這很可能成為工作量龐大而又相當(dāng)耗時(shí)的任務(wù)。
我們需要有能力對(duì)方案進(jìn)行規(guī)模調(diào)整,并確保自己花在上面的時(shí)間最終帶來(lái)相應(yīng)的回報(bào),這非常重要。根據(jù)個(gè)人多年來(lái)與眾多開(kāi)源及封源監(jiān)控堆棧打交道的經(jīng)驗(yàn),我匯總出了以下五項(xiàng)必備特性、從而保證監(jiān)控軟件包能夠在經(jīng)過(guò)配置之后順利應(yīng)對(duì)復(fù)雜的業(yè)務(wù)環(huán)境。如果大家發(fā)現(xiàn)自己部署的監(jiān)控系統(tǒng)不滿足其中的某些要求,那最好是在嚴(yán)重問(wèn)題發(fā)生之前盡快著手處理,否則后果不堪設(shè)想。
監(jiān)控必備特性第一位:多重冗余機(jī)制?
大多數(shù)監(jiān)控系統(tǒng)都會(huì)利用一套軟件服務(wù)來(lái)實(shí)際數(shù)據(jù)的收集與檢測(cè)。在某些情況下,這項(xiàng)數(shù)據(jù)收集服務(wù)可能與系統(tǒng)使用同一套警報(bào)機(jī)制以及用戶界面。但另一些系統(tǒng)所采用的收集服務(wù)則屬于獨(dú)立軟件,甚至不止一種。很明顯,允許大家部署多種收集方案并集中對(duì)其進(jìn)行管理的系統(tǒng)要遠(yuǎn)優(yōu)于不支持這些功能的系統(tǒng)。
這樣的評(píng)價(jià)基于兩大主要原因。首先,大家可以建立一些冗余機(jī)制、這樣當(dāng)災(zāi)難發(fā)生時(shí)也只會(huì)影響某一種數(shù)據(jù)收集方案。其次,對(duì)同樣的內(nèi)容擁有多種審查視角擁有非常現(xiàn)實(shí)的意義。特別是對(duì)于規(guī)模更大的廣域網(wǎng)來(lái)說(shuō),如果每個(gè)站點(diǎn)都擁有獨(dú)立收集方案、那么其收效將非常巨大--因?yàn)檫@樣一來(lái)我們就能輕松區(qū)分到底是整體網(wǎng)絡(luò)出了問(wèn)題還是單一站點(diǎn)發(fā)生故障(而且數(shù)據(jù)采集即使在廣域網(wǎng)中斷時(shí)仍能持續(xù)進(jìn)行)。
監(jiān)管必備特性第二位:出色的圖形功能?
任何一套稱(chēng)職的監(jiān)控系統(tǒng)都必需擁有出色的圖形引擎。這并不僅僅意味著能為使用者提供流暢的線條與漂亮的色彩搭配,當(dāng)然這些也確實(shí)值得關(guān)注。如果大家曾經(jīng)使用過(guò)監(jiān)控系統(tǒng)來(lái)解決性能問(wèn)題,就會(huì)在實(shí)踐中意識(shí)到這種對(duì)多個(gè)圖形進(jìn)行排列、縮放、擴(kuò)展乃至平移的能力是多么重要。
設(shè)想一下,大家正嘗試找出導(dǎo)致某個(gè)多層Web應(yīng)用程序速度降低的根源。如果能夠?qū)⒋罅靠此苹ゲ幌嚓P(guān)的圖形(例如存儲(chǔ)延遲、網(wǎng)絡(luò)吞吐量、每秒數(shù)據(jù)庫(kù)處理量等等)堆疊起來(lái),并通過(guò)直觀比較從它們的相關(guān)性中找到需要的答案。
監(jiān)控必備特性第三位:便捷的事件抑制
對(duì)于任何一套監(jiān)控系統(tǒng)來(lái)說(shuō),最糟糕的狀況就是由于已知或者意料之中的問(wèn)題而引發(fā)了誤報(bào)以及后續(xù)應(yīng)對(duì)措施。如果每一次手機(jī)接到的短信都在用80個(gè)字來(lái)描述同一件事,那么我們很可能失去耐性而錯(cuò)過(guò)監(jiān)控系統(tǒng)所通知的真正重點(diǎn)--甚至有可能在毫不知情的狀態(tài)下令事態(tài)步步惡化。有鑒于此,快速抑制我們已經(jīng)了解且重要度不高的事件就成了一種非常重要的能力。
同樣重要的是,我們還需要有能力抑制來(lái)自特定來(lái)源的事件--例如大家非常清楚當(dāng)下的某些維護(hù)或者升級(jí)工作必然要引發(fā)某些錯(cuò)誤。我就遇到過(guò)這樣的狀況,有好幾次已知升級(jí)流程都在其它系統(tǒng)中引發(fā)了意料之外的次生影響,但大家過(guò)了很長(zhǎng)時(shí)間才發(fā)現(xiàn)這些影響--因?yàn)楸O(jiān)控系統(tǒng)將其自動(dòng)忽略了。如果能在監(jiān)控系統(tǒng)中創(chuàng)建一個(gè)始終位于前端的計(jì)劃停機(jī)時(shí)間窗口,那么一切都會(huì)變得大不相同。
監(jiān)控必備特性第四位:多川數(shù)據(jù)收集方法
大家可以通過(guò)多川方法從基礎(chǔ)設(shè)施當(dāng)中獲取信息。幾乎每一套監(jiān)控軟件包都支持基礎(chǔ)型選項(xiàng),例如檢測(cè)正常運(yùn)行時(shí)間的ICMP ping、收集網(wǎng)絡(luò)統(tǒng)計(jì)信息的SNMP以及從Windows設(shè)備中提取事件日志數(shù)據(jù)的WMI等。這些基礎(chǔ)方法 曾經(jīng)廣泛覆蓋絕大多數(shù)主流系統(tǒng)。然而時(shí)至今日,SNMP已經(jīng)被其它更具現(xiàn)代特性的監(jiān)控及管理接口所取代,最典型的就是WBEM以及CIM。事實(shí)上,很多供應(yīng)商已經(jīng)開(kāi)始徹底放棄對(duì)SNMP支持并轉(zhuǎn)向CIM,而且這一趨勢(shì)將隨著時(shí)間的推移而不斷加速。
除了新協(xié)議對(duì)SNMP的取代,還有其它一旬查詢類(lèi)型前來(lái)援助。例如能夠直接執(zhí)行SQL查詢并計(jì)算執(zhí)行時(shí)間或?qū)徱暺漭敵鼋Y(jié)果,監(jiān)控某項(xiàng)Web服務(wù)對(duì)特定HTTP的響應(yīng)或者響應(yīng)代碼,甚至可以根據(jù)特定條目掌控日志文件中的對(duì)應(yīng)文本內(nèi)容。總而言之,我們工具箱里的工具種類(lèi)越多,我們就越可能擁有掌握重要細(xì)節(jié)信息的能力。
監(jiān)控必備特性第五位:簡(jiǎn)化集成與擴(kuò)展
無(wú)論大家打算利用監(jiān)控系統(tǒng)執(zhí)行或者忽略哪些任務(wù),將其擴(kuò)展或者與其它系統(tǒng)相集成的能力都是非常重要的--這意味著我們最終能夠保住自己部署并花在這套系統(tǒng)上的所有時(shí)間與精力。盡管很多監(jiān)控系統(tǒng)都能夠很好地完成本職工作,但它們并不是在每項(xiàng)任務(wù)上都能出色發(fā)揮。有時(shí)候獲取必要信息的惟一辦法就是編寫(xiě)一套特定解決方案或者使用另一種工具。在這類(lèi)情況下,監(jiān)控系統(tǒng)通過(guò)擴(kuò)展或集成與其它軟件協(xié)同合作的能力就成了重中之重。這可能表現(xiàn)為可以在其中運(yùn)行外部腳本并實(shí)現(xiàn)內(nèi)部解析,或者與另一套票據(jù)管理平臺(tái)相集成。
終而言之,具體選擇使用哪一套監(jiān)控方案取決于我們希望依靠它來(lái)完成哪些任務(wù)。某些方案在監(jiān)控Linux環(huán)境方面表現(xiàn)出色、另一些則更適應(yīng)在Windows環(huán)境下發(fā)揮作用。還有一些針對(duì)網(wǎng)絡(luò)及基礎(chǔ)設(shè)施所打造,而不太擅長(zhǎng)打理應(yīng)用程序。不過(guò),無(wú)論大家最終作出怎樣的選擇,都應(yīng)該與前面所提到的五點(diǎn)內(nèi)容加以印證--這些通用特性與實(shí)際運(yùn)行環(huán)境并無(wú)關(guān)聯(lián)。
如果大家目前正在使用或者將來(lái)打算使用的方案不符合上述要求,也許另尋答案才是最好的辦法。監(jiān)控系統(tǒng)非常重要、將其融入工作流的過(guò)程也需要耗費(fèi)大量時(shí)間,因此請(qǐng)朋友們慎重考量、認(rèn)真評(píng)估。
原文鏈接:http://www.infoworld.com/d/data-explosion/5-must-have-capabilities-every-monitoring-system-231597