服務器監(jiān)控百家談:趨勢分析是關鍵
原創(chuàng)【51CTO 9月7日外電頭條】為了對設備做出某些調(diào)整,解決某些當前的問題,或者為了劃分出修復和更新?lián)Q代在預算方面的優(yōu)先級,管理員們必須要對他們的設備的運行的情況進行評估。因為數(shù)據(jù)中心的設備主要由服務器組成,所以,不言而喻,對于那些需要隨時關注數(shù)據(jù)中心的資產(chǎn)的管理員們來說,服務器監(jiān)控是一個關鍵性的領域。
51CTO推薦專題:Linux監(jiān)控工具的展覽館
但是,監(jiān)控并不只是捕獲幾個參數(shù)數(shù)據(jù)和當警告發(fā)生的時候做出響應那么簡單。管理員們必須要確保服務器監(jiān)控是有效的,并且可以提供相關的,有用的信息。這項工作的關鍵是盡量緩解一些可能會出現(xiàn)的問題,這些問題可能會干擾服務器的監(jiān)控的順利進行。
使用趨勢
和服務器的監(jiān)控相關的一個問題是,許多工具都提供了大量的數(shù)據(jù),但是并沒有提供太多的可用信息。沒有可用的信息,管理員們不可不浪費大量的寶貴時間從一堆“雜亂無章的數(shù)據(jù)”中分離出和自己相關的一些信息。
Zenoss公司社區(qū)部門的副總裁Mark Hinkle說:“解決這個服務器監(jiān)控的問題的關鍵是趨勢。只通過服務器的監(jiān)控工具來處理‘故障-修復’情況的管理員們,并不須要影響最終用戶。監(jiān)控磁盤的使用情況可以在故障發(fā)生以前看出容量存在問題。例如,一些監(jiān)控解決方案提供了趨勢分析的工具,你可以通過一些使用模式來預測出哪個存儲容量的上限即將到達。”
LogicMonitor的創(chuàng)始人兼CEO Steve Francis說:“許多系統(tǒng)都只依靠‘基于閥值’的監(jiān)控,幾乎沒有提供任何趨勢分析的功能。”Francis接著強調(diào):“被監(jiān)控的每一件事情都應該被趨勢化。實際上,為了提供一些幫助解決問題的信息,許多事情都應該被趨勢化,而不是發(fā)出警告。”Francis舉了一個新的應用程序發(fā)布的例子:如果應用程序執(zhí)行的比較慢,然后觸發(fā)了一個監(jiān)控警告,通過這個監(jiān)控警告,管理員們應該可以判斷這個新版本是否導致了應用程序性能的突然降低,或者這個應用程序是否隨著負載的增加而逐漸變慢。
選擇合適的監(jiān)控指標/工具
管理員們和數(shù)據(jù)中心的工作人員都很清楚這樣一個事實:監(jiān)控工具可能會把用戶淹沒在數(shù)據(jù)的海洋中。在這些數(shù)據(jù)中,有些是有用的,有些可能并沒有什么用。要解決這個問題,不僅僅需要趨勢,還需要選擇合適的監(jiān)控指標。
Logicalis公司的外包業(yè)務主管Mike Alley說:“對于高效率的生產(chǎn)服務器管理來說,主要需要關注的事情是如何確保監(jiān)控工具只報告關鍵性的指標,這些指標可以提供和服務器的健康程度關系最密切的一些信息。”Alley接著說:“大多數(shù)的工具都會產(chǎn)生很多的無關事件,這會把監(jiān)視控制臺淹沒在事件的海洋里,這導致的直接后果是:用戶很難對關鍵性的事件引起注意。”
他補充道:“你可以從和CPU,內(nèi)存,網(wǎng)絡和存儲相關的一些性能指標開始監(jiān)控,它們都是很不錯的出發(fā)點。管理員們還應該監(jiān)控和服務器,系統(tǒng)日志,系統(tǒng)進程相關的硬件級的管理產(chǎn)品探測到的一些事件。管理員們應該定期檢查監(jiān)控工具報告的事件,然后篩選出那些事件會對用戶造成影響,哪些事件是不需要理睬的。當然,那些會對用戶造成影響,但是并沒有被監(jiān)控工具探測到的事件也應該檢查,雖然監(jiān)控工具并沒有探測到這個事件,但是和這個事件相關的特定的指標應該已經(jīng)被監(jiān)視到了。”
Uptime Software的解決方案架構師Kenneth Cheung說:“各種工具都會對很多指標進行監(jiān)控,這很正常。關鍵是要找到這樣一個監(jiān)控解決方案,它可以快速地把故障和事故與相關的設備和應用程序?qū)饋怼?rdquo;另外,他還補充道:“監(jiān)控工具應該指出哪些問題需要優(yōu)先處理,哪些設備設備需要優(yōu)先關注。有了這樣的功能,管理員們可以立即判斷出哪個問題需要立刻引起注意。”
自動化
如果一個監(jiān)控工具不通過自動化的方式來簡化警告的處理流程,而只能通過人工的方式來處理,這會浪費很多的時間,而且還可能會由于一個故障處理的不及時讓情況變得更糟。這點在51CTO之前發(fā)布的網(wǎng)站運維之道 監(jiān)控與報警機制一文中也有過詳細的描述。
Hinkle說:“當一個故障發(fā)生的時候,發(fā)送一個頁面或其他的警告通常會引發(fā)一系列的事件:一個管理員收到了一個頁面,登陸到服務器,然后再診斷這個問題。這個過程可能會花費幾分鐘的時間或者更長的時間。”他接著補充道:“在大多數(shù)情況下,監(jiān)控工具可以啟動一個進程,自動地修復這個問題。”他說:“例如:一個監(jiān)控工具可以探測到一個服務器故障,然后使用一個自動化的工具來重新啟動那個服務器,這樣修復這個故障的時間會縮短很多。”
LogicMonitor的Francis說:“如果你的監(jiān)控系統(tǒng)不能自動地探測到服務器,應用程序和設備的改變,那么你相當于沒有做監(jiān)控。原因是,在危急關頭,通常會對服務器和系統(tǒng)會做出很多的改變,如果管理員們依靠人工的方式來處理,那么可能會遺漏掉一些關鍵性的變更。”
把監(jiān)控和最終用戶聯(lián)系起來
服務器監(jiān)控的最終目標是要確保關鍵性的業(yè)務應用程序持續(xù)正常地運行。這意味著服務器監(jiān)控和最終用戶的體驗有很大的關系。
Uptime Software的Cheung說:“管理員們還應該監(jiān)控和最終用戶的應用程序相關的一些服務器和軟件指標。管理員們需要監(jiān)控服務器的運行情況和那些服務器上的軟件的運行情況,但是最重要的事情是要把這些指標和最終用戶關心的事情聯(lián)系起來——那就是他們的應用程序是否在正常地運行。”Cheung接著說:通過以應用程序為中心的視角,可以讓問題解決者把注意力集中在用戶說了些什么和允許創(chuàng)建哪些警告上,還可以讓自動化的活動更加有相關性和目的性。
【51CTO.com譯稿,轉(zhuǎn)載請注明原文作譯者和出處。】
原文:Solve Server Monitoring Problems
【編輯推薦】