你應該知道的Nagios技巧
Nagios技巧之監控數據庫:
圖-Nagios
大家用Nagios一般是用來監控內網的機器,其實如果網絡情況良好的話,它用來監測公網的機器也是可行的;我們以前用來監測我們公網的28臺SQL Server2008數據庫(電信對電信),事實證明,效果也是可以的。
nagios不僅僅可以檢測linux/unix服務器的即時狀態,而且檢測windows服務器效果也是非常好的;配置熟練的話,我感覺在windows下配置nsclient也是非常方便的,不過記得開啟windows防火墻的12489端口,記得檢測一下;什么,不會?你在別的機器上telnet windows機器IP 12489,依此狀態來檢測你的windows到底開啟了12489端口沒有;
大家的業務網站最好置于自己機房內,這是因為nagios對于內網監控效果是非常好的;因為nagios是依靠ping來檢測服務器是否存活的,如果網絡情況不好或別的原因造成nagios檢測不到監測服務器的話,會造成一個啼笑皆非的問題,它會狂報警,說此服務器已宕機,非常critical;但事實上此服務器情況良好,僅僅只是跟nagios機器的網絡不通而已;這種情況希望大家能甄別下。
如何正確判斷我們的網站是否真正的掛掉了呢?nagios其實只能即時檢測你的服務器情況,如果是你的防火墻或機房都掛掉了呢,這種情況怎么辦呢?建議大家可購買一項即時掃描的服務(如Alertbot),它會即時掃描你的網站,如果遇到問題也會向我們的郵箱發送郵件;如果你的郵箱同時收到Alertbot和nagios的報警,一定要慎重對待。
有時我們的系統組有這個需求,特別是系統繁忙時希望能留下日志,以供分析:到底是受到了攻擊,還是開發人員設置不當,亦或是運維人員改動了系統配置等。機器少時可能問題不大,但公司的CDN服務器集群是一百多臺,目前看形勢還在增長,所以我們設計了nagios+vmstat的shell腳本來作Nagios的方式,在系統繁忙時分離出日志,供系統組同事們一起分析問題,得出問題的癥結所在,具體可參考我在51cto.com的其它文章,這里就不重復敘述了。
短信報警這塊我沒有用短信貓,但我推薦大家可以用飛信試下效果;我這邊因為有更好更簡便的辦法,所以我暫時沒采用短信貓和飛信;不是說這些不好,而是我嫌其繁瑣了。
我們這邊的system admin一直是采用移動的139郵箱來接收nagios的報警郵件,效果一直都很好;不過好像是全球通的效果最好,如果是神州行或動感地帶的,效果也是很不好,時常收不到報警郵件。因為我看見同事用的全球通效果不錯,我特的也去買了神州行的卡,結果杯具了,居然收不到報警短信。而我一直用的是聯通的如意通手機,只有一開始收到短信,其余時間基本無視nagios的存在了。后來我一狠心算了款黑莓的商務手機,開通了手機郵,直接將我的163郵箱綁定了我的聯通手機號才算是徹底解決了手機報警短信的問題;這些方法都不錯,有興趣的朋友們都可以嘗試下;
nagios可以結合cacti或MRTG等流量監控軟件一起來查找系統故障等,也可以結合awstats來分析Apache或postfix日志,不過我現在嫌awstats配置過于繁瑣,直接用shell腳本來分析的。
如果有某臺服務器的某一項,比如我們的jail,本來就是8臺子虛擬機一起用于線上環境,負載很大,但Nagios就不停的報警,認為這是不正常的,搞得人很煩燥,這時直接就可以點中此服務器的負載項,然后選擇” Disable notifications for this service”,世界清靜了。我們直接用FreeBSD的jail用于線上環境,由于配置起來很方便和高效,但jail有個缺點,由于下面的子機全都是共用原宿機的cpu和內存及磁盤,任何一臺子jail機的負載過高或使用磁盤空間,都會導致原宿機的nagios報警;這個目前也沒有什么好的辦法,只能盡量優化吧。
個人上班時需要實時關注監控服務器主機及服務的 Nagios系統,覺得需一直開著一個網頁頁面自動刷新,感覺有點麻煩、而且浪費資源。雖說同事有分享一款Nagios輔助小軟件,可以最小化到任務欄,有異常時會有浮動提示窗口,挺方便的。但是對于自己一向喜歡盡量將所有東西都嵌入到瀏覽器中進行操作的癖好者,便更希望能找到一款Firefox插件來實現類似于此輔助軟件的功能,這插件即是Nagios Check插件。(這里提及一些題外話:不知為何如今自己越來越依賴于瀏覽器,想把所有的事情工作、生活涉及到的東西都看能不能只打開一個瀏覽器便可操作完成,而盡量不用開太多的應用程序,即將盡量多的應用程序使用插件功能進Firefox瀏覽器中進行使用)安裝方法非常簡單,不過在IE或chrome上一直沒找到相關的插件,這不是不說是一種遺憾了。各人有各人的辦法,這里就不多費篇幅了, 其效果圖如下(注意右下角):
作者注:如果是業務系統的網站服務器開啟了iptables或ipfw,記得允許nrpe插件的默認5666數據包通過;我的網站因為一般有硬件防火墻,所以我在其內部都關閉了iptables和ipfw。
通過文章,我們又學會了一招:用Nagios監控數據庫!
【編輯推薦】
- Solaris下的nagios監控系統
- Nagios服務器的自我監控實現
- 限制Nagios報警次數用escalations
- Nagios監控服務器的配置
- Nagios監控Windows客戶端
- Ubuntu下安裝運行Nagios
- 運維監控Nagios:啟動服務