使用Nagios實現網絡監控 續
好啦!開始講述第二部分:使用Nagios實現網絡監控
歡迎來到Nagios的世界,這是一個開放源碼的網絡監控工具。除了免費之外,Nagios還擁有強大的功能和可伸縮性,它能夠使用自動化的網絡監控為IT管理節省大量的時間。
在這一部分,我將向你展示一個Nagios配置的例子。而在此篇文章的第一部分,我們已經討論過Nagios的有效性和它的體系結構。查看第一部分
Nagios配置
就像我們在第一部分討論的一樣,配置在成功部署Nagios中扮演著重要的角色。Nagios的配置結構在概念上相當直截了當,但需要特別注意一些細節。本質上,需要分層定義主機和服務,還要定義需運行何種檢查和在檢查失敗后要進行的操作。
這里是一個主機配置文件記錄的例子:
- define host{
- host_name linux-server
- alias linux-server
- address 192.168.1.254
- check_command check-host-alive
- max_check_attempts 5
- contact_groups linux-admins
- notification_interval 30
- notification_period 24x7
- notification_options d,u,r
- }
多數記錄都是不解自明的。機器有名字(name),地址(address),需要運行的檢查(check_command check-host-alive),以及在確定存在問題前,所要運行的最大檢查次數。如果存在問題,根據上面的配置,linux-admins組將不分白天與黑客(24x7),在每個小時的第30分,會收到警告信息。因此為了這種方法,機器必須進行自身檢查,以取包自己持續運行。
這里還有一個服務器配置文件記錄的例子:
- define service{
- host_name linux-server
- service_description check-disk-sda1
- check_command check-disk!/dev/sda1
- max_check_attempts 5
- normal_check_interval 5
- retry_check_interval 3
- check_period 24x7
- notification_interval 30
- notification_period 24x7
- notification_options w,c,r
- contact_groups linux-admins
- }
同樣,多數的記錄條目都很容易就能夠被理解。此服務器運行于在遷移個例子中定義的主機之上(服務必須有一個條目,指明他們所屬于的服務器)。然后是服務的描述以及檢查它是否持續正常運行的命令,還有需要運行的最大檢查次數等等。
一個明顯的問題是,“現在我已經正在監控我的所有將建和軟件,但我怎樣才能夠發現或找出發生了什么?”除了在每個配置記錄(notification_options條目)中定義的問題警告提醒機制之外,Nagios還提供了大量可重寫的CGI腳本來提供監視信息;本質上,可以提供一個系統信息的儀表板(dashboard)。這些腳本提供的有整個系統的狀態、網絡問題、趨勢等等。在儀表板信息和警告提醒之間,Nagios允許你采取更加超前的方法來管理你的IT基礎設施。回到第一部分
【編輯推薦】