助力云環境標準運行:三種能救急的網絡監控工具
譯文云監控服務可以收集提供商的生態系統里面服務器、存儲系統及其他服務的一系列性能數據。遺憾的是,這些工具擁有的網絡監控功能常常很有限,這就意味著它們發現不了你的云環境中的嚴重性能問題。為了密切關注你的網絡,并且發現潛在問題,應該使用成熟可靠的網絡監控工具,以便跟蹤并報告性能方面更深入的數據。
網絡監控工具分為三個類別:基本監控、可視化及報告以及高級的異常檢測。先進的產品擁有涵蓋多個類別的功能特性。但是如果你關注可視化或高級的異常檢測和安全,不妨特別留意單個產品中的那些功能特性。
能完成任務的基本的網絡監控工具
Nagios是一款開源網絡監控工具,它一向以用起來難度大而著稱,不過功能也很全面。它可以捕獲網絡協議,監控網絡服務,并且通過短信、電子郵件或執行自定義腳本來生成警報。報告模塊詳細地記載了以往的服務停運事件以及這些停運事件的應對措施。
對于想要Nagios的監控功能,但是又不需要管理方面學習新知識的那些用戶來說,基于Nagios的第三方實用工具也許是合適的選擇。借助Opsview Ltd.等公司提供的服務,你就能獲得先進的功能特性、服務支持以及幾種不同的方案:從免費的開源核心方案到企業級方案,不一而足。后者包括統一儀表板、企業報告以及多臺分布式主服務器整合數據的功能。
面向IT基礎設施(包括網絡監控)的另一種開源方案來自Zabbix ISA。借助Zabbix監控工具,管理員就能夠收集服務器和網絡設備方面的詳細的度量指標。它提供了可視化功能,可以顯示采用易于評估的格式的大量數據。代理能夠實現分布式監控,并且同時提供了基于代理的監控方案和不需要代理的監控方案。
分析大量數據的可視化工具
網絡監控服務面臨的挑戰之一在于,它會生成大量的數據。報告工具可以對數據進行過濾并整合處理。可視化可以整合大量數據,并且清楚地呈現數據,從而顯示存在的顯著關系。
說到可視化,云管理員可以想使用PRGT之類的開源網絡監控工具,這種基于RRDtool而建的工具可用于數據日志和應用程序繪圖。Paessler為PRTG提供了商業支持。Cacti是另一種基于RRDtool的可視化工具,可以從AWS Marketplace合作伙伴JumpBox處獲得。Cacti包括一個界面,可以支持圖形模板和多種數據采集方法。
提高更高級網絡監控的異常檢測
不過,光靠可視化手法并不總是夠用。網絡流量中的一些模式比較細微。比如說,平均流量模式方面的變化可能表明有問題,但是在典型的管理報表和可視化圖表中并不顯示出來。這就需要采用異常檢測手法。異常檢測應用軟件可以識別偏離預期范圍的網絡行為,從而提供更高級的搶先式監控。
異常檢測對需要應用程序和網絡性能一致的服務來說很重要。成功的營銷活動會給網絡帶來訪問量激增的情況。即便部署了負載均衡系統,客戶訪問還是有可能存在延遲增加的問題。像Numenta的Grok這些工具就能識別訪問量激增及其他異常現象。
理想情況下,如果啟用了自動擴展功能,你的應用程序就會自動為起用集群添加節點,從而處理增加的負載。諸如Grok之類的工具就能識別潛在的性能問題,讓系統管理員能夠手動添加額外的服務器,或者確保自動擴展機制能夠積極應對增加的負載。