美信云網管晉級第六步:實時報告幫助排憂解難
使用美信CreCloud云網管的同學多數都是技術出身,這對于快速掌握美信CreCloud云網管來說當然是得天獨厚的優良基礎。然而現在IT行業基本是為市場服務,如何能夠讓我們在市場人員和老板的眼中體現出價值,就需要我們把自己的工作更好的展現出來。
繁冗的日志報表顯然不是非技術人員愿意看到的,如何更快、更簡潔、更專業的表明自己的意圖,才是最為重要的。
作為運維人員,老板有時會提出一些稀奇古怪的東西,或者其他部門出現了問題把責任怪罪到你頭上。你應該如何申辯?把事實通過匯報的形式表現出來,能讓非技術的他們看得懂,同時也要體現出專業性,不能干巴巴幾句話,也就是所謂的“舉證要充分”。
今天我們就來學習一下,通過美信CreCloud云網管強大的圖表功能,為自己的匯報總結做出“充分的舉證”。
前幾日,部門接到業務部門的一個緊急事件通告,問題的狀況是某兩臺服務器(0.176、0.61)之間隨機性的ping失敗,每次持續10分鐘左右。業務部門懷疑基礎網絡這塊存在故障,希望我們給與排查和處理。
接到通告后,我們首先是發郵件通知業務部門,告之我們會盡快處理。很慶幸的是,之前已經通過美信CreCloud云網管對著兩臺服務器有過監測,對CPU、內存、網絡流量、磁盤空間以及ping都做了監測點。
首先檢查美信CreCloud云網管中0.176的服務器狀態。通過圖表可以看出,沒有任何報錯的項目。
考慮到業務部門是隨機性的出現10分鐘左右的中斷,如果機器存在硬件故障,那么美信CreCloud云網管肯定也會有所體現。美信CreCloud云網管對ping值的反饋是默認每2分鐘一次,3000ms算超時,7*24小時任務制。我們查看ping的監控點,同時自定義發生故障的日期,可以查看到在此期間,ping的服務成功率是100%,同時相應時間最長也不超過8ms,并沒有發現如業務部門所說的情況。
繼續檢查CPU利用率的情況,發現利用率較低,同時服務成功率也是100%。
在物理內存方面的檢測依然沒有發現任何問題。
以同樣的方法在0.61的服務器上進行了排查,結果和上面的并無二致。因此可以判斷問題并不在網絡硬件方面。
最終與業務部門共同檢查,發現問題出在“應用”上。0.176上跑的是業務部門自己寫的一個服務。于是我們將該服務添加到美信CreCloud云網管的監控點上繼續排查故障。最終發現該服務隨機性的掛死,在測試的兩個小時內,服務就掛掉了兩次。(在圖表中,實心區域是正常時間段,空心區域是服務失敗的時間段。)
在監測數據列表中,還可以查看到發生故障狀態的具體時間,以及持續時間等詳細信息。
從業務部門提出疑惑,到我們給出專業的答案,整個過程不超過1個小時。領導對我們解決問題的速度和專業性提出了肯定。而這個過程中,美信CreCloud云網管這種高效的工作機制和準確簡單的圖表可以說是功不可沒。通過美信CreCloud云網管的圖表數據,我們和業務部門找到一種更快捷也更準確的溝通方式。