專訪九叔:系統運維人員如何解決突發性故障?
原創任何計算機系統都有出現故障的時候,可能發生在測試階段,也可能發生在系統剛剛上線,還可能發生在已經穩定運行很多年的系統上。這些系統出現故障所帶來的負面影響可大可小,小到一個終端的軟件無法使用,大到整個系統癱瘓……企業網絡想要固若金湯是IT部門夢寐以求的目標,作為系統運維人員,應該如何解決這些突發性故障問題?為了尋找這個問題的解決辦法,51CTO的記者力邀到了現任某上市公司系統工程師的九叔,請他來給大家分享一下。
簡介:張鵬亮,花名(九叔)。現任某上市公司系統工程師,WinServer版主,擅長領域:微軟服務器、桌面虛擬化和AD基礎架構等,現階段主要致力于WinServer2012 VDI的研究。
記一次突發性故障
作為一名IT運維人員,工作中最常發生的系統方面的故障是很正常的一個現象,并且你永遠也不會知道下一次故障發生在什么時候,據51CTO記者采訪時了解到,九叔現階段公司的系統運維已經做的比較成熟了,目前來看,系統底層還是比較強健的,真正出問題的都是系統之上的"應用",由于每種應用不同,所以并不是太好談哪一種應用會經常出問題。
不過,在前不久,公司發生了一次較大故障,故障成因很簡單,就是由于空調物理機損壞,導致多臺服務器過熱,部分業務中斷。在更換新的空調之后問題得以解決。當然,在沒有更換之前,當時也采用了一些"笨辦法",比如使用大功率的風扇、開啟機房的排氣窗等等,暫時緩解了空調損壞造成的不良影響。
故障處理那些事兒
出現故障的同時必然會造成一些業務的中斷,可想而知,若是故障得不到及時的處理,那么公司網絡將會處在一個"癱瘓"的狀態,這將是很可怕的事情,后果不堪設想。幸好九叔所在的運維團隊發現問題很及時,在機房中安裝有溫度報警系統,溫度達到閥值后會給相關運維人員發送短信。比較棘手的是,這次故障的根本原因是空調壞了,而不是常見的斷電、瞬間電流過大等情況。由于出問題的這個機房的服務器沒有線上業務,因此實際造成的損失并不大,但是影響不太好。
對于類似故障處理,大概遵循以下幾個大的方向。
1、收到報警或定期巡檢;
2、檢查是否誤報;
3、確認報警內容屬實進行相應處理;
4、檢查是否有預案,如有則按照預案處理,如無則盡快聯系廠商處理,同時對此事備案。
在處理問題環節,如果在自身團隊無法處理的時候,會及時和廠商聯系,獲取更專業的支持。
故障后的思考與總結
俗話說,吃一塹長一智,出現故障不可怕, 可怕的是不能從故障中得到一些經驗教訓。九叔談到:"對于系統運維來說,不僅僅要關注軟件層面的問題以及運維,同時對于基礎IT建設也要有一定的了解,最起碼要知道出現問題應該找誰解決。隨著現階段技術的發展,我們不可能做到一個人對所有技術面面俱到,那么在無法解決問題的時候,如何找到解決問題的人,應該是每一個系統運維人員所必須要了解的。
空調故障的問題偶然性很強,但是依然有方法避免,那就是采取硬件服役到一定年限后更換,而不是等它徹底損壞后再更換。但是這種方法會帶來很多額外的費用支出,一般來說,在企業中推行這種方法需要IT部門有一個強有力的后盾去支持才能較好的達到預期效果。
還有一點是值得注意的,不管具體是什么故障,做好預案和備案最重要,以防止這種問題再次發生,或者再次發生后,也可以極為快速地去解決問題。