系統管理自測32問之10:有關故障信息報告
譯文【51CTO精選譯文】本文是《Limoncelli的測試:有助于提高系統管理員團隊工作效率的32個問題》當中的第10題:一旦發生問題,有沒有一套機制專門用于記錄故障信息?
故障發生之后,你會將各項細節記錄下來以便日后查詢、還是希望問題隨著時間逐漸淡出人們的視野呢?
一份合格的故障信息報告中應該包含完整的時間軸,詳細記錄發生何事、由何人引起、曾如何嘗試修復、業務受到了何種影響并具備詳盡的解決方案列表,以防止此類問題的再次發生。每項提案都必須在bug跟蹤或者項目管理系統中有所體現,以保證此次結論切實改進未來的處理流程。
堅持撰寫故障信息報告有助于維護穩定的運行環境,每次故障發生后都應拿出至少一套可行的預防性措施。你的監控系統能及時檢測出標志性異常,進而使管理者能夠先用戶一步意識到故障的存在嗎?問題的先兆又是否明確?通常情況下,系統在一切就緒之后會進行整體的帶電測試(例如在源代碼庫中執行‘預提交腳本’)。大家有辦法將用于檢測新生故障的工具順利添加到現有系統中嗎?
出現問題并不只意味著恥辱或者指責。在良好的系統管理員文化體系中,我們應該毫無顧慮地將自己的名字填在“故障起因”的章節中。作為一名***,我們應當實事求是,力爭通過自己的疏忽為其他員工敲響警鐘。
如果大家的管理層打算以故障信息報告當做懲罰責任人的證據,那么他們顯然還不理解正確的操作并不意味著總能帶來理想的結果;這份報告存在的真正含義在于指導大家逐漸提高自身的業務能力。任何一位能夠因為非惡意的停電事故就將相關員工踢出門外的管理者,都不可能將企業帶向成功的彼岸。
故障信息報告應該派發到每位員工手中。也許大家會因為“披露團隊失誤”而對此感到尷尬,但實際上這樣做會讓企業的用戶表現出更高的敬意。透明終將帶來信任。
當然,要想真正發揮上述作用,故障信息報告與bug跟蹤及項目管理系統的整合效果仍然非常關鍵。
【51CTO.com譯文,轉載請注明原文作譯者和出處。】
原文:http://everythingsysadmin.com/the-test.html
Limoncelli的測試:有助于提高系統管理員團隊工作效率的32個問題:
- A.面向公眾的處理方式:
- B. 現代化團隊處理方式:
- C. 業務操作方式:
- D. 自動化處理方式:
- E. 團隊管理方式:
- F. 硬件發生故障時的處理方式:
- G. 安全性處理方式:
【編輯推薦】