系統管理員必須了解的六大鐵律
原創【51CTO 11月25日外電頭條】編輯導讀:系統管理員們踏上崗位,都已經具備了一些有關系統和服務的知識,如如何搭建生產環境,如何備份,如何監控系統等等,這些知識可能來自學校,可能來自自學。然而在工作了數年之后,系統管理員們對生產環境中的操作又會有了很多新的了解。下面,資深運維專家Paul Venezia為我們總結了他認為系統管理員在生產環境中必須遵守的六大鐵律。這是一些學校里不會教的知識。遵守這些規則,你幾乎可以解決任何一個問題。
在復雜的數據中心基礎設施中,這種能力可以讓你通過豐富的經驗和自身的知識快速而準確地發現問題之所在。這種能力只可意會,不可言傳。沒有人會提供和“超自然故障排除”有關的認證的。
但是,那些重量級的問題解決專家都會遵守一些通用的,不成文的規則。這是我自己使用的六個規則。注意,它們適用于大多數情況,但是并不是所有情況。
1、永遠不要修改服務器或網絡設備的連接接口
雖然這聽上去很簡單,但是,令人吃驚的是,人們經常會修改他們用于連接到某個設備的網絡接口的屬性,這種行為的失敗率很高。有時,這條規則可能是可選的,但是,如果有一種方法可以排除潛在的隱患,何樂而不為呢?如果你不得不修改這個接口,可以在這個接口上配置一個輔助IP(secondary IP)——通過另外一個設備或子網,串行控制臺,KVM等來連接。如果設備放在遠程的辦公室里(那里沒有IT職員),那么這絕對是一條真理。
2、保證總是有辦法回到原點
無論何時,只要有可能的話,都要提供一種可以把問題恢復到原始狀態的方法。這意味著,在對故障磁盤做任何修改以前,應該為這個故障磁盤做一個映像,備份整個目錄結構(你不可能知道你以后需要哪些文件,這樣可以以防萬一),或者,在你胡亂擺弄一個已經出現故障的操作系統以前,應該在物理服務器上抽取出這塊磁盤的RAID1陣列。當然,在虛擬機環境下,這會更加容易一些,因為你可以簡單地做一個快照。
3、文檔,文檔,還是文檔
在所有這些規則中,這條規則也許是大家最少遵守的規則了。毫無疑問,應該把一個問題和解決方法文檔化。當你處在混亂狀態之中的時候,你的解決方法也許并不明智。這就是說,當一個問題塵埃落定以后,要保留一份“尸檢報告”,通過這份報告,你可以重新檢查當時那個解決方案采取的步驟和途徑。把它寫下來,然后把它保存在安全的地方,***是放到公司內部的wiki上;并且,應該備份到幾個不同的地方。
推薦閱讀:系統管理員應該怎樣高效的書寫文檔
4、在IT領域,不存在魔法,但是卻存在幸運
就像 Thomas Jefferson 說的那樣:“我發現我工作的越努力,我就越幸運。”在IT領域,也是這樣的。你花費越多的時間來研究你的基礎設施,關注路由器,交換機,服務器和其他設備的特定的工作條件,你的基礎設施就會運行的越流暢。這些日常工作可以讓你在問題的早期階段就發現這些問題,當問題真的發生的時候,你可以更加快速地作出反應。另外,在IT領域,有很多種方法可以“制造”幸運。例如,使用一些工具,讓網絡設備配置的備份自動化;如果使用這種方法的話,當你的交換機發瘋的時候,你可以在幾分鐘內恢復它,而不是幾個小時。
推薦閱讀:系統管理員最需要自動化的十大任務
5、在你修改每個配置文件以前,要對它們進行備份
這條規則只適用于Unix服務器和幾乎各方面的配置都提供了配置文件的網絡設備。在你弄壞敏感的配置以前,首先對交換機和TFTP(Trivial File Transfer Protocol)主機的配置文件進行備份。在Unix系統上,可以簡單地把something.conf cp到 something.conf.orig。
在必要的時候,如果想恢復到過去那個良好的狀態,只需要簡單地把文件拷貝回去,然后重啟那個服務就可以了。因為注冊表的存在和Windows喜歡把簡單的概念復雜化,所以,在Windows系統上,這通常是不可能的。即便如此,你還是可以在胡亂擺弄注冊表以前,對注冊表進行備份,這樣的話,如果天下大亂了。你可以重新導入備份的注冊表文件。記住:當你對Windows注冊表進行修改的時候,服務器的生命就掌握在你的手中。
6、監控,監控,還是監控
一點點預防工作就可以省去一個月的周末加班時間。你應該對你的數據中心的方方面面進行監控,從房間的溫度,機架,和服務器,到服務器進程檢查,正常運行時間檢查......你還應該為所有網絡設備構建一個集中式的日志系統,除此之外,你還應該安裝一些趨勢分析工具來監控帶寬利用率,溫度,磁盤空間的使用率,和其他的參數。當這些參數超過正常的閥值的時候,那些監控工具應該通過必要的手段來通知你。
如果在一個數據庫由于分區過滿而被破壞的一個小時以前,能收到一個email或短信,那么可以省去無數的工作時間和宕機時間。對你的數據中心進行監控刻不容緩。
推薦專題:Linux監控工具的展覽館
這些規則不僅僅是需要遵守的規則——在你日常的工作中,這些規則應該是貫徹始終的。在IT領域中,對于許多人來說,它們是核心理念,但是對于其他人來說,它們是神秘的——有點像忍者。
【51CTO.com譯稿,轉載請注明原文作譯者和出處。】
原文:The six immutable laws for troubleshooting IT 作者:Paul Venezia
【編輯推薦】