系統管理自測32問之23：故障處理體系

作者：核子可樂譯 2011-10-19 10:22:17

服務器上的所有數據都應該處于RAID 1/5/6/10或其它類似機制的保護之下。如今，我們有“生存系統”作為堅強的后盾。如果每塊硬盤都具備另一塊鏡像硬盤作為替補，那么矩陣中的任何個體發生故障都不會導致整體中斷。如此一來，發生服務中斷的可能性只有一種——硬盤及其替補同時損壞。

【51CTO精選譯文】本文是《Limoncelli的測試：有助于提高系統管理員團隊工作效率的32個問題》當中的第23題：當某塊硬盤發生問題時，你的整套服務器體系能否繼續運作？

服務器上的所有數據都應該處于RAID 1/5/6/10或其它類似機制的保護之下。服務器的設計應該嚴格遵從“生存能力架構”，也就是說能夠在某些組件發生故障時維持正常的運行狀態。

曾幾何時，計算機中的任何部件出了問題，整套體系只能徹底崩盤。事實上，組件的故障就相當于整體的故障。一塊硬盤掛掉了，花是備份資料、恢復數據、更換硬盤就要花上一整天的時間。悲劇啊，如果這會兒你正打算把某項接近尾聲的工作一口氣忙完；悲劇啊，如果公司正好組織了一次激動人心的戶外活動。總之硬盤出了毛病，一整天就肯定得搭進去。

如今一切都不同了。我們有“生存系統”作為堅強的后盾。如果每塊硬盤都具備另一塊鏡像硬盤作為替補，那么矩陣中的任何個體發生故障都不會導致整體中斷。如此一來，發生服務中斷的可能性只有一種——硬盤及其替補同時損壞。據統計，這套體系能夠在用戶感受到之前給予我們寶貴的數小時甚至一天時間進行破損硬盤更換。這種限時處理當然要比花一天時間恢復數據要好得多。

現在好了，“業務中斷”變成了“組件故障”，管理員的生活是多么美好啊！

過去RAID成本高昂，因此也不常見，可以說是有錢人才會考慮的奢侈方案。但現在這種處理方式已經非常普遍，價格不貴，甚至常常是免費的（指通過軟件實現）。哦，其實常見還不準確，我其實想說這是必須的。花一天時間中斷服務搞什么數據恢復，這不僅意味著預先規劃的疏漏，更是種極端低效的時間管理觀念。斷了就斷了，拿一天時間去安慰瞬間損失了數小時、數月乃至數年工作成果的客戶，這種行為不叫貼心，而是純粹的浪費時間。

我個人的經驗很簡單：啟用硬盤鏡像，其它硬盤組成RAID 1或者更高級別的矩陣。

【眾所周知，RAID 6最少要由2T容量的硬盤組成，對吧？因此只把這種大容量硬盤組成RAID 5實在是種浪費。就從RAID 6或者RAID 10入手吧，現在的主流硬件都能滿足要求；不過好像有點跑題了…】

下面要提到一些特例情況。

特例一：“總容量或臨時空間不足”。這話說得沒啥技術含量哈。

特例二：整套備份機制處于更高的實施水平，例如：

1. 使用類似谷歌文件系統這樣的冗余文件方案。此類系統會將數據至少同時存儲三份。而IBM公司的GPFS本地RAID（簡稱GNR）也采取類似的解決辦法。

2. 本地保存的只是從其它位置傳輸過來的數據的只讀副本。但如果要保證復制速度，RAID 5能夠提供令人滿意的性能表現。

3. 一次性設備。舉例來說，一臺表態圖像網頁服務器或者DNS“二級緩存”——這類服務器能夠在極短時間內自動重新建立。如果大家手頭要用到數百套此類系統，但又沒采購RAID卡，那除了悲劇我很難找到其它形容詞。

【51CTO.com譯文，轉載請注明原文作譯者和出處。】

原文：http://everythingsysadmin.com/the-test.html

Limoncelli的測試：有助于提高系統管理員團隊工作效率的32個問題：