網絡管理危機處理主動權如何掌握
隨著企業網絡規模的越來越大,其發生突發故障的概率也越來越大。正因如此,網絡管理人員也面臨越來越嚴峻的挑戰。與其坐以待斃,不如主動出擊,掌握危機處理的主動權。下面,筆者結合自身的工作經驗談談危機發生前我們應采取的相應措施。
1、備份是危機處理的基礎
備份的概念應該融入IT人員的血液,俗話說“有備無患”,這也在網絡危機處理的前提。備份的策略、備份軟件、備份什么,這是備份要明確的三個方面。備份策略不同的企業的有不同的要求,大家進行評估后可以采用完全備份、增量備份、差量備份、文件快照等形式。另外,備份策略必須要指定備份的頻率即備份時間,以什么樣的時間段來執行備份操作。
備份軟件這因人因需要而異,不過有一個原則安全性、可靠性、穩定性是一個重要的指標,在此基礎上,好用通用也需要考量。至于備份什么,不同的企業要不同的要求。不過管理人員必須心中有數,應該根據業務實際需要制定好詳細的災備計劃,比如備份的時間間隔、備份類型,本地備份還是異地備份等。
對于備份,可以設置計劃任務自動備份也可以手動備份。不過,筆者要說的是一定要確保備份可靠性,特別是自動備份。筆者本地某機床廠,每天都有大量的數據需要備份,為此管理人員設置了自動備份,并且運行一直良好。前段時間,該企業的網絡經歷了一次意外故障。當管理人員,要進行數據恢復的時候發現由于軟件錯誤,近一個禮拜以來的數據沒有備份,最近的一次成功備份還是一個禮拜前。為此,全公司人員加班加點用了近10天才恢復了這段時間內的數據,造成了大量的人力、時間的損失,其直接經濟損失初步估計在100萬以上。當然,企業的CTO也因此辭職,為自己的疏忽付出了代價。這個案例,警示我們一定要保證備份的有效,因此檢測是非常必要的。
2、實時監控,防患于未然
作為企業的網絡管理員,最尷尬的事情莫過于網絡發生了故障(如服務器宕機),老總知道了,但自己卻渾然不覺。也許上面的情況比較特別,我們經常遇到的情況是:網絡性能越來越差,整個網絡處于“亞健康”狀態,但作為網絡工程師對此并不知曉。要改變這種被動狀況,針對網絡的實施監控是必不可少的。
網絡監控有不同的類別,比如系統監控、磁盤監控、流量監控等等。大家可以使用諸如微軟的ISA或者第三方軟件,不過對于規模比較大的網絡***搭建比較專業的監控平臺實施全方位的監控。特別是在大中型企業中,服務器數量眾多,因此,往往要部署服務器監控平臺以便讓管理人員實時掌控務器的運行狀態。這些監控平臺具備對所有基于TCP/IP協議的網絡服務(Web服務器、FTP服務器、SMTP服務器、POP3服務器、數據庫服務器端口、多媒體服務器等)的監測以及對任何服務器的系統性能參數進行監測的能力,并在這些服務或是性能不正常時進行短信或郵件報警。
以筆者任職的這家企業為例,該企業中的服務器60多臺,并且這些服務器對于企業的生產、銷售等各個環節密切相關。為了有效管理和監控這些服務器部署了某服務器運行狀態監控平臺上,通過該平臺網絡管理人員對服務器CPU占用、內存使用、某程序的內存使用(比如MS SQL Server的內存使用)以及磁盤使用等情況了如指掌。另外,該監控平臺還開發了手機短信管理服務器功能。通過這一功能,管理員只需要簡單回復短信就可以管理服務器的日常服務,比如:重啟IIS、重啟Apache、重啟Oracle數據庫等。
另外,通過該監控平臺還提供了二次開發平臺,可以對其功能進行擴展,例如僅需添加溫度傳感器和溫度采集器通過簡單的開發即可實現對機房溫度進行監控,并記錄實時值供管理員以圖表形式隨時查詢。
當然,部署監控平臺對于一般的企業顯然是不可能的。其實,對于一些小型企業就那么幾臺服務器,管理員只要充分利用某些第三方軟件即可實施對其實施監控。除了服務器的監控,對于其它網絡設備、網絡性能的監控也不容忽視。
3、建立預案,危機處理中有章可循
因為網絡的復雜性,要從根本上杜絕網絡突發故障幾乎是不可能的。作為IT管理人員除了做好備份之外,建立危機處理預案是非常必要的。這樣不至于在危機發生時手忙腳亂,快速有效地解除危機,將損失降到***。
筆者負責著本地一家企業的網絡,下面結合自身的工作經驗談談網絡危機預案的建立和相關的后續工作。作為網絡工程師,對于自己負責的網絡要非常清除,首先要預計網絡中可能發送的危機事件,并將其一一列舉出來,充分考慮到危機后果和所需的費用。然后,進行匯總劃分危機級別并根據級別和危機發生的可能性進行排序。然后確立危機處理的程序和實施細則,一旦危機發生就能夠有條不紊地投入工作,排除危機。
這樣,當各種突發狀況發生時,就能夠快速采取對策,以及通過什么樣的程序進行有效處理,確定什么人員在什么時間做什么事。為此,建議組建網絡危機小組并對組員進行故障排除培訓,使其能夠在危機發生是能看很快進入角色。另外,進行一定的模擬演練也是非常必要的。
4、危機處理,掌握方法有條不紊
當IT危機不幸發生時,采取科學的方法是非常重要的。下面是筆者總結的網絡排故的一般步驟和自己的一點經驗和大家交流。
(1).要全面收集信息,并分析故障現象。全面了解故障的情況,并詳細詢問相關細節,可以請故障發生時操作人員描述正常運行時的情況,如果有可能的話,親自去驗證一下所出現的問題??词欠裼姓5墓δ懿灰娏?,還是有異常的反應?檢查一下在故障發生之前是否對該節點或是網絡進行了改動。
(2).定位故障范圍。通過***步全面的收集的信息分析,可以將故障范圍縮小到一個網段或節點?;谒鞯姆治觯袛喙收鲜欠衽c一個網段有關,還是局限于一個節點??s小故障范圍是解決的開始。例如當某臺計算機發生無法上網的故障時,管理員可以詢問其他用戶是否也同樣出現了這一問題,如果所有的用戶都出現這一現象,則說明故障不在用戶網絡這端,在出口網絡設備或其他設備上。
(3).故障隔離。如果故障影響整個網段,那么就通過減少可能的故障源來隔離故障。除兩個節點外斷開其它所有的節點。如果這兩個節點能正常通訊,再增加其它節點。如這兩個節點不能通訊,就要對物理層的有關部分,如電纜的接頭、電纜本身或與它們相連的Hub和網卡等進行檢查。
(4).排除故障。一旦確定了故障源,那么識別故障類型是比較容易的。對于網絡硬件設備來說,最方便的措施就是簡單地更換,對損壞部分的維修可以以后再進行。有兩種辦法可以解決軟件故障。***種是,重新安裝有問題的軟件,刪除可能有問題的文件并且確保你擁有全部所需的文件。這也是保證第二種方法得以順利實施的好辦法,即對軟件進行重新的設置。如果問題是單一用戶的問題,通常最簡單的方法是整個刪除該用戶然后從頭開始,或是重復必要的步驟,使該用戶重新獲得原來有問題的應用。比無目標地進行檢查,邏輯有序地執行這些步驟可以更快速地找到問題。
(5).檢驗故障是否被排除。請操作人員測試一下故障是否依然存在,這可以確保是否整個故障都已被排除。只是簡要地請用戶按正常方法操作有關網絡設備即可,同時請用戶快速地執行其它幾種正常操作。因為,有時解決一個地方的問題會引出別處的問題;有時問題是解決了,但可能會掩蓋其它故障。
總結:面對不可預計的IT危機,網絡管理人員只要事前制定充分的應對措施,并且掌握危機處理的科學方法,可以說,IT危機并不可怕。希望,筆者的經驗對大家應對IT危機有所幫助。
【編輯推薦】