成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺淡網絡運維的緊急故障處理及對策

原創
網絡 網絡管理 網絡運維
為了提高廣大初入此行的網管讀者們的緊急故障處理水平,故策劃了本文,將這幾年來的經驗撰寫出來,與讀者分享管理思路和控制管理能力的思維。

導讀:為了提高廣大初入此行的網管讀者們的緊急故障處理水平,故策劃了本文,將這幾年來的經驗撰寫出來,與讀者分享管理思路和控制管理能力的思維。

隨著信息化進程的飛速發展,網絡已經成為每個現代企業必須的要素之一。相對于網絡維護,網絡運維更加側重于保障網絡系統的正常運行,運維有運行和維護兩層含義。對于一個系統,有時出錯我們無法預知,系統越復雜,其難維護難度更大,為了減少損失,我們盡可能地去預防各種錯誤,對于突發情況,盡可能地去修復。

緊急故障解決的通用流程

在本文開始前,筆者先給出緊急故障解決的流程圖,見圖一。

淺淡網絡運維的緊急故障處理及對策

圖一

根據上述流程圖,我們可以一目了然明白處理網絡運維的緊急故障的處理流程。

當客戶端發生網絡中斷的故障后,首先判斷用戶(或終端)到三層網關設備之間通道是否存在問題,從用戶(或終端)上ping網關是否能通,用戶(或終端)自身是否發生問題。

二層網絡是否正常:如果用戶(或終端)ping網關不通,則檢查下端二層網絡、用戶網線、三層網關設備以下網線或光纖是否正常,端口是否UP,是否有CRC error報文統計。檢查二層網絡中的交換機設備是否能正常學習到用戶MAC地址,檢查三層網關設備與二層交換設備之間的連通性、二層設備的CPU利用率是否正常,是否有二層環路造成或病毒攻擊。首先確保用戶(或終端)能正常ping通網關設備。

三層網絡是否正常:可以通過telnet/console口登陸三層設備,如果有問題,通過ping、tracert、show logging、端口統計、CPU利用率統計、鏈路狀態、路由表狀態、MPLS標簽表狀態等對問題進行分析,在業務忙時,不得擅自重啟或倒換三層核心路由器等設備。

如果用戶上網或承載業務仍然存在故障,可以查看DNS等外界環境是否正常,承載的業務本身是否發生問題,查看相關告警,然后做出相應的處理。

其它問題,如果現場不能解決,就通報關鍵用戶并聯系廠商解決。

在本文中,筆者就以網絡不通的故障為例,講解網絡運維的緊急故障處理的比較通用的思路和解決方式。

假設有一天,接到通知報告網絡不通了。給人的第一感覺是某個服務出現異常而中斷,比如打不開OA頁面,或者打不開Google頁面。讓我們看看,一個合格的運維人員是如何循遵怎樣的思路來尋找故障的原因并解決的。#p#

確定哪些服務中斷

首先要做的就是區分內網服務和外網服務。

在筆者所在公司中,很多自己開發的、只限于公司員工使用的服務都是內網服務,比如OA、郵箱、ERP等等。而像QQ、微博那樣的則屬于外網服務了。

在這樣的環境下,內網服務的網絡關鍵節點如下所示:

終端→接入交換機→聯網路由器→核心路由器→核心交換機→服務器

依賴的基礎服務為:內網DNS服務器。

外網服務的網絡關鍵節點如下所示:

終端→接入交換機→核心交換機→互聯網接入交換機→上網行為管理設備→互聯網防火墻→外網服務器

依賴的基礎服務為:內網DNS服務器,公網DNS服務器。

如果當前訪問的服務突然中斷,那么首先看看是內網的服務還是外網的服務。然后再在內網和外網分別自選一種服務嘗試訪問一下。例如ERP突然無法訪問了,那就嘗試訪問一下內網的門戶系統和郵件系統,以及外網的一個知名網站。

以下表格(表二)有助于理解故障尋找的過程和思路:

淺淡網絡運維的緊急故障處理及對策 
淺淡網絡運維的緊急故障處理及對策

表二#p#

確定其他人的癥狀相同

只是從自己的機器對網絡和服務做出判斷并不夠客觀,也不夠嚴謹。前面我們已經大致的推測出故障原因,在這一節我們嘗試對這個推測進行證明。

要記住這一點:可重復的結果才是基本可靠的結果。

為了證實測試結果的可重復性,我們需要從不同的網絡起點重復相同的測試步驟。

讓我們以公司的實際場景來闡述分析故障的思路。目前隨著網絡技術的成熟,網絡架構也趨于穩定,一般的全省級的公司網絡拓撲示意圖如圖三:當然,實際工作中,地市分公司下面,根據業務需要,還會有縣級的辦公網絡、營業網點,實際廣域網絡會達到三層。

1、要保障全省骨干網絡運行安全,在總部核心區域會采用雙核心路由器和雙核心交換機的冗余架構,做到核心設備和線路的冗余,并保證網絡業務調整的彈性;

2、服務器區根據業務運行安全考慮,也將進行分區,不同業務區域的服務器接入不同的服務器交換機,雙線上聯到核心交換機。

3、地市公司采用路由器和省公司聯網,公司在線業務系統重要性較高的情況下,地市分公司到總部會采用租用不同運營商的線路,做雙線上聯。

4、,公司的辦公室電腦通過接入交換機接入局域網。接入交換機上可根據辦公業務區域劃分VLAN,增加內網安全性。

淺淡網絡運維的緊急故障處理及對策

圖三

在這種網絡環境下,將一般骨干網出故障的情況降到最低,但是實際工作中,還是有不少網絡用戶會反映這樣那樣的網絡問題:例如我們自己的計算機客戶端不能訪問ERP系統,并且Ping不通ERP系統的IP地址,那么我們會據此推測ERP系統的服務器失去響應了;如果在自己電腦上還能ping通其它服務器IP地址,或訪問其它服務(譬如WEB方式訪問OA正常),那ERP系統的服務器失去響應了可能性大大加強;最后,如果在我隔壁辦公室的同事也出現了同樣的問題,我們就有更大的把握說ERP系統確實出現了問題;如果其它反之,如果其他人一切正常,只有我自己無法訪問ERP系統,那么很大的概率是自己的計算機出現了問題。#p#

確定服務中斷是軟件還是硬件所致

如果某個服務出現中斷,大致上的原因一般為網絡鏈路、網絡設備、服務器等硬件問題或者服務器操作系統、應用系統等軟件問題。我們可以使用ping這個操作系統自帶的命令行工具來對這兩種原因進行區分。

判斷原則:Ping不通服務的IP地址屬于硬件故障,能ping通則為軟件故障。

Ping不通服務的IP地址屬于硬件故障,能ping通則為軟件故障。但是如果設置了服務器不對Ping做出響應的話,這時候可以使用nmap來探測目標設備。有關nmap的資料可參閱《淺議廣域網中主機發現與管理:http://stlzy.blog.51cto.com/69882/641250

其他人和我一樣嗎?其它系統和疑似故障系統一樣嗎?

只是從自己的機器對網絡和服務做出判斷還是不夠客觀的,我們還需要更嚴謹的論證。前面我們已經大致的推測出故障原因,在這一節我們嘗試對這個推測進行證明。

判斷原則:可重復的結果才是基本可靠的結果。

讓我們以幾個假設來掩飾解決故障的思路。

假設1:總部A用戶Ping不通服務器a而B用戶可以。

因為A與B用戶訪問服務器a走過的是同樣的網絡路徑,都是經過接入交換、核心交換、服務器交換,所以問題出在甲用戶的自身。

假設2:總部A用戶可以訪問服務器a而不能訪問服務器b,B用戶有同樣的故障現象。

因為A與B用戶訪問服務器a、b走過的是同樣的網絡路徑,所以一般可以證明是服務器b本身問題或者是服務器b接入交換機硬件設備或上下行網絡鏈路問題。

假設3:某個分公司E用戶與F用戶不能訪問任何一臺服務器,而總部A、B和分公司C、D四個用戶沒問題。

因為該分公司E、F用戶訪問任何一臺服務器都要經過分公司接入交換2和聯網路由2,所以應該聯網路由2是關鍵節點,聯網路由2本身的物理故障、聯網路由的協議、或者網路由2和核心路由網絡鏈路故障都是首先排除范圍。

假設4:某個分公司C用戶發現無法訪問服務器a,詢問后得知其他用戶故障現象相同。

由于每個用戶訪問服務器a的路徑不同,所以越靠近終點的網絡路徑和網絡設備可疑性最大。從圖三來看節點是服務器a的接入交換機這節點可能性最大,為較嚴重故障。

確定斷點在何處

根據前面的排查,已經可以基本的確定是不是服務器的問題。如果是網絡的問題,那么我們還要確定出斷點才行。現在,我們要使用ping和tracert這兩條命令完成這項工作。

假如我們事前已經對網絡的拓撲很了解,并且知道一些關鍵節點的IP地址,那么我們只需要參考由近至遠的原則逐個ping這些IP地址就可以知道斷點的位置了。可是我們日常要訪問的服務有很多,怎樣才能知道數據怎樣從我自己的計算機流向某個服務器的呢?Tracert命令就是為了解決這個問題的。只要Tracert某個域名或者IP地址,它就會把經過的設備的IP地址按照先后順序顯示在屏幕上。如果從某一行開始就不再顯示IP地址,那么它的前一行的IP就是你嘗試訪問的目標所能到達的最后一臺設備的IP地址。

建議在平時網絡正常的時候就Tracert一些經常訪問服務器的IP地址,記錄下來正確的步驟是怎樣的。等日后服務出現中斷時可以用來比較路由有沒有發生變化。#p#

確定真正故障原因

故障的原因永遠是匪夷所思的,需要專業的技能來做綜合的分析、全盤的考慮和一些專業的測試。既然作為一個用戶不可能做到這些,那么還是把探索真相這項艱巨的任務交由那些專業人士來完成吧。下面給出一張有可能造成服務中斷的故障原因的統計圖表,見圖四。

淺淡網絡運維的緊急故障處理及對策 

圖四

題外話

現在公司信息中心的崗位劃分的比較細,如果你是某個專業應用的項目組,那么假設你現在已經大致知道了發生了什么事,還知道了哪些部門需要對此事負責,那么就致電需要對此事負責的部門,詢問當前是不是一次計劃內的停機或者檢修。如果是的話,弄明白為什么事前沒有收到通知。如果不是計劃內的,告訴他們你已經掌握的所有事情,這可以幫助他們盡快修復。然后致電所有你在排查期間幫助過你的其他部門或者同事,通報最新的消息給他們。最后致電你的關鍵用戶,向他們解釋發生了什么事,告知有望恢復正常的時間,并通過有效手段發布通知所有可能受到影響的終端用戶群。

另外,如果問題處在自己負責維護的范圍內,請在第一時間修復。

如果你是地區公司的網管,首先要看這次服務中斷是不是發生在你自己的職責范圍內。如果是的話,修好它。然后通知本公司的關鍵客戶,把問題解釋清楚。如果你的反應比較遲緩,那么你的關鍵用戶有可能直接詢問總部的相關負責人,最后再找回到你的時候壓力會大得多。最后通知可能被涉及的所有終端用戶。

結語

網絡運維有不同的分工,在大公司和大網絡環境中這種分工很明確,比如有設計規劃網絡的,有管理網絡安全的……很系統,也很專業,要達到這樣的高度,需要有深入的理論基礎和豐富的實際經驗作為保證。

然而在相對較小的網絡環境中,網絡管理員負責的事情是從設計規劃網絡,建設網絡,管理服務器,到購買網絡設備等所有與網絡有關的事情,經常被作為"萬精油"來使用。所以說做這一行的挑戰是很大的,是否能有長進取決于自己。如果能夠一直堅持做下來,并且抓緊時間不斷補充新知識,最終還是可以達到網絡管理的頂峰。

如何開始面對那么多的工作內容,我們首先要清理出主次先后。第一步就是要從了解操作系統出發,因為大部分時間我們都是在與各種操作系統打交道,如Windows、Linux、Unix和Mac OS X都是需要涉及的。了解了這些操作系統的理論知識和操作方法還不夠,我們還必須具備解決問題的能力。這需要很強的操作能力和清晰的思路,你可以去網上看看討論區的文章,多動手處理實際問題。解決問題時不僅要知道解決之道,而且要學會去發現導致問題的原因。

責任編輯:藍雨淚 來源: 51CTO.com
相關推薦

2014-02-25 11:27:49

運維經驗緊急故障

2014-04-02 10:56:21

2019-11-12 09:53:32

Linux 系統 數據

2021-10-28 17:05:11

IT運維故障

2013-07-24 17:51:44

運維管理北塔軟件

2020-09-25 11:10:51

運維故障排查監控

2013-03-21 17:17:34

2011-12-27 16:58:11

2010-01-19 22:40:56

運維管理KoolPoint摩卡軟件

2015-06-23 14:24:03

2010-01-21 22:19:25

網絡優化運維管理摩卡軟件

2018-06-29 10:36:29

阿里云互聯網故障

2018-09-10 05:03:51

網絡故障故障排查運維

2023-03-02 14:34:33

云服務數據中心

2019-11-18 00:47:38

架構開發技術周刊

2018-10-15 14:26:23

運維IT技術架構

2010-03-02 21:46:18

運維管理Mocha BSM摩卡軟件

2021-07-21 16:22:40

運維架構技術

2011-05-17 14:46:38

Oracle數據庫故障

2018-03-29 09:30:01

DNS故障處理
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 免费一区二区三区 | 精品国产精品一区二区夜夜嗨 | 在线免费中文字幕 | 成人精品一区 | 国产精品久久久爽爽爽麻豆色哟哟 | 欧美日韩中文国产一区发布 | 午夜资源 | 男人天堂999 | 欧美日一区二区 | 欧美日韩在线免费 | 久久久久国色av免费观看性色 | 亚洲成人自拍 | av免费观看在线 | 综合色播| 在线免费黄色小视频 | 婷婷久久精品一区二区 | 一级电影免费看 | 欧美日韩国产一区二区三区不卡 | 久久久精彩视频 | 成人深夜福利 | 欧美黄色免费网站 | 国产成人jvid在线播放 | 国产一级免费视频 | 欧美一区二区三区小说 | 日本在线视| 毛片高清 | 久久久久久色 | 国偷自产av一区二区三区 | 欧美激情一区二区 | 色爱区综合 | 久久视频精品 | 久久国产精品免费视频 | 国产免费一区二区三区 | 国产女人与拘做受视频 | 成人动慢 | 欧美精品一区二区三区在线播放 | 成人看片在线观看 | 欧美v在线观看 | 自拍第一页 | 久久久久国 | 国产aa|