真兇何在 七天追查網(wǎng)絡(luò)癱瘓故障
山東某大型集團(tuán),網(wǎng)絡(luò)突然出現(xiàn)大面積癱瘓故障,并導(dǎo)致企業(yè)多天業(yè)務(wù)無(wú)法正常運(yùn)轉(zhuǎn)。此企業(yè)系統(tǒng)工程師在七天的晝夜追查中,終于查出是交換機(jī)環(huán)路問(wèn)題引起的,但故障真兇又是什么呢?我們又需要從中反思什么呢?
我們單位用SDH設(shè)備在山東省東部縣市之間組了一個(gè)環(huán)網(wǎng),除了傳輸單位內(nèi)部的辦公網(wǎng)(主要是互聯(lián)網(wǎng))外,也傳輸其它單位的一些專網(wǎng)。
即SDH設(shè)備負(fù)責(zé)提供傳輸通道,交換機(jī)負(fù)責(zé)各個(gè)網(wǎng)絡(luò)業(yè)務(wù)的接入,這樣網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單明了,實(shí)際運(yùn)行的狀態(tài)也是比較穩(wěn)定的,但是最近一段時(shí)間,由于泗水所用的一臺(tái)連接用戶的交換機(jī)(不是核心的華為3528交換機(jī))出現(xiàn)環(huán)路故障,造成整個(gè)企業(yè)的所有業(yè)務(wù)都受到了影響,在老總的強(qiáng)壓下,我們經(jīng)過(guò)七個(gè)晝夜,終于查到了故障真兇,并解決了問(wèn)題。
首戰(zhàn)失利:追查ARP攻擊無(wú)果
前一段時(shí)間,東環(huán)所在的曲阜經(jīng)常有人反映說(shuō)上網(wǎng)時(shí)經(jīng)常出現(xiàn)丟包現(xiàn)象,聯(lián)想到最近局域網(wǎng)中經(jīng)常出現(xiàn)的ARP地址欺騙病毒,我就向曲阜分管網(wǎng)絡(luò)的技術(shù)人員介紹了一下排查局域網(wǎng)中ARP地址欺騙病毒的方法,希望通過(guò)找到并解決感染ARP地址欺騙病毒的機(jī)器來(lái)解決丟包的問(wèn)題,結(jié)果,曲阜那邊還沒(méi)有查出結(jié)果,泗水那邊也反映上網(wǎng)時(shí)有嚴(yán)重的丟包,我也向泗水的技術(shù)人員介紹了排查局域網(wǎng)中ARP地址欺騙病毒的方法,結(jié)果泗水的同事很快的在局域網(wǎng)中就發(fā)現(xiàn)了感染病毒的機(jī)器,捎帶著還發(fā)現(xiàn)了一個(gè)問(wèn)題,即由于前幾天下雨打雷,單位中有幾臺(tái)連接用戶的交換機(jī)都出現(xiàn)若干端口損壞的情況。
由于泗水與曲阜的故障現(xiàn)象極為相似,所以我們也判斷曲阜的丟包除了由于病毒的原因外,還有可能是交換機(jī)由于雷擊出現(xiàn)了故障,但是這些猜想都需要等到下星期正式工作日的時(shí)候才能得出結(jié)果,因?yàn)殡p休日人員不在班上不好查。但是在星期天的時(shí)候,另外一個(gè)客戶Q反映故障的電話讓我們重新認(rèn)識(shí)到故障的嚴(yán)重性,這是我們?yōu)樵摽蛻粼跐?jì)寧至曲阜間開(kāi)通了一個(gè)專網(wǎng),我先用圖示說(shuō)明一下網(wǎng)絡(luò)結(jié)構(gòu)(由于SDH可以視為透明傳輸?shù)耐ǖ溃栽趫D中只畫(huà)交換機(jī)的組網(wǎng)),如圖2所示,
#p#
嫌疑初現(xiàn):VLAN存在環(huán)路
根據(jù)以前我們對(duì)于VLAN的理解,每個(gè)VLAN都是一個(gè)獨(dú)立的廣播域,可以有效防止VLAN之間的互相影響,但是這次Q客戶的專網(wǎng)也反映有頻繁的丟包發(fā)生,他們的網(wǎng)絡(luò)出現(xiàn)病毒的機(jī)率要少的多,難道一個(gè)VLAN發(fā)生故障,會(huì)影響另外一個(gè)VLAN?帶著這個(gè)疑問(wèn),我們咨詢了華為公司交換機(jī)方面的技術(shù)人員,得到華為交換機(jī)有如下特性:
當(dāng)系統(tǒng)發(fā)現(xiàn)Trunk或Hybrid端口上某個(gè)VLAN中的端口被環(huán)回時(shí),則將該Trunk或Hybrid端口處于受控工作狀態(tài),同時(shí)刪除該端口對(duì)應(yīng)的MAC地址表項(xiàng)。
根據(jù)華為工程師的描述,我們登錄到交換機(jī)上,查看華為3552交換機(jī)(即位于濟(jì)寧的核心交換機(jī))上查看日志文件,果然發(fā)現(xiàn)了大量的告警信息,如下所示:
%Jul 21 11:11:38 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
%Jul 21 11:12:09 2007 ZXJF_3552 DRVNI/5/LOOP BACK:
Loopback does exist on Ethernet0/2 vlan 114, please check it
這就明確的告訴我們,是泗水上互聯(lián)網(wǎng)的那個(gè)VLAN存在環(huán)路,并在濟(jì)寧的第2個(gè)網(wǎng)口(即連接?xùn)|環(huán)的那個(gè)網(wǎng)口)上檢測(cè)到該VLAN上有環(huán)路的存在,而且據(jù)我們對(duì)華為交換機(jī)的觀察,當(dāng)檢測(cè)到環(huán)路存在時(shí),TRUNK端口會(huì)斷一下,而這個(gè)端口就是位于濟(jì)寧3552交換機(jī)的2口,也就是連接?xùn)|環(huán)的那個(gè)端口,這個(gè)端口上包括東環(huán)上所有的業(yè)務(wù),當(dāng)這個(gè)端口斷一下的時(shí)侯,整個(gè)東環(huán)的所有業(yè)務(wù)也都會(huì)跟著斷一下,這也就是所有的用戶都會(huì)感覺(jué)到丟包的原因了。
接著我們又登錄到泗水的交換機(jī)上,也發(fā)現(xiàn)類(lèi)似的告警:
%Jul 22 15:43:56 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
%Jul 22 15:45:59 2007 sishui-3528 DRV_NI/5/LOOP BACK:
Loopback does exist on port 24 vlan 114, please check it
這又明白無(wú)誤的告訴我們是泗水交換機(jī)的第24口存在環(huán)路,下面就是我們?cè)阢羲檎夜收宵c(diǎn)的過(guò)程。#p#
立案追查:分步排除環(huán)路
據(jù)我們以前的經(jīng)驗(yàn),交換機(jī)上存在環(huán)路可能是由于線路上的斷路造成的,比如一根網(wǎng)線有8根金屬線組成,如果其中的任何兩根連在一起了,就會(huì)形成短路,從而造成交換機(jī)上面的環(huán)路,還是一種就更簡(jiǎn)單了,把一根網(wǎng)線插在同一個(gè)交換機(jī)的兩個(gè)端口,一個(gè)完美的環(huán)路就形成了,嚴(yán)重的話,整個(gè)局域網(wǎng)就一下子癱瘓掉了。是不是泗水所帶的用戶線路由于雷擊造成了線路的短路,從而造成了交換機(jī)的環(huán)路呢?
這個(gè)結(jié)構(gòu)也不復(fù)雜,當(dāng)時(shí)我們思路是定位在查找具體是交換機(jī)B及交換機(jī)C上面的哪個(gè)端口存在環(huán)路,采用如下方式查找(這時(shí)要先把華為3528交換機(jī)1口(即向上的級(jí)聯(lián)口)的網(wǎng)線撥下來(lái),防止查找故障的過(guò)程對(duì)上級(jí)的網(wǎng)絡(luò)產(chǎn)生影響):
1、將交換機(jī)B至交換機(jī)C的級(jí)聯(lián)的網(wǎng)線斷掉,這時(shí)沒(méi)有環(huán)路。
2、保持交換機(jī)B與C的斷開(kāi)狀態(tài),再將華為3528交換機(jī)至交換機(jī)B級(jí)聯(lián)的網(wǎng)線插到交換機(jī)C上,這時(shí)有環(huán)路產(chǎn)生,說(shuō)明是交換機(jī)C上面的端口存在環(huán)路。#p#
誰(shuí)才是幕后真兇?雷擊!
那么再判斷是交換機(jī)C上面的哪個(gè)端口存在環(huán)路,其實(shí)也有兩個(gè)方案,但是當(dāng)時(shí)我們有個(gè)同事一股腦把所有連接的用戶的網(wǎng)線全部撥下來(lái),仍然在華為3528交換機(jī)上檢測(cè)到有環(huán)路出現(xiàn),這時(shí)我們對(duì)于故障的判斷就變成了可能是交換機(jī)本身就存在環(huán)路,而不是交換機(jī)上面的端口存在環(huán)路。
這時(shí)我們仔細(xì)觀察交換機(jī)的狀態(tài),發(fā)現(xiàn)即使在不插任何網(wǎng)線的狀態(tài)下,交換機(jī)上面仍然有幾個(gè)端口的指示燈是亮的,到此時(shí),我們確定判定此交換出現(xiàn)了環(huán)路故障。找到了故障點(diǎn),更換了交換機(jī)C,故障就排除了。最近這幾天不時(shí)的登錄到華為交換機(jī)上查看日志文件,沒(méi)有發(fā)現(xiàn)再有環(huán)路告警產(chǎn)生。
問(wèn)題解決了,但這個(gè)問(wèn)題卻影響了公司幾天正常業(yè)務(wù),造成了無(wú)形的巨大損失。這么嚴(yán)重的問(wèn)題,到底是因?yàn)槭裁丛蛟斐傻哪兀课覀儾荒懿徽页瞿缓笳鎯础?/P>
最基本的是交換機(jī)質(zhì)量不好或老化,導(dǎo)致機(jī)器回路,但這可能性很小,因?yàn)檫@個(gè)華為交換機(jī)剛買(mǎi)不到一年,而交換機(jī)本身回路的可能性微乎其微。
我們突然想到了這個(gè)細(xì)節(jié):泗水的同事很快的在局域網(wǎng)中就發(fā)現(xiàn)了感染病毒的機(jī)器,捎帶著還發(fā)現(xiàn)了一個(gè)問(wèn)題,即由于前幾天下雨打雷,單位中有幾臺(tái)連接用戶的交換機(jī)都出現(xiàn)若干端口損壞的情況。
有這樣的可能:雷擊不僅打交換機(jī)的端口打壞了,它還將交換機(jī)的內(nèi)部電路擊穿,從而導(dǎo)致交換機(jī)回路。 從當(dāng)前的情況看,真兇基本上可以確定是雷擊!#p#
真兇審查:它會(huì)影響整個(gè)網(wǎng)絡(luò)!
本來(lái)文章到這兒就可以結(jié)尾了,但是最近發(fā)生的一次故障又讓我們對(duì)于交換機(jī)本身故障產(chǎn)生的故障對(duì)于整個(gè)局域網(wǎng)的危害產(chǎn)生了更深刻的認(rèn)識(shí)。我們手頭上有一臺(tái)舊的交換機(jī),好長(zhǎng)時(shí)間沒(méi)用了,正好最近需要臨時(shí)擴(kuò)展一個(gè)網(wǎng)絡(luò),就拿出來(lái)想試一下。
當(dāng)時(shí)我們辦公室是連的互聯(lián)網(wǎng)(即外網(wǎng)),找了一個(gè)可以上網(wǎng)的網(wǎng)線,將其插到這臺(tái)交換機(jī)上,再用一臺(tái)筆記本接到這臺(tái)交換機(jī)上,看能不能上網(wǎng),發(fā)現(xiàn)不能上網(wǎng),但是很快的其它屋里面的同事就打電話過(guò)來(lái)反映說(shuō)他們屋里上不去網(wǎng)了,這時(shí)我們才意識(shí)到可能是由于這臺(tái)交換機(jī)的原因引進(jìn)的其它層里面的同事上網(wǎng)故障,這時(shí)重新我們這個(gè)樓層的交換機(jī)已經(jīng)解決不了問(wèn)題了,又重啟的核心三層交換機(jī)才解決了問(wèn)題。
事后我們回憶起來(lái),原來(lái)這臺(tái)交換機(jī)也是由于雷擊以后出現(xiàn)故障,當(dāng)時(shí)也只是以為是損壞了幾個(gè)端口,想不到是整機(jī)都有問(wèn)題。這還好是我們只影響了外網(wǎng),如果將這臺(tái)交換機(jī)直接接入到要擴(kuò)展的網(wǎng)絡(luò)(這可是一個(gè)很重要的內(nèi)網(wǎng)啊),那問(wèn)題可嚴(yán)重了。
這兩起事件讓我們對(duì)于由于雷擊對(duì)交換機(jī)的損壞有了新的認(rèn)識(shí),即會(huì)使交換機(jī)本身就產(chǎn)生環(huán)路,從而對(duì)于整個(gè)網(wǎng)絡(luò)產(chǎn)生嚴(yán)重的影響,如何有效的預(yù)防此類(lèi)問(wèn)題的產(chǎn)生是我們?nèi)蘸蠊ぷ髦行枰攸c(diǎn)解決的問(wèn)題。
【編輯推薦】