解析強調有關核心層交換機故障問題
下面文章進行有效地對核心層交換機的原理和一些常規使用方法做一下自己的見解,還有一些對核心層交換機故障問題的一些概述,希望大家能夠在以下的文章中得到相關幫助。
多個分支機構的局域網是通過租用當地運營商的10M光纖通道直接訪問本地總部企業網,所有本地分支機構的網絡匯聚到核心層交換,核心層交換機直接連到路由器。其他的核心層交換機負責各個網絡業務的接入,這樣網絡結構比較簡單明了,實際運行的狀態也是比較穩定的。
前幾天,網絡突然出現大面積癱瘓故障,并導致企業業務無法正常運轉。根據網絡拓撲及出現的故障現象,可以迅速地定位到核心層交換機設備出現了問題。到了現場的后,發現的主控板出現了告警,設備復位,告警并沒有消除,可以判斷為主控板損壞,更換新的主控板,設備運行正常,所有的二層透傳業務恢復,但是所有IP業務沒有恢復。
故障排查分析
排查一、物理故障還是邏輯故障?
故障的根源是核心層交換機的主控板出現了問題,這樣網絡故障的性質為物理故障。難道新更換的主控板有問題?但是設備運行正常,又沒有告警信息。如:show card ,show cpu等。
運行狀態上看,硬件沒有問題。難道更換設備后,數據丟失了嗎?察看相關的數據,發現并沒有丟失,但是IP業務還是不能夠恢復?可是部分透傳業務又沒有問題。究竟那里出現了問題呢?
排查二、DNS服務出了問題?
經過檢查,筆者發現,雖然業務不能使用,但所有的路由信息都是正常的,PING所有的網元信息也都是正常的。難道是DNS服務出了問題?所謂DNS,即域名服務器,它把域名轉換為計算機能夠識別的IP地址。
如網站對應的IP是219.218.100.100。如果DNS服務器出錯,則無法進行域名解釋,自然也就不能上網了。有時候則是路由器的問題,無法與ISP的DNS服務連接,這時可把路由器關閉一會再開或是重新設置路由器即可。
還有可能是網卡無法自動搜尋到DNS的服務器地址,可以嘗試用指定的DNS服務器地址。進入“控制面板→網絡和撥號連接”,雙擊“本地連接→屬性→TCP/IP協議”,在彈出的對話框中選擇“使用下面的DNS服務器地址”,然后填寫相應的DNS服務器IP地址。經過核實后,DNS也沒有問題。
排查三、是中ARP病毒還是有流量攻擊?
故障發生前期,個別分支機構經常有人反映說上網時經常出現丟包現象,想到最近局域網中經常出現的ARP地址欺騙病毒,筆者就向所有相關的網絡技術人員介紹了一下排查各自局域網,是否感染了ARP地址欺騙病毒。
希望通過找到并解決感染ARP地址欺騙病毒的機器來解決IP業務不能恢復的問題,并沒有查出結果。難道設備更換后,所有的路由表丟失了嗎?把前幾天的數據備份重新導入后,故障現象的依然存在。
為了更快的恢復業務,咨詢了設備廠家的技術支持,把所有的故障現象反饋給技術工程師,并查看了所有的告警及系統日志,并沒有發現可疑的問題。最后得到的結果是:該設備運行正常,沒有病毒的攻擊、流量異常等現象。
故障解決
路是通的,說明該設備沒有問題。網元是通的,DNS又沒有問題,但是業務不能夠恢復。在檢查IP ARP信息時,發現所有的MAC地址與IP地址都在地址表??匆姽P者使用的IP地址及MAC地址也在表中。
但筆者的計算機并沒有開!難道核心層交換機與路由器的端口出現了問題?嘗試著,把端口關閉后,再重新啟用。發現筆者使用IP地址后,沒有MAC地址。所有的IP業務全部恢復。
故障總結
雖然故障已經被解決了,但讓筆者感到疑惑不解的是:為什么重新啟動端口,業務就能夠正常。而出現的故障點不是在路由器上,而是在核心層交換機上。不重新啟動端口,測試的現象的都是正常的。
后來咨詢了相關的技術人員,故障發生前,數據的流量很大,故障發生時,很多的數據包不能正常轉發,端口就會出現假死現象,傳輸的數據流量很小。關閉后,把多余的數據遺棄掉,重新啟動,傳輸正常的數據信息。
總結上面的故障排除過程發現,出現網絡故障應該從正常網絡中去檢測上段部分網絡運行情況,來判斷網絡上段網絡是否正常,然后,再檢查下段網絡,使用PING命令測試,進行針對性排查。
即使發生的故障點恢復,并不代表業務的恢復,思考問題不能局限于局部信息,應該從全局思考。并結合具體的網絡工作環境,說不定發現故障就在疏忽那一瞬間,要認真觀察對網絡有影響因素。
可以避免少走一些彎路。作為一名網絡管理員,除了日常網絡故障的處理外,還會不時碰到自己知識范圍以外的東西,但只要引起足夠的重視,總會找到解決問題的辦法。
【編輯推薦】