兩招教您快速排除交換機故障
交換機有很多值得學習的地方,這里我們主要介紹兩招教您排除交換機故障,在一個交換式網絡中,往往排除交換機故障比排除路由器故障要困難的多,雖然說,路由器工作原理要比交換機復雜的多。筆者今天就像大家介紹一些自己維護交換機的經驗,教大家兩招簡單易行的交換機故障排除大法,希望能夠對大家有所幫助。
利用交換機空閑端口來分析網絡流量
當出現網絡堵塞或者其他問題時,我們首先需要對一些數據流量進行分析。只有在分析的基礎上,我們才能夠對癥下藥,迅速解決問題。為此,筆者平時在遇到交換機故障時,就喜歡在交換才的空閑端口接入一個檢測工具,如協議分析儀器。把協議分析儀器直接連接到交換機的空閑端口,如此的話,在不用中斷當前服務的情況下,就可以查看交換機所在的廣播域。網絡管理員可以借此來判斷是否是因為廣播域過多引起了網絡故障。
不過,在實際工作中,這里還有一個小技巧要注意。我們都知道,交換機是屬于網絡設備的二層設備,其會轉發廣播域,但是,不會轉發其他流量。也就是說,交換機是屬于一個大的廣播域,而不是沖突域。所以,交換機幾乎不轉發任何有價值的流量到那個被監測的端口。交換機會直接把數據流量轉發到其對應的目的端口。往往在這些空閑端口中,協議分析儀器只能夠監測到廣播包,而幾乎監測不到其他的信息流量。因為轉發到空閑端口(監測端口)的流量幾乎全部都是廣播,包含一些零星的目的地址不明的幀。這些零星的幀是由于路由轉發表老化的結果。可見,如果不做過特殊的處理,在空閑端口上即使連接上監測設備,也只能夠發現無窮的廣播包,而不能夠監測到其他有價值的信息流量。
而最昂貴的監測設備也必須在有流量的情況下,才能夠幫助我們管理員找到問題的癥結所在。在沒有有價值的流量情況下,這些監測設備也無能為力。為此,我們網絡管理員就需要想方設法,然這個空閑的端口,也能夠收到其他端口經過的流量。
此時,端口鏡像技術就可以幫我們有效的解決這個問題。端口鏡像是指把某些端口的流量備份到一個空閑的端口,讓空閑端口擁有企圖端口相同的信息流量。思科的交換機基本上都有擁有這種技術。思科的交換機可以把監測工具接入到一個專門處理過的空閑端口。在思科比較早的版本中,可能對這個端口還有限制。不過在現在市場上流通的交換機,可以通過對任何一個空閑的交換機端口進行配置,實現端口鏡像技術。
不過,另外還需要注意一個問題。就是交換機在轉發流量的時候,為了提高轉發的效率,往往把一些錯誤的包與信息直接過濾掉了。在平時,這明顯可以提高交換機數據轉發的效率。但是,我們網絡管理員在故障排查的時候,可不希望看到這種情況。因為這些錯誤信息可能可以反映出問題的癥結所在。若以在網絡故障排查的時候,要注意對交換機的這個配置進行更改。不過,故障排除完畢之后,要及時的把這個參數更改回去。
還有在對鏡像端口進行監測的時候,還需要注意一個丟包的問題。監測端口的輸出能力往往是影響最終排錯效果的一個很重要的因素。鏡像端口跟普通的交換機端口一樣,可以收,也可以發。不過為了簡化監測數據的結果,我們在配置鏡像端口的時候,往往會關掉監測端口的發送數據包功能。而讓監測器只分析接收的信息流量。雖然如此配置,但是鏡像端口的接收能力仍然會有比較大的限制。如果被監測的全雙工端口的速率和鏡像端口是一樣的花,則交換機在轉發流量的時候,鏡像端口很容易丟包。被監測端口過好的信息流量有可能會超過鏡像端口的接收能力。所以,雖然說在理論上可以拿任何一個空閑端口作為鏡像端口。不過為了減少丟包情況的發生,網絡管理員在配制鏡像端口的時候,還是需要有一定的選擇。如至少要保證鏡像端口的性能要比被監測端口高。如此才能夠保證監測器得出一個正確的結果。
所以,為了減少監測端口丟包現象的發生,筆者有兩個建議。一是不要把多個被監測端口的信息流量鏡像到一個端口中,這會更加惡化丟包現象。二是在選擇鏡像端口時,最好選擇一個高速的空閑端口作為監測端口。
利用一層設備來幫助監測器進行工作
既然交換機是屬于二層設備,不能夠轉發所有的信息流量。那么我們就思考,能否利用一個一層設備,如集線器,來幫助監測器來收集所需要的信息呢?其實,現在不少企業的網絡就是一個大的廣播域。如我們在中間的一個關鍵環節中,加入一個集線器。然后把網絡監測器連接到這個集線器的空閑端口中。如此的話,就不需要配置鏡像端口,就可以讓網絡監測器收集到其所需要的網絡流量。
利用這種方法的難度,主要在于網絡管理員要選擇一個合適的位置來放置這個集線器。若選擇的不當的話,網絡監視器仍然不能夠收集到其所需要的內容。現在大部分的企業,所采取的網絡應用都是基于服務器/客戶端或者服務器/瀏覽器模式。這跟以前的網絡部署模式不同。以前企業在部署網絡的時候,可能每臺主機都會設置共享文件夾,供其他員工訪問。但是現在不同。為了提高企業文件的安全性與共享程度,網絡管理員往往會部署一臺專門的文件服務器來管理這些共享文件。通過統一的備份與文件訪問授權方案來提高文件的安全性。
此時,企業服務器與客戶段之間的流量往往是最集中的。若網絡管理員把集線器部署在服務器一端,并把網絡監測器放在這個集線器的空閑端口上,無疑可以監聽到大部分的網絡流量。從而讓網絡監視器能夠得出一個相對合理的診斷結果。在服務器一端部署集線器等一層網絡設備,可以幫助網絡管理員收集到用戶登錄失敗、訪問沖突、數據包丟失、認證失敗等數據流量,從而為我們解決問題提供數據上的支持。特別是通過這種方式,我們可以判斷出是否是在交換機端出現了故障,還是在其他層面出現了問題。俗話說,不識廬山真面目,只緣生在此山中。有時候,脫離交換機去查找網絡故障,反而可以幫助我們網絡管理員迅速定位交換機故障。
另外,到目前為止,這也可以說是筆者了解的唯一一種可以在交換網絡環境中實際查看和分析物理地址層錯誤的方法。通過這種方法,可以發現交換機等網絡設備是否存在著地址解析方面的錯誤。特別是對于發現ARP攻擊具有非常好的效果,不過采用集線器來判斷思科交換機的故障,仍然有一些缺陷。
一是需要頻繁的插拔集線器,可能給日常的網絡訪問帶來麻煩。因為在服務器與客戶段之間,網絡管理員不可能時間放置一臺工作效率低下的集線器設備。這會大大的降低服務器的性能。只有在網絡出現故障需要維護的時候,網絡管理員才會在服務器與客戶段之間臨時部署一個集線器。此時,就需要暫時中斷網絡訪問,進行連接。
二是如果集線器端口的工作狀態與其他相鄰設備的工作狀態不同,如服務器鏈路不是全雙工的,或者與集線器端口的雙工狀態不匹配,此時,反而會帶來許多額外的錯誤結果。這些錯誤結果會弄混網絡管理員解決問題的思路。故筆者建議,若要借助集線器來判斷交換機的故障,則最好在這之前,先確認集線器端口的工作狀態跟現有的網絡是否匹配。防止因為不匹配的現象發生,而造成一些不必要的麻煩。
三是這個方法網絡管理員只能夠被動的采用。因為在靠近服務器一端放置集線器是一個很愚蠢的行為。所以,網絡管理員往往只會在出現問題的時候,才去部署一個集線器來進行網絡排錯。所以,這個網絡監視不能夠成為一個日常行為。故這種處理方法,對于網絡管理員來說比較被動。
以上是筆者在交換機組成的企業網絡中經常會采用的兩個排錯方法。這兩個方法可以幫助網絡管理員排除大部分由于交換機故障所帶來的網絡問題。不過,在實際工作中,仍然有部分交換機故障無法通過這種方式來解決。而需要依靠網絡管理員的工作經驗來發現。畢竟,憑現有的技術與工具,想要憑借一些簡單的方法透視整個企業交換網絡,幾乎是一件不可能的任務。