利用科來網絡回溯分析技術診斷網絡設備異常丟包故障
作者:佚名
某大型集團公司縣公司信息內網PC在訪問省公司業務和市公司業務時間歇性出現訪問連接非常慢的情況,以及使用內網PC對省公司DNS服務器和市公司官網IP持續ping操作時出現不定時丟包現象,但縣公司訪問其內部服務器并無故障現象。訪問連接慢嚴重影響信息內網的正常業務交互,尤其是營銷部門對省公司收費系統服務器的請求訪問。
案例背景
某大型集團公司縣公司信息內網PC在訪問省公司業務和市公司業務時間歇性出現訪問連接非常慢的情況,以及使用內網PC對省公司DNS服務器和市公司官網IP持續ping操作時出現不定時丟包現象,但縣公司訪問其內部服務器并無故障現象。訪問連接慢嚴重影響信息內網的正常業務交互,尤其是營銷部門對省公司收費系統服務器的請求訪問。
網絡拓撲圖,如圖1:
圖 1某大型企業網絡拓撲圖
將科來網絡回溯分析系統旁路接入到縣公司信息內網的核心交換機上,由于故障發生的間歇性需要對縣公司到市公司的主干出口流量做長時間捕獲。并利用科來網絡分析系統不間斷的捕獲市公司核心交換機與C路由器的下行接口流量。利用對比分析法,在故障發生時段,分別對兩處捕獲到的流量做精確分析。
案例分析
一、出口流量分析
通過科來網絡回溯分析系統對通訊流量的長時間存儲,我們對故障時段的通訊流量進行故障重現。我們在縣公司捕獲點,對故障時段數據進行回溯。選擇4分鐘分析窗口(流量統計精度為1秒),未見突發流量和通訊流量為0的情況。廣播與組播流量正常,TCP SYN比值屬于正常范圍。
對該時段的網絡應用進行分析,流量占用***網絡應用為:HTTP、未知TCP、HTTP Proxy,屬正常業務行為。網絡應用中存在CIFS掃描,但該應用的通訊數據包少,對主干鏈路的傳輸影響不大,網絡安全事件不是造成丟包的原因。
對縣公司訪問關鍵業務標準應用監控梳理,網絡鏈路傳輸質量良好,排除鏈路擁塞造成丟包現象。但客戶端訪問10.176.X.X服務器的TCP會話中存在98次TCP重傳,上行重傳次數為97次。大量的TCP重傳造成會話延遲確認,嚴重影響會話質量。TCP重傳大部分發生在上行,說明丟包位置在縣公司到省公司之間。
二、TCP會話解碼
對應用請求的TCP會話進行解碼以確定訪問延遲的具體原因。選取故障時段,縣公司信息內網PC主機10.178.x.x訪問10.176.X.X的應用通訊流量,客戶端10.178.x.x使用2487端口訪問10.176.x.x的TCP 80端口,網絡鏈路傳輸質量良好,無鏈路擁塞。
持續向下分析,我們發現縣公司捕獲點TCP會話的77號數據包在271ms后對73號數據包Seq4245726722進行了重傳,73號數據包已達到縣公司信息內網辦公核心交換機出口。而同一會話在市公司捕獲點客戶端10.178.x.x發送的數據包中Seq4245726722的數據包只捕獲了一次,該包并未出現在Seq4245725830與Seq4245728182之間,而是間隔200多毫秒后才出現了一次,說明在市公司只捕獲到了重傳的數據包,客戶端10.178.x.x***次發送的Seq4245726722數據包在縣公司到市公司之間被丟棄。
我們對兩次捕獲TCP會話進行對比分析,如圖2:
圖 2捕獲的兩次TCP會話
該TCP會話中存在大量的TCP重傳,通過對兩處捕包點的TCP會話對比分析,確定造成丟包位置在縣公司與市公司之間某一中間件網絡設備。整個TCP會話過程中客戶端和服務器響應時間未見異常,結合前面對網絡鏈路傳輸質量的分析,確定縣公司對省市公司的業務訪問出現間歇性延遲的原因是由于中間件網絡設備對數據包的丟棄造成。
三、故障定位
根據拓撲圖,縣公司路由到市公司核心交換機之間需要經過3臺路由器進行轉發。我們對故障發生時段接入B路由器的其他區縣信息內網PC訪問省市公司業務系統的TCP會話進行解碼分析。三次握手時間7.9ms,網絡傳輸質量良好,未見鏈路擁塞。TCP會話中未見丟包重傳,客戶端和服務器響應正常。說明故障時段,只有該縣公司信息內網出現訪問丟包現象。因此,故障范圍縮小為縣公司→A路由器→B路由器之間。
我們對縣公司到B路由的各個路由接口進行逐一檢查,發現A路由器與縣公司連接的下行接口光模塊在Input方向有大量CRC校驗碼錯誤日志。
CRC循環冗余校驗碼錯誤有三種可能:
1、 雙方網卡工作模式不同;
2、 鏈路通道信號衰減嚴重;
3、 網卡故障。
我們又對縣公司至A路由上行接口進行檢查,光模塊工作模式與對端A路由器相同,排除***種可能。對縣公司與A路由器之間的光纖通道進行衰減測試,通道正常。排除第二種可能。
CRC校驗碼錯誤日志是在A路由器與縣公司的下行接口的Input方向上檢查到,說明縣公司的路由器的上行接口在對數據包進行CRC循環冗余校驗碼封裝時出現間歇性故障,導致A路由器下行接口在對數據包進行CRC校驗碼解碼時發現錯誤。對錯誤CRC校驗碼數據包丟棄。
四、故障處理
將縣公司到A路由器的光模塊進行更換,恢復通訊一段時間后,對A路由器下行接口進行檢查,CRC循環冗余校驗碼數值不再增加。對縣公司訪問省市公司業務系統的TCP會話進行解碼,雙方通訊交互正常。TCP會話統計信息中無重傳和丟包。縣公司與省市公司之間的通訊恢復正常。
案例結論
1、縣公司到市公司之間的鏈路流量值不大,流量趨勢不穩定,對縣公司至市公司之間的業務交互的TCP會話分析后,客戶端RTT值正常,服務器RTT值正常,未見鏈路擁塞情況;
2、通過在縣公司和市公司的對比抓包分析,發現業務交互的TCP會話存在嚴重丟包現象,經過定位分析,發現縣公司邊界路由器出口光模塊存在CRC校驗和錯誤;
3、將縣公司邊界路由器出口光模塊更換以后,CRC校驗和錯誤提示不再增加,對業務交互流量分析,未見丟包現象,業務通訊恢復正常。
責任編輯:鳶瑋
來源:
科來軟件