淺談SD-WAN的故障排除
當(dāng)SD-WAN出現(xiàn)問題或者您懷疑它導(dǎo)致應(yīng)用程序出現(xiàn)問題時,您會怎么做?當(dāng)然是,排除故障。
但SD-WAN故障排除要求IT團(tuán)隊非常了解他們正在處理的網(wǎng)絡(luò)設(shè)備、連接和拓?fù)洌约霸S多其他因素。以下是IT團(tuán)隊在處理SD-WAN問題時可以遵循的一些有用的監(jiān)控和實(shí)際故障排除的步驟。
SD-WAN故障排除的第一步是了解網(wǎng)絡(luò)是什么時候開始無法正常運(yùn)行的。在大多數(shù)情況下,監(jiān)控SD-WAN與監(jiān)控常規(guī)網(wǎng)絡(luò)并沒有太大區(qū)別。物理組件通常最容易監(jiān)控的:他們要么工作,要么不工作。由于抽象會使得多個網(wǎng)絡(luò)鏈路看起來好像是一個,因此邏輯函數(shù)可能會更具挑戰(zhàn)性。
監(jiān)控SD-WAN
1. 事件處理。
一個好的網(wǎng)絡(luò)管理架構(gòu)中最有用的元素是檢查來自網(wǎng)絡(luò)設(shè)備(包括SD-WAN設(shè)備)的事件。把事件想象成是網(wǎng)絡(luò)讓你知道值得注意的事情發(fā)生了。該過程不需要輪詢,并且它可以隨著網(wǎng)絡(luò)的增長而擴(kuò)展。
與簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)陷阱相比,我更喜歡使用syslog事件,因為它們不需要將特定的管理信息庫加載到管理系統(tǒng)中來查看詳細(xì)信息。IT團(tuán)隊?wèi)?yīng)該配置SD-WAN設(shè)備,以便將事件發(fā)送到公共事件處理系統(tǒng),在那里可以存儲、關(guān)聯(lián)和操作事件。
預(yù)算受限的組織可以使用開源收集器(如syslog-ng)以及各種分析工具來總結(jié)網(wǎng)絡(luò)可以生成的大量事件。有預(yù)算的組織可以研究ELK堆棧 - Elasticsearch,Logstash和Kibana。如果您需要廠商支持,則可以使用廠商支持的ELK版本、設(shè)備供應(yīng)商和日志處理供應(yīng)商的產(chǎn)品。
事件處理系統(tǒng)應(yīng)配置為在檢測到嚴(yán)重事件時自動生成故障單或向IT組織發(fā)送實(shí)時警報。所有事件都應(yīng)該在每日或每周摘要中報告,以確保最終可以看到遺漏的事件 - 比如說,知道一半的冗余設(shè)計不起作用是件好事。
2. 活動鏈路測試。
SD-WAN使用多鏈路提供可靠的端到端服務(wù)。活動鏈路監(jiān)控允許系統(tǒng)驗證SD-WAN在提供所需可靠性方面成功與否。可能需要多次測試來驗證不同類型流量的路徑,例如實(shí)時數(shù)據(jù)與批量數(shù)據(jù)。隨著SD-WAN站點(diǎn)數(shù)量的增加,易于部署對于成功實(shí)施至關(guān)重要。
確保將測試配置為模擬實(shí)際應(yīng)用程序流量,包括數(shù)據(jù)包大小、傳輸速率和服務(wù)質(zhì)量標(biāo)記。活動鏈路測試的一個優(yōu)點(diǎn)是,它可以在沒有應(yīng)用程序流量時檢測正常工作時間之外的問題。活動鏈路測試模擬真實(shí)的應(yīng)用流量并測試整個端到端系統(tǒng),包括鏈路選擇。
IT團(tuán)隊可以在概念驗證評估期間通過禁用每個WAN鏈接并監(jiān)控測試結(jié)果如何變化來使用此類測試。這對于確定廉價寬帶鏈路在低延遲路徑關(guān)閉時處理高優(yōu)先級或?qū)崟r流量的能力特別有用。將測試配置為始終運(yùn)行,這樣您還可以了解應(yīng)用程序在一天中的不同時間運(yùn)行的可能性。您可能還想知道其他應(yīng)用程序運(yùn)行時的性能級別 - 如備份或數(shù)據(jù)庫同步,或?qū)拵ЬW(wǎng)絡(luò)繁忙時。
3. 物理狀態(tài)。
SD-WAN設(shè)備通常基于具有內(nèi)部CPU、內(nèi)存、接口、電源和冷卻的x86系統(tǒng)。網(wǎng)絡(luò)事件(通常是syslog)應(yīng)該報告這些組件的問題。使用SNMP進(jìn)行監(jiān)控可以提供有關(guān)這些資源使用的額外數(shù)據(jù),并提供以下問題的答案:
- 每條路徑上使用多少個緩沖區(qū)?
- CPU是否在一天中的關(guān)鍵時刻處于飽和狀態(tài)?
- 電源是否正常工作,或者AC主輸入波動是否超出了電源可以處理的規(guī)格?
緩沖等參數(shù)的默認(rèn)配置通常是正確的,但有時您需要能夠修改緩沖區(qū)的數(shù)量以適應(yīng)應(yīng)用程序的功能特性,例如處理大量非常小的數(shù)據(jù)包。確保可以根據(jù)需要修改隊列深度。
您應(yīng)該驗證SD-WAN控制器在物理鏈路出現(xiàn)問題時提供警報和報告。它應(yīng)該能夠檢測到由于擁塞和雙工不匹配導(dǎo)致的振蕩鏈路、接口錯誤、數(shù)據(jù)包丟失,雙工不匹配仍然是一個常見的問題,因此盡可能使用自動協(xié)商。使用每日或每周報告來確定可能被忽略的警報問題。
4. 拓?fù)鋱D。
在進(jìn)行故障排除時,了解拓?fù)浜苤匾謩痈峦負(fù)鋱D是一個耗時且容易出錯的過程。尋找SD-WAN控制系統(tǒng),以提供物理和邏輯拓?fù)涞膭討B(tài)映射。基線就像SD-WAN物理拓?fù)涞恼鎸?shí)網(wǎng)絡(luò)源,了解實(shí)際狀態(tài)和期望狀態(tài)之間的差異可以使SD-WAN故障排除更加容易。
確定問題
解決網(wǎng)絡(luò)問題的關(guān)鍵是有條不紊。從一端開始,向另一端努力,或著采用分治策略。根據(jù)癥狀確定可能存在的問題類型。開放系統(tǒng)互連模型可以方便地確定問題的類型并在正確的方向上直接排除故障,例如:
- 物理問題,如失效的界面;
- 鏈接問題,如雙工不匹配;
- 路由問題,例如某些目的地可達(dá),且單跳測試成功;
- 應(yīng)用程序問題,如防火墻或最大傳輸單元(MTU)不匹配。
如果某些數(shù)據(jù)通過了測試,則較低級別的功能就可能正常工作,因此您可以將工作重點(diǎn)放在更高級別上。
SD-WAN故障排除步驟
對問題的分析通常包含以下幾點(diǎn):
- 驗證SD-WAN節(jié)點(diǎn)的基本功能。此步驟檢查CPU、內(nèi)存和接口連接。節(jié)點(diǎn)應(yīng)該能夠與控制器通信并下載其配置。
- 檢查基本接口功能。所需的接口應(yīng)該啟動并與鏈路另一端的設(shè)備通信。應(yīng)該與SD-WAN控制器建立基本連接,以便下載其配置。
- 驗證VPN功能。 SD-WAN產(chǎn)品在物理拓?fù)渲蟿?chuàng)建邏輯VPN覆蓋。您需要了解VPN的加密過程是如何工作、如何失敗以及如何驗證它是否正常工作的。
- 與整體路由架構(gòu)集成。 SD-WAN設(shè)備能夠使多個鏈路發(fā)揮作用,就像它們是一個鏈路一樣。每個站點(diǎn)的網(wǎng)絡(luò)可達(dá)性需要在不影響整體路由架構(gòu)的情況下與其他站點(diǎn)進(jìn)行通信 - 即,沒有路由黑洞、路由環(huán)路或不可達(dá)的子網(wǎng)。您需要了解路由分發(fā)的工作原理以及如何對其進(jìn)行故障排除。
- 驗證轉(zhuǎn)發(fā)策略。數(shù)據(jù)包是否在SD-WAN設(shè)備之間采用了合適的路徑? SD-WAN設(shè)備測量它們之間的延遲、數(shù)據(jù)包丟失和抖動,并使用策略來確定每個應(yīng)用程序應(yīng)使用哪個鏈路。當(dāng)一個應(yīng)用程序的鏈路失敗 - 或者它超出該流量類型的規(guī)范時 - 流量將被移動到另一個鏈路,這可能會影響移動的應(yīng)用程序,以及使用仍在運(yùn)行的鏈路的應(yīng)用程序。這種分析可能需要一些低級命令來訪問詳細(xì)數(shù)據(jù)。
當(dāng)您需要低級別詳細(xì)信息時,命令行界面非常有用。這些命令將包含用于檢查系統(tǒng)狀態(tài)和測試命令的show命令,例如ping和traceroute。了解如何將它們應(yīng)用于單個鏈路以及應(yīng)用程序流的測試。
可能需要數(shù)據(jù)包捕獲技術(shù)來診斷應(yīng)用程序是否存在其他方法無法理解的問題。 Wireshark的TCP序列空間繪圖功能是一個依賴于數(shù)據(jù)包捕獲文件的有用工具。
WAN運(yùn)營商 - 鏈路 - 問題
您需要了解丟包、延遲和抖動的鏈路特性。它們是否符合您定義的策略?鏈路是否根據(jù)鏈路提供者定義的服務(wù)級別協(xié)議(SLA)執(zhí)行? MPLS鏈路可能有SLA,而廉價的寬帶鏈路則沒有。
這里可能需要采用分治法。有選擇地一次只啟用一個物理鏈路,并驗證鏈路是否正常工作。然后,嘗試鏈路組合,最終得到所有鏈路運(yùn)行的點(diǎn)。不要忘記檢查策略是否正確。鏈路特征可能會發(fā)生變化,導(dǎo)致這些鏈路對任何策略都是不可接受的。
生成一個關(guān)于鏈路特征和使用情況的每周報告是一個好方法。對于大型SD-WAN實(shí)施,由于報告本身太大而無法使用,所以要過濾結(jié)果,僅顯示那些特征與任何策略都不匹配的鏈路。
檢查MTU不匹配。使用小數(shù)據(jù)包的應(yīng)用程序可以工作,但如果需要更大的數(shù)據(jù)包則不行。 ping和終端連接成功,但文件傳輸、備份和數(shù)據(jù)庫同步失敗,這時需要考慮MTU問題。
雙工不匹配。檢查接口統(tǒng)計信息以確定是否存在雙工不匹配,即使您無法檢查以太網(wǎng)鏈路上每個接口的配置。全雙工接口將顯示收到的runt數(shù)據(jù)包,半雙工接口將顯示延遲沖突。這些計數(shù)器應(yīng)包含較小的值,如果存在不匹配,則會在活動鏈路上增加。
結(jié)論
故障排除一半是藝術(shù),一半是科學(xué)。我建議可以學(xué)習(xí)特定SD-WAN產(chǎn)品的工作原理以及在初始概念驗證階段存在哪些SD-WAN故障排除工具。可以創(chuàng)建一個簡單的文本文檔,描述針對特定SD-WAN供應(yīng)商采取的基本步驟。當(dāng)網(wǎng)絡(luò)出現(xiàn)問題時,SD-WAN的故障排除過程就能夠得到簡化。
原文鏈接:
https://searchnetworking.techtarget.com/feature/A-deep-dive-into-SD-WAN-troubleshooting-and-monitoring