最常見網絡和用戶體驗問題的根本原因分析
網絡基礎設施故障排除是一個多層次的過程--從模糊的 "有問題 "到具體問題的根本原因分析。這個過程越規范,對網絡行為和影響終端用戶的問題之間的相關性理解得越透徹,問題就能越快地得到解決或交給適當的團隊進行補救。
這個過程中常年面臨的挑戰是,用戶投訴通常是模糊的。用戶(無論是員工、客戶,甚至是對網絡條件敏感的算法)通常會遇到三種情況:"我無法連接"、"網絡太慢 "或 "我的語音/視頻通話質量不好"。由于每一種情況都可能是由多個潛在問題引起的,因此IT團隊往往難以縮小事情的范圍。例如,網絡速度慢可能是由網絡、應用程序或協議延遲引起的,其中每一個都可能通過任何一個不同的指標顯示出來。但對于沮喪的終端用戶來說,這一切看起來都是一樣的--而且很多東西可能會在轉換中丟失。
為了找到根本原因并加快問題的解決,IT團隊不僅需要正確的工具來評估網絡指標,還需要清楚地了解用戶體驗、可測量的網絡行為和潛在網絡問題之間的相關性。為了說明這一點,讓我們來看看故障排除的過程。
第一步:收集相關指標
各組織依靠許多來源和類型的網絡數據來為終端用戶的投訴提供背景。他們的基本需求是建立網絡監控基礎設施,以便IT能夠訪問數據包數據、流量數據、事件和遙測數據以及服務器KPI。這將為他們提供所需的洞察力,以確定各種場景的根本原因。有一些特定的指標與具體問題相關。對于 "網絡很慢",相關指標將是單向延遲、往返時間、Z-Win、DNS或HTTP延遲、吞吐量(Gbps)、每秒數據包(PPS)、每秒連接數(CPS)或并發連接數(CC)。對于 "質量差",要看抖動、序列錯誤、重傳和碎片。當 "連接性 "是問題時,檢查ICMP、HTTP和SYN/ACK錯誤。
第二步:縮小問題范圍
一旦IT團隊獲得了所需的數據,他們就可以開始關聯各種網絡行為,以排除可能的原因,并將實際問題歸為零。這根據他們所要解決的投訴而有所不同。
網絡速度慢--這很可能是由網絡過載引起的,但也有可能是服務器太忙或DNS服務器沒有響應。正如討論過的,相關的指標是單向延遲(網絡問題)、往返時間或Z-Win(應用問題),以及DNS或HTTP延遲(協議問題)。如果網絡延遲很高,那么要么是網絡上的整體流量太大,要么是 "爆棚"。觀察整體性能和吞吐量(Gbps)、每秒數據包(PPS)、每秒連接數(CPS)或并發連接數(CC)應該有助于確定是哪一種。如果應用或協議延遲是原因,那么可以將問題傳遞給相應的團隊來解決。觀察數據包和流量數據對于排除緩慢網絡的故障尤為重要。流量數據可以識別每秒的頂級通話者或數據包,但它無法判斷網絡的突發程度或每秒的連接數--這需要數據包數據。
質量差--IT應該監控抖動、序列錯誤、重傳和碎片,以診斷這些投訴。高比率的抖動和序列錯誤表明問題出在網絡流上,而重傳和碎片則表明問題出在數據包丟失上。這些問題可能是由路由問題或MTU(最大傳輸單元)碎片配置錯誤引起的。
連接性 - 這種投訴可能是由認證、授權或設備的訪問控制列表中的錯誤問題引起的。要弄清楚是哪一種,IT團隊應該首先查看相關設備的協議錯誤。接下來,他們應該檢查連接錯誤,比如查看數據包數據是否有SYN/SYN ACK錯誤,以確保客戶端和服務器之間的TCP/IP三方握手是完整的。
第三步:找出根本原因
至此,IT部門應該已經找到了問題的根本原因,可以著手進行補救。問題經常是網絡配置錯誤,但其他的可能性包括網絡設備故障、應用程序錯誤或bug、DDoS攻擊或某些其他安全事件。但是,如果不能訪問廣泛的網絡指標和數據包數據,IT人員將不得不猜測到底是哪個問題在起作用。