敏捷的秘密:iPCA網絡包守恒算法
下一代網絡的“可視化”渴望
隨著網絡越來越復雜,對于網絡管理的需求也在發生變化。我們看到,網絡管理在朝著幾個方向發展,如可視化、自動化、智能化等。尤其可視化對于端到端的流量透視以及全網的安全策略管理等網絡整體性能管理和運維至關重要,成為網絡廠商的新發力點。
Gartner的調查結果表明,“主動預防網絡性能問題”是當前企業客戶首要的運維投資驅動力,占整個投資的27%,而“快速網絡故障診斷”、“業務質量保障SLA”分別排在第二、第三位,其投資驅動力分別為15%、12%。
傳統上,IP網絡運維存在多點“不可視”。例如,業務性能不可視,也就是說傳統網絡管理只提供網絡的性能,看不到網絡上的承載內容,導致故障認知盲點多,故障定位效率低。再如,傳統網管路由不可視,看不到業務路徑,導致運維人員無法預防路由振蕩引起的全網故障。
是否有方法徹底解決網絡運維中的上述“盲點”?
在華為看來,首先要轉變思維,將傳統的被動網絡運維轉變為主動網絡運維,實現對終端用戶的業務體驗監控,對潛在的故障點和薄弱環節進行精確判斷,才能做到科學、高效的“水來土掩、兵來將擋”。
傳統故障檢測的“罩門”
網絡故障診斷和質量評價等問題是網絡維護的核心問題之一。通常情況下,IT管理員不能確定網絡是否有故障隱患,也不會知道在哪里發生了故障,因此對視頻、語音和上網等業務的性能質量無法客觀評價。傳統園區網業務的性能故障診斷缺乏有效的E2E定位手段,導致故障診斷時間長、難度大,難以滿足用戶要求。
網絡性能故障診斷和質量評價十分重要,目前有多家研究團體和標準組織從事技術研究和標準制定。IETF 制定了RFC5357 (A Two-Way Active Measurement Protocol)和RFC4656(A One-way Active Measurement Protocol (OWAMP)用于IP網絡的性能統計和故障檢測。與此同時,Cisco推出了私有的SAA(服務保障代理)方案,華為公司則采用NQA(網絡質量分析)機制,以響應IP網絡可維護、可運營的訴求。所有這些用于IP的故障檢測機制有一個共同特點:它們都是一種間接測量方法,需要通過插入專用的檢測報文,計算檢測報文丟包率來間接推導出業務丟包率。而IP通信是無連接的,檢測報文經過的路徑并不一定就是業務報文經過的路徑,這導致檢測出的路徑質量不能真實反映業務報文的傳輸狀況。
網絡包守恒算法iPCA
企業園區網絡的運營維護不僅僅要關注網絡功能和性能,更要從用戶與業務對網絡的要求出發,關注用戶體驗和網絡質量。華為S12700敏捷交換機的iPCA提供的網絡包守恒算法,能夠快速檢測任意用戶的視頻、語音等業務質量,即刻定位故障發生在鏈路、板卡甚至芯片的位置,大大提升了運維效率。網絡能用與好用是完全不同的兩個境界,iPCA無疑實現了從“能用”到”好用”的飛躍。
iPCA(Packet Conservation Algorithm for Internet,網絡包守恒算法)是一種基于直接測量方式檢測網絡質量狀況的管道監控類技術,它可以測量網絡的丟包、時延、時延抖動和流量,并通過逐跳檢測,完成故障精確定位。針對現有的檢測手段存在故障定位時間長、故障定界模糊和評估精度差等問題,華為新推出S12700敏捷交換機,利用其靈活可編程的特點,開創性地實現了iPCA功能,全面提升網絡質量檢測和故障精確定位能力,降低網絡運維成本。
圖1-1 iPCA原理示意圖
如上圖所示,iPCA方案包括兩部分:測量控制服務器和敏捷交換機。測量控制服務器接收用戶對目標業務流進行質量檢測的請求,通知敏捷交換機進行檢測,收集各個敏捷交換機的統計信息,計算并形成報告。
總體說來,iPCA具有以下特點:
華為專利技術,解決IP運維業界難題
華為創造性地利用了IPv4報文頭中至今唯一保留的bit位:Flags字段的第0位,用以對目標業務流進行染色。由于絕大多數利用IP通信的業務都要有標準的IP報文頭,因此這種染色方法可不依賴于業務類型,方便設備進行硬件處理。
直接檢測機制,故障檢測精準
對業務流質量進行直接測量,無需插入測試流,檢測路徑與真實業務路徑合一,故障精準定位到鏈路、板卡甚至芯片,對于時延、抖動、丟包的檢測精度更可達到99%以上,而其他IP故障檢測機制(如Cisco SAA)的檢測精度只能達到30%左右。
基于ENP以太網絡處理器,輕松實現對任意業務流進行檢測
為了對目標業務流進行故障檢測,需要對業務流進行區分和著色,傳統的交換機只能用有限的ACL資源進行業務流識別,且只能用CPU對報文進行染色,性能低下,無法規模部署。而基于ENP的S12700敏捷交換機支持高達256K ACL,可對任意業務流進行標識,并且用微碼來對業務流進行染色,實現線性轉發。
iPCA應用場景
iPCA應用于多種場景,如園區、電力、IP RAN以及ISP鏈路租用等,通過對丟包、時延、抖動等網絡質量的檢測,迅速定位視頻、語音、有線無線等應用的故障原因。
圖1-2 iPCA園區應用場景
如上圖所示,iPCA可逐段檢測接入、匯聚、核心乃至廣域各段的網絡指標。故障定界迅速精確,可立刻判斷出故障發生在網絡中的某一塊板卡甚至某個芯片,為解決故障提供強有力的保證。即使在廣域網部分不支持iPCA特性,通過對廣域兩端的園區出口進行分析,亦可確認故障是否發生在廣域部分,明確責任歸屬。