高性能路由解決網絡流量問題
全球WAN升級很需要服務提供商的三層VPN MPLS服務,但一些站點中一直受到高性能路由和可用性問題的影響。在一些從原來WAN基礎架構遷移過來的站點(主要是新興市場)的網絡路由問題報告中,諸如應用程序超時、響應速度慢和完全斷線等越來越普遍。這些站點都是基于低速P2P線路、幀中繼和IPsec/互聯網VPN等網絡結構。
許多時候人們經常質疑是服務提供商的線路或設備故障引起了問題,但是有時候我們會被告知問題只是“暫時性的”或者“沒有發現問題”。遇到這樣的情況,我們的運營人員登錄到一臺 CPE路由器,然后發現MPLS PE路由器上包含了BGP路由,因此所有的流量都被丟棄了,包括PING流量。運營人員手動關閉連接提供商的CPE WAN接口,使站點從MPLS網絡切換到傳統的WAN網絡,從而使服務恢復正常。這個問題引起了我們主管的高度關注,因為把原有網絡作為備份網絡需要開支。而且許多此類站點都是無人看管的,它們在半夜還會執行一些批處理應用程序。
是否有一些技術或解決方案能夠自動檢測和處理這類網絡路由問題?我們了解BFD,但是似乎這是一個專門用于鏈路的解決方案,有一些提供商不支持。我們的運營人員考慮采用GRE通道疊加技術,但是它會顯著增加網絡復雜性,而且還會影響我們重點部署的MPLS VPN。
回答:似乎您遇到了通常所謂的“管制”或“黑洞”問題,其表現是MPLS核心網絡的問題影響到了終端用戶,但是未影響到CPE路由器本身。這些問題都經常出現在3層VPN網絡,而在傳統P2P或覆蓋(幀中繼、IPSEC)WAN部署的概率則較小,這是因為服務提供商增加了一個路由層的緣故。由于任何兩個CPE站點都不會建立直接路由,所以它們必須使用MPLS/VPN網絡的PE路由器發出的控制面板信號。這比設計很差的服務提供商網絡還要慢很多。
FD(雙向故障檢測)無法解決您的問題,這點您說對了。它只支持直接相鄰的“存在性”檢查,而不能檢測確定端到端路徑完整性。在CPE路由器之間部署疊加的GRE通道肯定是一種檢測問題的可行方法。在通道中,可以使用GRE持久連接或優化路由協議來檢測性能問題和執行故障恢復。然而,正如您所說的,這類設計會增加復雜性,而且在一些特定平臺的硬件上,由于需要分片和無法轉發數據包,它會影響性能。
有一個可供參考的解決方案是高性能路由(Performance Routing, PfR),其前身是最優邊緣路由(Optimized Edge Routing, OER)。高性能路由集成了思科IOS解決方案,它使用嵌入式思科智能IOS特性來改進應用程序性能和可用性,從而優化傳統路由性能。經過配置,PfR就能夠在網絡出現問題,或者用戶定義策略影響特定WAN出口性能時,監控IP流量流,測量WAN路徑性能和動態重定路由流量。基于IOS報告源的實時反饋信息,如NetFlow數據記錄、IP SLA統計信息和WAN鏈路使用率,PfR能夠作出智能路由決策。這樣就可以實現傳統路由協議(OSPF或BGP)無法實現的感知應用程序的路由功能,因為傳統路由協議只支持一維的“最佳路徑”選擇。
根據在CPE路由器上運行的硬件和IOS級別,您可能只需要在CPE路由器上啟用PfR屬性,然后定義一個性能策略,監控端到端的路徑可用性。當來自Netflow或IP SLA的反饋信息表明出現了管制或黑洞狀態時,您就可以將流量重新轉發到傳統網絡。這是報告非常有用的特性。
【編輯推薦】