網絡性能指標構成數據中心挑戰
網絡世界因為思維模式的廣泛變化而聞名,并通常驅動著網絡行業的炒作周期。其中有很多模式轉變,例如集中控制平臺、分散控制平臺,以及各種路由協議和范例。
目前正在發生的一個主要變化是支持公共云或私有云的葉脊數據中心結構,可以將其視為將網絡、計算和存儲資源作為計算能力單元進行的銷售。
數據中心結構通常基于最初為電話網絡設計的CLOS結構,其中準入控制是服務質量的主要手段。在電路交換領域,網絡性能指標主要是分配固定數量的帶寬,如果沒有可用帶寬,則拒絕允許連接。
這些最初的LOS網絡已經通過折疊(或雙向傳遞流量)和構建不同的變體(如Benes和Butter)來適應計算機網絡。這些更通用的葉脊網絡對網絡性能指標提出了超出導納控制的挑戰。
以下是網絡面臨的一些挑戰。
例如在一個網絡中,主機1和主機2之間有256條路徑。那么可以收集哪種網絡性能指標來了解網絡的運行情況?
收集每個接口的隊列深度、丟棄數量和傳輸控制協議重傳將提供網絡性能的可靠通用視圖。但是,除了這個抽象視圖之外,很難看到如何收集有助于任何一個應用程序更高效地操作的信息。
這是一個更具體的示例:如果應用程序性能不佳,并且懷疑問題出在網絡中,那么將在哪里開始故障排除?很難通過這些類型的寬泛等價多路徑網絡跟蹤任何數據包或數據包流的路徑,以確定可能存在問題的位置。
一個可能的答案是向網絡添加更多狀態,尤其是在網絡性能指標中。例如,如果使用IPv6版本的分段路由(SRv6),則可以為網絡接受的每個數據包添加一個報頭,并在數據包報頭上添加路徑列表。
由于SRv6在交換過程中不會刪除或修改此標頭,因此檢查路徑中任何一點的數據包報頭將顯示數據包已通過網絡的路徑。有許多不同的方法,可以通過網絡添加跟蹤單個流所需的信息類型,但每種方法還涉及另一種權衡。
添加這些網絡性能指標可能會產生大量新信息,網絡管理系統必須消耗、管理、分類和考慮。在對問題進行故障排除、容量規劃以及通常了解網絡健康狀況的過程中,人們也必須消耗這些信息洪流。這些問題尚未得到完全解決,但它們可能是研究、機器學習以及網絡管理系統設計和部署中更強大架構方法的新方向。