自動化網絡驗證以實現更順利變更
想象一下,一個關鍵業務網絡正在平穩運行。沒有發起任何嚴重故障單,所有服務都可以運行。變更控制委員會在會議上成功審查當天的變更。
然后,網絡團隊執行一個小的路由變更,一切看起來都很好。但是,不久之后,他們看到幾張高優先級的故障單。這是巧合還是事出有因?
對此,團隊恢復變更,這樣做可清除問題,并提供證據表明路由變更導致中斷。在進一步分析后發現,路由變更導致網絡的關鍵部分與互聯網意外隔離。
在各種規模的網絡中,類似的問題每天都會發生。變更控制委員會應該檢測并防止不正確的變更,但問題仍然會發生。網絡團隊如何提高網絡變更的質量?
自動化變更前和變更后檢查的案例
一種選擇是使用變更前和變更后的網絡驗證來評估網絡在變更前后是否按預期運行。
這里的目標是,讓網絡團隊通過執行一些簡單的變更前路由檢查來防止中斷。如果變更前驗證沒有發現問題,那么變更后檢查可以檢測到不正確的路由狀態,立即查明原因并恢復到先前的配置。這個驗證網絡狀態的簡單過程可以減少網絡中斷,或完全避免中斷。
雖然團隊可以使用手動流程來執行變更前和變更后的檢查,但自動化更有意義。無論團隊使用手動流程還是自動化流程,他們都必須確定變更前后的網絡狀態。工程師可能會注意到變更后狀態經常成為下一個變更周期中變更前檢查的基礎。
變更前檢查
當團隊自動化變更過程時,可以快速進行。這還可以幫助團隊避免人為錯誤,例如轉換數字或在錯誤的界面上操作,這些是在變更窗口期間經常會發生的問題。
變更前過程應確保選擇所需接口–通過檢查其操作狀態和分配的地址。如果已經啟動并運行,是否已經連接正確的鄰居?這些步驟可幫助團隊避免愚蠢的錯誤和由此導致的中斷。
網絡團隊可以使用變更前檢查作為變更控制委員會職能的驗證步驟。他們會將變更前驗證的輸出作為證據,以記錄所需起始狀態提交給變更控制委員會。變更控制委員會還要求團隊提供一組變更后檢查,他們將執行這些檢查,以驗證網絡在變更后是否達到所需狀態。
變更后檢查
當變更后檢查出現故障時,網絡未處于預期狀態。這可能是驗證數據不正確或網絡未處于所需狀態。自動化可以保存收集的數據,并快速恢復變更,將網絡恢復到變更前的狀態。然后,團隊可以針對所需狀態分析收集的數據,進行任何需要的更正并重新執行變更。
隨著團隊采用此流程,他們可能會發現,很多網絡操作狀態檢查對于執行變更都很有用,即使他們認為這些檢查不適用。例如,在進行路由變更時是否需要檢查網絡時間協議?如果設備時鐘不同步,日志數據將更難在網絡設備之間關聯。自動化使團隊可輕松執行無法通過手動進行的多項檢查。
定期狀態驗證
變更后狀態可以是一種有用的工具,用于定期驗證網絡的操作,以確保網絡按預期運行。假設冗余接口出現故障,并且網絡管理系統沒有標記它。定期狀態驗證將突出顯示它,使團隊能夠采取主動行動。
何時安排驗證運行
了解安排驗證運行的頻率取決于網絡及其支持的業務功能。團隊應在工作日開始前進行檢查。
應在任何變更窗口之前執行檢查,無論計劃的變更如何。網絡狀態驗證是只讀操作,因此團隊應該毫不猶豫地定期運行它。
開始網絡驗證
存儲當前和所需的操作狀態(以一種能夠自動執行檢查的格式)并不會涉及太多的工作。真正的工作是在自動化平臺的數據收集和分析中。幸運的是,pyATS 等庫可用于 DIY 自動化,而商業產品可以幫助簡化部署。如果團隊找不到滿足其需求的商業產品,咨詢公司可以幫助他們構建系統。
總之,在日常操作以及變更控制流程中,沒有理由不使用自動化進行網絡狀態驗證。