良好的網絡管理和設計解決網絡難題
解決網絡問題容易。數據包丟失、超額配置、安全補丁和軟件版本控制等問題讓網絡工程師噩夢連連。但很多IT專業人員發現,良好的網絡設計和管理可以幫助他們緩解這些問題。
Apex Tool Group LLC公司架構和桌面服務經理Patrick Miller記得很多年前試圖追查令牌環網絡中經常出現的一個問題,這個問題現在在很多企業網絡仍然經常出現。“我曾經遇到過這樣的情況,每天晚上10點,我們工廠外的UPS(不間斷電源系統)就會斷電,沒有人能解釋為什么會這樣,”Miller表示,“于是,我帶著嗅探器和筆記本去做ping和traceroute,最后,我還檢查了電纜。”
最終,Miller發現一個受控訪問單元的電源插頭被拔掉,一位清潔阿姨每天晚上會拔掉它,以便她能使用吸塵器,正是這樣造成整個網絡宕機。“這樣奇怪的事情時有發生,”他表示,“有時候你會部署1萬美元的設備來試圖解決這個問題,而有時候你只需要跟蹤電纜就能解決。而數據包丟失則是一個完全不同的問題,數據包丟失是非常怪異的事情之一,有時候你根本找不到解決辦法。”
解決網絡問題的靈丹妙藥很難找到,但網絡工程師希望能夠減少他們花在這些問題上的時間。不幸的是,很多公司仍然有很長的路要走。MyITassessment.com是幫助大型系統集成商評估客戶網絡的基于軟件即服務的基礎設施評估供應商,該公司從其對2000多家企業網絡的掃描中總結了一些有價值的統計數據。
1. 在63%的企業網絡中,3層設備出現過數據包丟包情況。
2. 在35%的網絡中,已超用配額的交換機造成性能問題。
3. 在44%企業的交換機和路由器中有未打補丁的安全漏洞。
4. 超過75%的企業在同一產品系列的設備上有版本不一致的IOS。
5. 在54%的網絡中,交換機和路由器已經不再受供應商支持。
這些問題依然存在,很多網絡供應商正在積極尋求方法來對付它們。
解決丟包和超額配置問題
工程師可能永遠無法完全避免其網絡中的數據包丟失問題,但嚴密的監控和更好的網絡設計可以幫助緩解這些問題。全球人力資源公司Randstad網絡經理Forrest Schroth在其多協議標簽交換機(MPLS)云中監管300個站點,他密切地監察四個指標來防止數據包丟包。
“我通常會尋找抖動,錯誤組裝的數據包,這有可能是電信運營商的問題,也有可能是因為我們內部的壞的接口卡。我要確保使用率不會違反某些閾值,對此我想你可以增加延遲性,”Schroth表示,“當我早上來上班時,我會有一個圖表來向我顯示所有站點的情況,以及哪個出現最多錯誤、最多抖動,哪個站點的利用率最大。我們會對此進行流量整形。當有錯誤出現時,我們會呼叫所有與我們接口的運營商,以及位于我們供應商邊緣和我們客戶邊緣之間的運營商,試圖找出錯誤的來源,這通常是一個工程師的日常工作。”
布萊恩特大學計算機和電信服務主管Rich Siedzik表示,然而,數據包丟失在局域網上很難追查。“對于我們來說,通常是這樣的,當你開始看到服務降低或者用戶投訴時,你會發現數據包丟失的情況,然后你開始追查這個問題。這個工作很困難,因為有太多網段和太多不同的路徑,”Siedzik表示,“在每個路徑運行檢測工具幾乎是不可能的事情,于是,當我們在網絡的不同網段中檢查時,我們會優先考慮某些網段,例如從核心到分布層的網段。然后,當你到達接入層時,就只有較少的監控,因為有更多點需要監控。”
很多時候,數據包丟失是壞的電纜或者端口造成的。有時候,則是因為糟糕的設計。網絡工程師犯的最大的設計錯誤是專注于帶寬,而不是交換機處理數據包的能力,Randstad公司的Schroth表示:“它是一個千兆接口,并不意味著它要接收所有的流量。我更感興趣的是一臺設備接收流量的速率,即每秒數據包接收率。我看到很多人已經進入10千兆,這很好,但你需要確保設備是線率。”
myITassessment.com首席執行官兼首席分析師Jeremy Littlejohn表示同意。太多工程師用帶寬來解決問題,而不是深入問題的根源。“不知怎么的,帶寬成了所有事物的首要指標,這并不是好事,”他表示,“工程師應該專注于數據包丟失,檢查是缺乏帶寬還是其他東西在造成數據包丟失。”
超額配置的交換機和路由器也是令人頭疼的網絡瓶頸問題。有時候因為對單個設備的管理不善,導致設備的超額配置。還有一些企業則是沒有追蹤模塊化交換機和路由器上的背板容量,并且在線卡上安裝太多帶寬,而造成超額配置。
“八個端口可能全部共享一個超額配置的ASIC(專用集成電路)背板,當我們添加所有虛擬機時,這將是一個無形的殺手,”Littlejohn表示,“當我們將它們插入到這些端口中時,我們會認為我們有8千兆,而實際上我們只有1千兆。”
即使你小心地避免設備的超額配置問題,這種問題仍將持續存在。“雖然我可能會在這里增加帶寬,但這只是意味著這里不再受帶寬限制,而瓶頸問題始終存在,”Schroth表示,“問題是,這是因為應用嗎?還是不同的WAN鏈接?還是交換機端口鏈接?在某些時候,總是會出現最慢的連接點。”鑒于這種必然性,網絡供應商需要預測下一個瓶頸將出現在哪里,并確保這個點受到監控。“任何連接都會有一個最慢的環節,密切關注這個最慢的環節才是關鍵。”
跟蹤OS版本、安全補丁和交換機及路由器的使用時間
myITassessment.com列出的其他挑戰包括操作系統版本、安全補丁和設備壽命,這些其實就是整體資產管理問題。這些問題會影響企業擴展和自動化網絡的能力。“如果企業對于其資產沒有一定的規范,這可能會影響他們擴展支持,”Littlejohn表示,“當企業試圖自動化操作時,只要有一個不同之處,例如不同OS版本,你都不可能有效地執行。”
Siedzik表示通過使用一些工具他能夠幫助布萊恩特大學更好地追蹤這些問題,其中包括Cisco Network Collector(CNC)——通常由思科增值經銷商使用的資產追蹤設備。“它能向我們展示所有的代碼級別,它能顯示漏洞的位置,我們需要修復什么,需要升級什么,”他表示,“而且都是以報告的格式顯示。之前我們必須付出非常大的努力。”
在安裝CNC之前,布萊恩特大學的網絡管理員經常會發現,當他們呼叫思科技術支持中心得到交換機設備支持時,該設備壽命已經結束。Siedzik表示:“這是老辦法,我們不能再按這種方式來運營。”
該大學還使用CNC來規范其設備上的IOS版本。“以前,我們有很多不同的代碼版本,”Siedzik表示,“我們的校園中有很多堆棧,我們有時候在這個堆棧中發現一種IOS版本,而另一個堆棧中又是另一個。如果我們要對特定代碼進行升級,這會讓我們處于風險之中,我們并不知道這是否會對上游或者下游的鏈路帶來任何影響。而現在,我們每年進行兩次主要代碼更新。”
6年前,Randstad人力資源公司安裝,了一個大的綠色網絡,這讓Schroth很容易在其網絡設計中通過思科Prime管理軟件執行嚴格的版本控制。“如果有人更改了配置或者改變了操作系統,我都會知道,”他表示,“我們經常會檢查目錄報告,確保所有設備都運行正確的版本。通常我也會對硬件恢復這樣做。我們從2600系列思科路由器轉到2800系列思科路由器,當我們替換設備時,我們選擇了能夠在整個企業內運行的操作系統,并且我們對此進行了模板化。當我們再次這樣做時,我們會挑選新軟件,試圖找到能夠在模板中兼容和穩定的軟件,這樣,基于辦公室的規模和功能,我們有了一定的配置來確定應該使用什么操作系統和硬件。”
良好的管理并不一定意味著你可以標準化代碼庫,因為交換機和路由器軟件仍然有各自的特殊性。“在我們的網絡中有很多需求,所以我們知道根據路由器的型號,某個版本的IOS會很適應某個需求,”Apex Tool Group公司的Miller表示,“如果我有另一個路由器需要打開BGP(邊界網關協議),我知道這個IOS版本可能會有漏洞。所以,我需要使用更高版本。你并不是應該使用最新版本的IOS,因為很多時候新版本有漏洞,而人們還不知道。”Miller通過詳細的文檔來追蹤其設備上這些不同的代碼版本,但他希望思科能夠推出更好的工具來幫助他的工作,特別是考慮到管理不同應用的不同OS版本的復雜性。
Miller表示,工程師始終要處理風險和穩定性之間的平衡管理。雖然一些網絡工程師希望使用安裝了最新安全補丁的統一代碼,為他們帶來方便,但在生產環境,這個愿望不太可能實現。“歸結到底是什么對業務最重要,”他表示,“我的交換機有漏洞嗎?或者穩定性是最重要?這取決于這個交換機的位置。”