通過AIOps進行網絡管理的常用方式
企業的NetOps團隊面臨著篩選大量傳入數據以識別出現在網絡上的技術、性能和安全問題的挑戰。這在傳統上是一個手動的、耗時的過程。現如今,NetOps團隊正在優先考慮有助于識別問題和快速修復問題的解決方案--AIOps就是解決方案之一。
AIOps使用人工智能來發現和理解模式,并在大型、復雜的數據集中識別異常情況。根據Gartner的說法,"AIOps結合了大數據和機器學習,使IT運營過程自動化,包括事件關聯、異常檢測和因果關系確定。"
雖然AIOps可以做很多事情,但最近的研究表明,企業正在優先考慮有助于快速識別潛在網絡問題(如異常檢測/智能警報和升級)的用例,并盡快修復它們(如安全事件和IT服務問題的自動修復)。
為了進一步探討這個話題,讓我們深入研究EMA最近的一些研究,評估AIOps的使用和看法,并看看AIOps驅動的方法如何能使NetOps團隊受益。
研究:確定應用場景的優先級
當談到AIOps時,EMA的研究表明,企業明顯優先考慮直接關注保持網絡安全和高效運行的場景。例如,56%的企業正在優先考慮或實施異常檢測,這涉及暴露異常活動或正常參數之外的操作,使其成為AIOps的首選。
此外,人工智能(AI)可以被訓練來快速區分真正威脅到網絡運營的異常現象,幫助團隊將精力集中在最需要的地方。
舉例來說,當帶寬消耗出現異常峰值時,企業需要定義策略,從通常的月度趨勢中檢測異常情況,可以跟蹤這些異常情況,并將其縮小到企業空間已知或未知的某些網絡服務或應用程序。這種情況通常發生在計劃外的服務器或數據備份,或某些應用程序(如大型文件傳輸或流)的BW使用期間。
當涉及到安全事件時,目標是盡快消除威脅。根據EMA的數據,在對安全事件的初始響應中所涉及的大部分內容可以很容易地實現自動化,只要規則正確,這種自動化的安全事件補救是企業的第二大優先用途(55%)。
自動化的初始安全響應不僅可以加速解決問題,還可以讓團隊更緊密地關注那些需要直接人工干預的領域。圍繞自動化安全事件和補救的一個常見場景是,當一個未知的應用程序或主機/IP被標記并使用了網絡資源、服務或企業帶寬。企業外的主機可以被標記和列入后備名單,并在此過程中使用訪問列表進行隔離。
處理大量的警報
如前所述,NetOps和SecOps團隊每天都面對大量的警報,可能隱藏著嚴重的操作或安全問題。由于人工智能擅長模式識別,智能警報/升級(53%)是企業的第三大優先使用的場景。
根據網絡安全漏洞的類型和級別,可以設置服務策略來提醒或升級這些問題。團隊還可以配置基本警報和黑名單,以便將來對簡單的網絡異常情況進行分析,這可以阻止通過服務策略定義的未識別的流量模式。
與安全事件的補救類似,在IT服務中自動緩解問題的過程會加快MTTR,確保運營效率。這使得自動化IT服務問題修復(52%)成為企業第四大優先考慮的AIOps使用場景。
為了解決這個問題,團隊可以通過適當的警報機制,根據服務級或應用級事件定制強大的事件管理策略(這正成為企業的重要優先事項)。同時,需要對不同事件的記錄、跟蹤和管理政策進行適當的規劃,以便進行正確的補救。
與上述發現一致,大多數企業傾向于圍繞網絡安全基礎設施,如防火墻或入侵檢測和保護解決方案,開始AIOps的部署和整合,以更好地檢測異常情況,升級警報和補救安全問題。也就是說,包括數據中心交換、云網絡和應用交付網絡解決方案在內的應用基礎設施是一個強有力的二級優先事項。AIOps解決方案部署的最后一個重點領域是Wi-Fi和WAN基礎設施。
AIOps是關于數據的
鑒于這些AIOPs的優先級,以及與任何AI/ML相關的事實,AIOps都是關于數據的,企業發現數據管理(48%)是網絡團隊需要的首要技能,這并不奇怪。事實上,早期的研究發現,數據質量差是成功應用AIOps進行網絡和安全管理的主要技術挑戰。除了數據背景之外,企業將一般的人工智能和基礎設施知識(42%)作為第二優先技能。
這表明,一些企業可能正在開發內部AIOps能力,或希望修改商業解決方案。同樣,算法開發和API技能(39%)在優先級列表中都很高,再次表明企業正在構建或微調底層算法,并努力將軟件和工具更廣泛地整合到AIOps領域。
總體觀點是,希望在AIOps方面取得成功的企業正在尋求用特定的數據、AI、算法和整合技能來補充他們的網絡或安全團隊。
企業希望有效地回答復雜的問題,以加快解決。AIOps允許企業采用AI/ML來補充IT團隊的能力,以快速識別和緩解對整體網絡性能或安全的威脅,包括異常檢測、自動安全和事件修復等問題。
隨著新工具的出現,NetOps團隊需要學習新的技能,如數據管理、AI知識和算法開發。最終,這可以幫助這些團隊和公司簡化工作流程,更好地解釋數據,并有效和安全地管理網絡。