成功構建和部署AIOps的三要素
?如今,隨著大數據在商業的各個方面應用激增,IT團隊面臨著處理運營的巨大數量和復雜性的艱巨任務。因此,企業對AIOps的需求正在增長。
AIOps(人工智能 IT 運營)利用大數據和機器學習(ML),以人類無法達到的規模和速度進行預測、識別、診斷和解決IT問題。
私募股權和風險投資公司Insight Partners最近的一份報告估計,從2021年到2028年,AIOps平臺市場規模將以32.2%的年復合增長率遞增,從2021年約28.3億美元增長到2028年的1993億美元。也就是說,有效的AIOps解決方案不會在一夜之間實現。
一個完整的AIOps解決方案來自于一個經過長期完善的解決方案,包含三個基本成分:數據、分析和不同領域的專業知識。
數據
沒有數據,成功的AIOps是不存在的,這個部分至關重要。雖然數據供應充足,但挑戰是以可用的和可靠的形式獲取數據。AIOps依賴于來自不同來源(例如網絡性能、業務系統和客戶支持)的數百甚至數千個數據點,這些數據點都以秒為單位生成,在很多情況下甚至是次秒級速率。如何處理大量的數據可能會造就或破壞AIOps解決方案。就速度、成本效益和最高效率而言,在設備內和設備外數據管理的分離管道會產生最好的結果。
傳統的單一內部數據處理模型已經不能適應當今數據集的復雜性和容量。相反,應該考慮將數據處理漏斗構建或重新架構為兩部分:一個精簡的、快速的處理管道,通過實時的、內部部署的數據總線來處理時間關鍵分析,另一個更健壯的通道來分析云中的剩余數據。將內部數據生產減少到最低限度,并分配云(配備彈性計算和更復雜的存儲能力)來處理剩余的數據,從而實現更快、更經濟的數據合成。
同時管理內部和外部數據的分離管道模型可以增強組織每小時處理數百萬數據點的能力。機器學習(ML)算法可以幫助確定每個管道傳入數據的優先級,并將原始的非結構化數據轉換為對客戶服務或IT運營團隊至關重要的可用指標。從雙管齊下的系統中獲得的效率和速度也使組織能夠部署增強的監控能力,以獲得關于網絡性能的實時可見性和長期趨勢信息。
分析
AIOps成功的第二個關鍵因素是分析。AIOps的分析分為兩個階段,包括探索性分析(從原始數據中篩選需要額外檢查的趨勢或異常)和高級統計分析(轉化為可操作的見解)。盡管探索性研究扮演著不可或缺的角色,但當數據通過管道輸送時,工程團隊往往會迫不及待地跳到高級統計分析。繞過這個初始階段可能會導致數據偏差——向AIOps過程注入偏差,并錯誤地識別問題,從而使AI/ML算法變得無用,并導致不良的操作后果。
探索性分析依賴于ML和數據科學家來識別和確定至關重要的具體指標。在這個過程中,IT團隊可能會傾向于ML——這是一種令人興奮的高效技術。但是單純的ML并不總是最有效的分析方法。ML試圖基于一組特定的參數來解決一個特定的問題。工程師根據他們認為得出A、B或C結論所需的指標來編寫ML算法——從而排除其他可能的解決方案或統計數據。
相反,統計學家和數據科學家檢查原始數據時并沒有考慮具體的結果,而是檢查數據的模式或異常。手工數據審查雖然繁瑣,但專家可以確定直接的IT解決方案,而不需要高級的統計分析。
當團隊確信在探索階段確定的趨勢或異常是正確的,他們可以繼續進行高級統計分析和訓練AI/ML算法。即使是AI/ML也需要試錯測試,不會立即產生結果。每個AIOps解決方案的背后都有一個領域專家團隊,他們對AI/ML模型進行廣泛的調整和測試,以確保AIOps的成功。
不同專業領域
成功實現AIOps的第三個要素是領域專長。在AIOps的創建中,沒有太多的經驗可以借鑒。在任何企業中成功部署AI都需要不同領域專家的參與。例如,在網絡操作領域,網絡工程師了解ML系統的細微差別和必要的AI算法,以準確地解決特定問題。與此同時,非技術專家帶來了特定行業的知識,如數據集的來源和可用性、業務策略和操作。大量的領域專家確保AI/ML算法反映真實世界的操作,提供關鍵的結果驗證,并作為檢查錯誤方法或意外后果的重要工具。例如,正在進行計劃維護的通信系統可能表現出通常表明問題狀態的行為(如極低的網絡流量)。在模型預測中添加一個與維護票務系統通信的業務邏輯層可以消除這些錯誤警報。
領域專家扮演著重要的角色,他們可以向渴望獲得AIOps解決方案的高管聽眾進行解釋。ML傾向于在黑箱中操作,使團隊無法清楚地說明模型是如何做出特定決定的。這可能會導致企業高管對基于人工智能驅動的洞察力和行動的懷疑和猶豫。另一方面,可解釋的人工智能能夠獲得不熟悉AIOps的商業領袖更強的認同和信任。
AIOps需要三種核心原料,但是,就像任何食譜一樣,這些原料的質量以及它們放在誰的手里,將決定最終的結果。試錯是創新過程的一部分,特別是在訓練ML的復雜藝術中。確保正確地處理數據,使用正確的分析類型和吸引領域專家將幫助企業提供成功的、可擴展的AIOps解決方案,以滿足日益增長的運營效率的需求。