如何讓運維不再當落后技術的背鍋俠?
近年來,企業業務規模的急劇上升,導致運維場景的復雜性也呈指數性上升,原本依靠人工經驗的運維工作難度也變得更具有挑戰性,而基于機器學習的智能運維(AIOps)開始得到企業IT人員的關注。
AIOps(Algorithmic IT operations platforms),即基于算法的IT 運維平臺,也是DevOps未來發展的一個趨勢。簡言之,AIOps將機器學習算法引入運維中的監控和故障分析領域,如通過算法、建模、推理等方法,以輔助DevOps 提升效率,降低業務及系統出現的風險故障系數。雷鋒網發現,常見的如時間序列異常檢測、故障根因分析、業務調度等工作均是當下運維人員所面臨的挑戰。
那么,智能化運維(AIOps)如何在真實業務場景中落地?Gartner為用戶指出了三點建議:
- 一是通過增量方法確保成功部署AIOps的各項功能。
- 二是選擇能夠支持廣泛的歷史和流數據類型的AIOps平臺。
- 三是選擇能夠在IT運營導向的分析和機器學習的四個階段系統進步的工具。
為此,雷鋒網整理了Gartner最新公布的《AIOps平臺市場指南》,以幫助用戶快速了解當前新興AIOps市場情況。
主要發現
AIOps在企業IT運營中的應用正逐漸升溫,其中,一些更為成熟的組織則正利用該技術為企業領導者提供洞察力。
AIOps技能和IT運營成熟度是確保其快速實現價值的常見因素,此外,數據質量成為更為成熟部署架構時的新挑戰。
企業采用AIOps平臺以增強應用性能監測工具(APM)和網絡性能檢測與診斷工具(NPMD)。
供應商正制定使用機器學習的戰略,以分析IT運營在數量、種類及速度等方面遇到的數據挑戰。與此同時,他們也在構建數據存儲和人工智能實踐定制化的能力。
定義
AIOps平臺利用大數據和機器學習,通過可擴展性和對不斷增長的數據進行分析,以達到對所有主流IT操作功能的支持。該平臺支持同時使用多個數據源、數據收集方法以及分析和演示技術。
AIOps可以增強廣泛的IT運營流程和任務,包括性能分析、異常檢測、事件關聯和分析、IT服務管理和自動化。其核心功能包括:
- 從多個數據源中獲取數據
- 數據分析:獲取數據時的實時分析;存儲數據時的歷史分析
- 提供對數據的訪問
- 使用機器學習
- 根據分析結果進行下一步操作。(注意:分析是為了用于預測可能發生的事件,并及時回顧以確定引發當前系統行為的根本原因。)
市場分析
迄今為止,很少有供應商能提供全面、集成化的AIOps平臺。然而,許多供應商提供了廣泛且可內置集成的AIOps功能。為更清楚描述市場發展及供應商所處水平,Gartner將當前可用的AIOps功能劃分為數據管理和分析結果兩大部分:
數據獲取與處理
歷史和流數據管理——軟件或設備允許數據獲取、索引,以及存儲日志數據、互聯網數據、指標、文檔數據,由此產生的數據庫大部分是非結構化或多結構化的,而存儲的數據集以高容量累積,以高速變化的格式構建。這種歷史數據管理功能可被稱之為“大數據管理”。
為了給IT運營人員提供幫助,這種工具必須將人類感知的數據以時間尺度呈現,并直接提供數據無需訪問存儲數據庫。此外,它必須跨多個實時和歷史數據流提供連貫的分析。
分析結果
- 基礎及高級統計分析——單變量和多變量分析組合,包括相關性、聚類、分類和推斷的使用。
- 模式發現及預測自動化——使用上述一種或多種類型的歷史數據或流數據,以引出可從數據集本身推斷但不立即存在相關性的數學或結構模式。這些模式可用來及時執行不同概率的事件預測。
- 異常檢測——先確定正常系統行為,再辨別出與正常系統行為的偏差。
- 確定根本原因——對由模式發現和預測自動化組件建立的相關性網絡進一步修正,以隔離代表真正因果關系的依賴性連接,從而提供有效干預。
- 規定性建議——對問題進行分類,將其分類為已知類別。然后,挖掘先前解決方案,分析這些解決方案的適用性并以優先級形式讓其以用于修改。最終,這些將使用閉環方法,并在使用后對其有效性進行投票。
- 拓撲——對于AIOps檢測到的相關且可操作的模式,必須圍繞所獲取的數據,形成的即為拓撲。使用拓撲作為因果關系確定的一部分可以大大提高其準確性和有效性。
發展方向
在過去二十年里,人工智能技術間歇性地影響了ITOM的發展,而AIOps平臺只是這種影響的最新例證。IT運營一方面受到成本降低的壓力,同時又增加了運營的復雜性。關于后者,可以從數量、種類、速度三個維度進行定義:
- 數量,IT基礎架構和應用程序產生的數據量快速增長(每年增長2至3倍);
- 種類,機器和人生成的數據種類越來越多,如指標、日志、網絡真實數據(wire data)、知識管理文檔;
- 由于采用了云原生或其他架構,數據生成速度不斷提高,IT架構也在不斷變化。
考慮到現代企業所需的洞察力,以上不同維度的運營復雜性帶來的成本是非常高的。在處理大量、多樣化且快速增長的數據時,現有的監控工具承受了不少壓力。更重要的是,監控工具不會跨平臺挖掘其他多種數據,特別是用戶的情感數據、業務交易數據、傳感器遙測以及各種系統的日志,以獲得更多洞察。
為此,非IT團隊如業務leader和IT運營團隊,對AIOps技術產生了越來越濃厚的興趣。正如他們探索正探索的通用平臺,其部署時最大的問題在于IT運營實現不同用例時的AIOps平臺的性能和成熟度。
迄今為止,AIOps主要用于支持IT操作流程,以便監控或觀測IT基礎架構、應用程序表現或數字體驗。此外,無論是采用機器學習對事件管理環境中的重復數據進行刪除,還是在APM中結合基于字節碼檢測的分布式跟蹤數據來分析應用程序的日志數據,這都是合理的。
AIOps平臺正擴展其能夠獲取的數據種類的范圍。在過去,供應商僅支持提供日志數據,而現在,數據種類已延伸到互聯網真實數據。
因此,考慮到供需方面的趨勢和技術差異,Gartner預計,在未來五年內,AIOps平臺將成為AIOps功能交付最為廣泛的形式,而不是僅僅將AIOps功能嵌入APM、NPMD、ITIM等監測工具中。
與此同時,IT組織也開始在DevOps環境中探索這種方式,以預測部署前的潛在問題并監測潛在的安全問題。
Gartner認為,AIOps將會演變成雙向解決方案,不僅可以獲取數據進行分析,還可以根據分析啟動操作。這些操作最有可能通過與其他ITOM/ITSM工具集成,將采取多種形式,包括:
- 警報
- 問題分類
- 配置管理數據庫(CMDB)
- 日志運行自動化
- 應用程序發布編排
AIOps工具在監控的四個階段:數據采集、聚合、分析、行動,具有數據聚合和分析的核心功能。目前一些企業用戶利用開源技術進行數據采集,從而繞過APM并使用AIOps作為監控功能的主要方式。
可以看到,關于監控工具與AIOps的爭論才剛剛開始。從長遠來看,APM將主要應用于專用領域,而AIOps將適用于更為廣泛的IT運營場景。
未來
隨著市場的發展,Gartner還觀察到AIOps功能的一些主要變化:
- 一是提供與數據源無關的AIOps平臺的供應商進入市場。這些產品往往是通用的,可滿足最為廣泛的使用案例。
- 二是具有關鍵組件但數據源往往受限的供應商,他們通常專注于一個域(如網絡、端點系統、APM)。這些工具往往只有一組有限的用例,針對于某些IT運營部門。
- 三是一些供應商現有的監控解決方案將數據源限制在自己的監控產品中,或擴展到有限的合作伙伴。
- 四是一些用戶通過開源項目能夠通過提供數據獲取的工具、大數據平臺、機器學習、可視化技術來組裝自己的AIOps平臺,最終可混合或匹配多個供應商的組件。
目前,市場中存在一種聲音:AIOps是否會取代APM、NPMD、ITIM、DEM為主的以域為中心的監控工具?其實,這是一種混淆。AIOps不會取代監控工具,相反,它增強了分析能力和更具可操作性的數據。以域為中心的監控工具將繼續存在,為專家提供其域的數據獲取、分析和可視化。只不過,數據將流轉到AIOps平臺,該平臺充當的是一個將數據集中到連貫跨域分析的作用。
本文轉自雷鋒網,如需轉載請至雷鋒網官網申請授權。