為什么數字化轉型推動了對 AIOps 的需求
如今,隨著公司部署新應用程序并進行數字化轉型,基礎設施及其對應用程序性能的影響變得越來越重要。不幸的是,現代應用程序底層基礎架構的復雜性使得故障排除和問題解決變得更加困難。傳統的監控工具達不到要求。通常需要一種基于 AIOps 的問題識別和快速解決方法。
在業界,關于 AIOps的真正含義存在一些爭論。一些實現使用預定義的規則,并根據是否檢測到某些條件智能地采取行動。例如,如果計算密集型應用程序的性能下降,則將更多數據轉移到固態驅動器,啟動更多計算實例,并減少其他應用程序的帶寬消耗。純粹的AIOps 解決方案不需要規則即可工作。 AIOps 解決方案應該自動發現狀態數據和業務成果之間的關系。 (在基于規則的系統下,需要與許多手動系統相同的設置工作量。)
監控和管理之間也有區別。 AIOps 應該提供洞察力,而不是人類用戶查看數據然后整理出正在發生的事情。 AIOps 工具應該告訴 IT經理有一些事情需要注意。 AIOps 提供的自動化目標是減少手動干預所花費的時間,并為應用程序留出更多時間。
行動中的AIOps
查看 AIOps 的一種方式是看它與其他監控和應用程序性能管理方法的不同之處。
例如,客戶在嘗試完成在線交易時體驗不佳。性能或交互緩慢可能是由于多種原因造成的。客戶使用的寬帶鏈接可能很慢,交易數據包通過的 Internet主干網可能擁塞,主應用程序服務器可能因同時會話過多而承受壓力,輔助應用程序(例如,拉動現有的 CRM系統)幫助完成交易的客戶信息)的響應時間可能很慢,或者第三方數據庫(例如信用檢查系統)可能處于脫機狀態。
應用程序性能管理的傳統方法是等待客戶發出關于交易質量差的憤怒電話。然后,運維團隊可能會使用故障排除工具來嘗試識別問題。然后進行更改(也許增加應用服務器的能力)。
更主動的方法將發現客戶有問題并實時采取糾正措施。例如,運營經理可能會為 CRM 系統分配更多帶寬以加快這部分事務的速度。
這兩種方法都是勞動密集型的,并且要求 Ops團隊對來自大量不同系統的許多日志、跟蹤、警報和其他數據進行分類。他們必須以某種方式聚合這些數據,將其關聯起來,并嘗試理解它以找出問題的根本原因。
鑒于現代應用程序的復雜性,這不是一種實用的方法。 AIOps 平臺將傳統監控工具與流式遙測相結合,并使用 AI 分析所有這些工具。 AI分析每個數據源并關聯多個異常以自動識別問題,同時還提供有關如何解決問題的詳細信息。因此,如果正確實施 AIOps平臺,它不僅可以提供對潛在問題的更多可見性,而且還可以消除許多手動故障排除和修復任務。
為此,AIOps 工具應該提供洞察力,而不是人類用戶查看數據然后整理出正在發生的事情。該工具應該告訴 IT 或 OPs經理有需要注意的地方。目標:AIOps 提供自動化以減少手動干預所花費的時間,并為應用程序留出更多時間。
最后一句話
現代數字業務需要 AIOps 工具來實現跨 IT堆棧的持續洞察。隨著需要監控和管理的系統變得更加復雜、更加分散,并且更加脫離當一切都在本地時提供的嚴格控制,這種洞察力變得越來越重要。
特別是,現代應用程序使理解性能和可靠性問題的原因變得更加困難。雖然更多的監控和警報功能非常棒,但它們可能會增加已經很忙的 IT 和運營人員的工作量。這就是為什么該行業正在經歷從單獨的網絡、應用程序和設備監控工具向用于IT運營的人工智能(AI)或簡稱AIOps的轉變。