如果只把AIOps看做運維技術,未免也太膚淺了……
近日一篇《智能運維行業亂象:估值虛高、上市受阻、裁員頻現》網文在運維圈十分火爆,有一些觀點十分吸引人。今天,不對文章觀點做評價,摘一小段《數智萬物下運維》系列下我對金融企業智能運維的理解。
AIOps是運維的方向,但AIOps不能單純的認為一種技術手段或技術平臺,而應該是數智時代人機協同的運維模式。
一、人機協同的AIOps運維工作模式
一種新的工作模式出現,必然會對原來穩定的工作模式進行改變,改變通常會受到新挑戰,所以新工作模式需要能解決當前運維工作中遇到的難題而出現。以金融行業的業務連續性管理為例,目標是提高公司的風險防范能力、有效地減少非計劃的業務中斷、防范運維操作風險,對于首次出現的未知異常能夠利用工具量化分析并快速定位,確保在重大災難性事件發生后能按計劃恢復業務連續性是傳統。在面對當前復雜的技術架構、不斷引入的創新技術、快速迭代的軟件版本、嚴峻的信息安全威脅下,傳統運維團隊原來被動救火式、問題驅動式、操作運維、經驗運維已經很難實現企業業務連續性的保障目標。金融企業運行安全穩定,需要運維數據賦予數據洞察、輔助決策、跟蹤執行的能力,提升復雜環境下的運維管理能力,即:
- 實時獲得“發生了什么?”;
- 關聯分析“為什么會發生?”;
- 智能預測“將會發生什么?”;
- 決策判斷“采取什么措施?”;
- 自動執行“如何快速執行?”
- 實時感知“工作執行的效果?”
AIOps就是為了解決上述問題而生,相比傳統的運維工作模式,AIOps重點不是創造一種全新的運維工作模式,而是對現有“專家經驗+最佳實踐流程+工具平臺” 運維模式的補充,為企業運維工作提供“洞察感知、運營決策、機器執行”能力,支持向“人機協同”模式轉變。
為什么是“人機協同”的模式,而不是智能化的模式呢?因為從當前AIOps的應用情況看,雖然人工智能技術領先,但當面對復雜、多變、信息不完全的環境,特別是應用于需要復雜應急保障場景時,仍不具備替代專家,更多的應用在某些特定弱人工智能領域。“人機協同”聚焦在通過機器輔助人的決策與執行,是在原來運維組織內部參與者,以及運維以外的研發、測試、廠商等協同網絡上,增加機器人角色,形成人機協同的運維模式。人機協同的運維模式,最關鍵的角色仍是人,利用人的創造力,結合機器所提供的數據和算法,輔助人進行運維工作開展。總的來說,人機協同需要發揮人與機器人特長,形成一個融合的解決方案,后續AIOps的重點推進方向可以圍繞三點:
- “數據+算法”為運維專家賦能“實時感知、輔助決策”的能力。
- 增加運維機器人崗位,重塑 “大計算” 、“海量數據分析”、“操作性”、“流程化”、“規律性” 、“7*24”、“人機體驗”等類型的運維工作。
- 建立數字平臺化管理模式,閉環落實決策執行。
二、數據、算法、場景、知識組成AIOps關鍵4要素
如Gartner定義中提出,AIOps應用需要利用大數據,現代機器學習技術和其他高級分析技術,是一種相對較高門檻的工作模式。為了更好地落地AIOps,運維組織需要深刻地理解AIOps的內涵,重點實現思路:以數據為基礎、算法為支撐、場景為導向,知識為擴展的AIOps4要素。
1、以數據為基礎
數據為先,AIOps需要快速生產高質量數據的能力。“快速”的思路可以以“中臺”思路進行建設,建立統一的數據采控、實時與批量的數據處理能力、與運維相匹配的運維算法、存儲方案、主數據、指標模型等;“高質量”則從將分散數據統一、在線后形成“活數據”,以及數據質量上的治理。從技術實現看,具備實時“采、存、算、管、用”的數據流動全生命周期管理的能力。其中,數據采集是按需在線采集數據的能力;數據存儲是根據數據類型、數據應用特點對數據進行歸檔、整理、傳輸、共享;數據計算包括數據標注、清洗、建模、加工、標準化、質量監控,以及為了獲得數據洞察、決策、執行而對數據進行分析統計;數據管理重點圍繞數據治理的,包括運維數據標準、主數據、元數據、數據質量、數據安全的管理;數據使用重點圍繞數據服務角度涉及的數據目錄、服務門戶,以及配套的數據服務化能力。
2、以算法為支撐
算法大腦,適配、引入特定場景下運維算法,構建算法模型體系。機器學習尤其是深度學習的大規模應用,推動了人工智能的快速發展。隨著國內TOB市場的火爆,AIOps上人工智能研究及應用正處于爆發期,引入AI技術的算法有三點優勢:一是工作穩定性高,人工智能可不知疲倦地進行工作,在規律性問題的分析時不受環境影響。二是降低操作風險,利用人工智能取代傳統人工經驗操作,可更好地避免操作風險和道德風險。三是有效提高決策效率,人工智能可以快速地對大數據進行篩選和分析,幫助人們更高效率地決策。作為金融企業,一方面,由于人才、薪酬結構等方面不足,在算法的建設上應該更多地與外部供應商合作;另一方面,對算法的追求不一定是技術的先進性,事實上規律性的專家經驗落地也是一種算法的實現,而且很多時候更加可靠。對于當前主流的算法參見上一節提到了的常用算法,這里不再重復。
3、以場景為導向
場景驅動,以痛點、價值期望切入點,用智能賦能運維場景,落地智能運維能力。AIOps從詞來看,應該包括“AI+Ops”,是用AI賦能運維場景的模式。有了上面提到的數據底座與算法大腦,下一步是AIOps運維模式的落地,主要將圍繞場景的落地,一種是利用算法賦能已有的運維場景,另一種是算法實現原來無法實現的運維場景。前者是一個快速見效的模式,后者是應對變化而做出的變化。
4、以知識為擴展
運維知識描述了大量運維領域的相關對象定義、技巧,以及排故/解決經驗的信息。運維知識圖譜是把運維對象不同種類的信息連接在一起而得到的一個關系網絡,是對運維數據進行表達的關鍵技術。通過構建運維知識圖譜,從海量數據中自動挖掘各類運維主體,對其特性進行畫像和結構化描述,動態記錄運維主體之間的關聯關系。基于運維知識圖譜,利用自然語義等算法技術,可以幫助IT人員實現故障鏈傳播分析、根因定位、智能的變更影響分析、故障預測等多種AIOps場景。
三、AIOps的一些其他觀點
1、建立場景地圖,體系化、有節奏地落地AIOps
與AI技術在當前大部分領域的應用類似,AI是一種平臺能力,而不是業務。以網上銀行系統為例,PC端的網上銀行解決從柜臺到臨柜的便利性問題,手機銀行解決從鼠標鍵盤操作到手指劃屏、隨時操作的操控問題,AI的視頻、語言識別等技術又給手機銀行解決從觸屏到沉浸智能的體驗問題。在這個過程中,很多業務的本質仍未改變,所以面對AIOps,運維組織需要建立場景地圖,基于場景地圖分好優先級,看如何將AI的優勢賦能給運維場景的具體環節。
2、“活數據”是運維智能化的基礎
活數據有兩個含義,一是指數據是活的,即數據全在線;二是數據被活用,即在數據不斷應用中完善并產生新數據,形成數據回流。以往運維數據分析主要基于批量離線數據建立報告輔助決策,但很多運維工作場景需要實時數據分析支撐。所以,需要利用運維數據平臺實現機器數據實時采控落地數據資產,再場景化實現數據消費,并建立數據應用執行的反饋不斷優化數據驅動的工作流程,形成更為準確的數據。所以,實現活數據中有三個關鍵要素,一是構建協同網絡的運維工作場景,協同網絡需要打破線上工作流程孤島,打通“人、組織、軟件、硬件”之間的網絡連接;二是運維組織要建立運維數據平臺將生產運行的相關數據匯聚在一起,并抽象成數據服務,以便利的方式為運維場景提供價值;三要不斷消費數據,在數據消費中發現問題,修正數據,挖掘數據增值服務,產生新的數據。
3、第一印象很重要
AIOps作為全新的工作模式,給用戶第一印象是可靠、可用,如果第一印象是懷疑態度,對后續工作模式的運營推廣會帶來較大挑戰。AIOps的算法最需要解決的問題是,改變人對“算法準確性”的印象,即“算法”的引入不是為了創新,而是為了確實解決真實問題而出現。以輔助故障定位為例,一個正常運作的運維組織日常很多故障通常能夠通過專家經驗、監控工具、有效的協作機制得到處理。引入AIOps對于故障管理的賦能,一是為了更快,二是為了更準。得益于機器的自動化、算力等特點,通過設計好的線上應急場景,“快”的問題可預測能得到解決;但對于“準”則多少有黑盒子的意味,所以在應用算法時要持謹慎的思路,解決問題遠比算法先進重要。
最后,不管是運維團隊中的工具研發,還是廠商,在推動AIOps模式時,都應關注一線運維專家的經驗,以及落地運維模式的配套工作機制,才能將人、流程、工具與具體的“事”連接成真實可用的場景。