智能化運維的探索與實踐——Tech Neo 技術沙龍第十八期
原創【51CTO.com原創稿件】回顧運維發展,可劃分為腳本、工具、平臺和智能化四大時代。之所以有這樣的演進主要原因有二:其一是大小型機,PC服務器,虛擬機,容器等基礎設施的逐步增多;其二是分布式,微服務等軟件規模暴增,調用關系也越來越復雜。面對如此龐大、復雜、多變的諸多系統,人力已經無法維護,開始探索新的方式:智能化運維。
Tech Neo 技術沙龍第十八期現場
今天, 由51CTO 主辦的第十八期以“Tech Neo”為主題的技術沙龍活動如期舉行,此次沙龍邀請了來自京東金融資深研發工程師張晨、日志易產品總監饒琛琳、資深云計算專家王強。三位老師分享不僅有智能化運維的方式方法,還有在各自領域的實踐案例,希望可以給運維人員帶來一些新的思考。
異常檢測與根因分析
首位演講的是從事智能運維監控平臺的研發與實踐多年的京東金融資深研發工程師張晨老師,他參與并主導了APM等產品的研發與應用,經歷了多次618和雙11的***TPS的運維保障,他分享的主題是異常檢測與根因分析。
張晨·京東金融資深研發工程師
張晨的分享以智能運維的背景,難點,優勢及適用于運維哪些領域為開端,過程中主要圍繞采用異常檢測的手段,從基礎到高級的過程,根因分析從大量的數據中尋找造成故障的根本原因為核心展開。
張晨表示,傳統異常檢測存在適配性差、不同的應用和場景的閾值存在異同、大量個性化配置,人工基本不可維護等不足。面對這樣的情況,就要采用動態閾值的異常檢測、引入機器學習來應對。
在根因分析方面,常用技術方案存的不足主要體現在:基于的是網狀的業務拓撲圖降維后的數條鏈路,由于其具有不確定性;拓撲圖只能反映出模塊B調用了模塊C,模塊C調用了模塊D;在哪條鏈路中的調用,無法確定是否連續調用,可能會導致根源分析的錯誤,造成誤報;
針對這些不足,張晨分享了根因分析的改進方式、根因警告的原理、步驟和一些相關的真實案例。
HSLT項目--機器人智能化運維前身
第二位分享者是有十年IT生涯,兩年高級管理,八年研發管理經驗(云計算,平臺,產品化),三年國家工程項目開發管理實施經驗的王強老師。他先后就職于中軟國際,IBM,青云等知名企業,分享主題為HSLT項目--機器人智能化運維前身。
王強·資深云計算專家
HSLT是IBM早期的一個Cloud項目,但是它的核心理念到現在依然領先,并且QingCloud青云借鑒其諸多設計原則,很多領域真正做到大規模線上復雜分布式系統故障無人干預自動恢復與處理。
王強介紹,HSLT目標是希望利用自動化,機器人,人工智能的技術達到極少數人管理超大規模系統環境的目的,從***層的IAAS開始,到PAAS,SAAS層。集群規模大,產品和服務質量優先,偏向產品化平臺化,行業監控允許等是HSLT經驗適用范圍和界限。
后續演講圍繞HSLT設計原則展開,過程中提到 Design for failure,ASAP,Scalable everything,Dependence inversion,Devops,TDD。
王強的分享還涉及很多互聯網公司智能化運維的實踐,如合理的架構分層、單元化部署、業務連續性管理等。
數據驅動的智能運維平臺
***分享的是日志易產品總監饒琛琳老師,他在運維領域深耕近十載,在監控、自動化運維、日志分析和智能運維等領域均有較深的研究和大規模實踐經驗,他分享的主題是數據驅動的智能運維平臺。
饒琛琳·日志易產品總監
整個分享,從運維需求的本質出發,推導AIOps的架構設計和組成。過程中詳細介紹其中最重要的幾個場景:時序預測,異常檢測,模式概要的分析原理與實現方式,以及對應的開源項目選擇。
饒老師表示,更靈活、更易用的訪問和分析數據,能分析過去散落在各組件中未利用上的業務數據和上下文,快速的探索和實驗平臺提供獨特的洞擦力,是AIOps的三大作用。
從『系統組成』看AIOps架構可分為數據湖、自動化系統、記錄系統、交互系統和監控生態圈幾大模塊。
智能運維的作用:異常檢測、歸因分析、智能警報、未來預測、能力分配、數據概要和主動監控。
智能運維的路徑:異常檢測 -> 主動監控;數據概要 -> 異常檢測 -> 主動監控;未來預測 -> 容量規劃 / 異常檢測;根因分析 -> 智能警報 -> 自動化;
因大家熱情高漲,不斷地和三位老師就異常檢測、監控報道、歸因分析等內容進行探討,不知不覺中,時間流走,本應十七點結束的沙龍,最終近十八點***一波人才意猶未盡的離開。
透過這次交流,更加肯定的是實現運維智能化是運維工作未來的發展方向。但實現運維工作的流程化、標準化、自動化是實現運維智能化的前提,企業可以合理規劃,前瞻性的布局。通過一段時間的積累和優化,逐步對信息系統進行改造,早日達到標準化、自動化的模式,為最終的智能化建立良好的基礎。
51CTO于2016年開始舉辦主題為Tech Neo的技術沙龍,意指在于為IT技術人員提供一個高質量的學習交流的線下平臺,目前僅限北京地區,周期為每月1次,每期圍繞一個話題進行探討,涉及人工智能、大數據、云計算、區塊鏈、物聯網等多個技術領域。
更多AI內容,請關注公眾號:AI推手
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】