解密AIOps:Tech Neo第十四期技術沙龍精彩回顧
原創運維領域數據龐雜,如何開辟一條蹊徑是很多運維人員在探索思考的事情。
隨著AI技術在各個應用領域的落地及實踐,IT運維也將迎來一個智能化運維的新時代。算法的效率提升了AIOps的價值,通過持續學習,智能運維將把運維人員從紛繁復雜的告警和噪音中解放出來。那么,基于算法的IT運維與自動化運維的區別是什么?在現階段,運維中的哪些痛點適合引入人工智能技術?如何加速落地?
8月26日下午51CTO在北京舉辦了第十四期以“Tech Neo”為主題的技術沙龍活動,進一步拓寬運維/開發人員的運維思路、激發創新能力。51CTO在本次沙龍活動中邀請了來自清華計算機系副教授,智能運維算法專家裴丹老師、搜狗SRE負責人黃昕老師,以及京東金融資深架構師沈建林老師,通過基于算法的IT運維實踐與探索,和運維/開發者一起探討全新的AIOps實現方式,開啟智能運維新時代。
從報警到預警——如何有效提升SLO
活動開始,***位分享的講師是來自搜狗SRE負責人黃昕老師一開場就提出如何建立SLO,讓運維的工作可評價?在整個分享過程中,黃昕老師把整個過程分為五個部分:***是要使得業務線的信任,第二,通過了解業務需求,明確穩定性需求,第三,避免不可抗力,第四,根據需求選擇監控系統,第五,數據先行,不要在意一城一池的得失。
對于預警系統的實現,黃昕老師分享了以下5個方式:
- 信息的產生和收集
- 對數據的清洗和合并
- 規則庫的管理
- 數據的實時處理
- 在故障前報警,對用戶無感
預警系統框架
***,黃昕老師還與在場的運維開發人員交流了運維準入門檻,故障自動恢復,以及未來的展望。
智能運維如何落地
接下來,由清華計算機系副教授,智能運維算法專家裴丹教授為大家分享智能運維如何落地內容。在演講開始,裴丹教授通過運維背景介紹,普世化智能運維關鍵技術,意在讓所有公司都能用上***的智能運維技術。裴丹教授認為,解決智能運維普世化的問題在數據、算法、算力、人才方面上。
第二部分是分解定義智能運維中的關鍵技術,通過分解關鍵技術來定義科研問題。裴丹老師指出的科研問題要求分別為:
***:清晰輸入,數據可獲得;
第二:清晰輸出,輸出目標切實可行;
第三:有high-level的技術路線圖;
第四:有參考文獻;
第五:非智能運維領域的學術界能理解能解決。
***,裴丹教授還指出,Gartner報告中關于智能運維的問題描述太寬泛。
智能運維如何做好?裴丹教授認為,機器學習本身有很多成熟的算法和系統,及其大量的優秀的開源工具。 如果成功的將機器學習應用到運維之中,還需要三個方面的支持:數據, 標注的數據,應用。
數據:互聯網應用本身具有海量的日志。需要做優化存儲。 數據不夠還需要自主生成。
標注的數據:日常運維工作會產生標注的數據。 比如出了一次事件后,運維工程師會記錄下過程, 這個過程會反饋到系統之中, 反過來提升運維水平。
應用:運維工程師師智能運維系統的用戶。 用戶使用過程發現的問題可以對智能系統的優化起正向反饋作用。
***裴丹教授通過智能運維的三個案例,基于與百度運維、搜索部門的合作分享。***個案例是基于機器學習的KPI自動化異常檢測。
上圖表示運維人員判斷kpi曲線的異常并標注出來, 系統對標注的特征數據進行學習 。(典型的監督式學習),這里需要高效的標注工具來節省運維人員的時間: 如可以拖拽,放大等方式。***,裴丹教授在通過構建KPI異常檢測系統中分享了相關的實踐與挑戰等相關的解決方案。
人肉運維進階
***一位來來自京東金融資深架構師 沈建林老師,分享人肉運維進階內容。沈建林老師開場通過運維的理想與實現,談談自己對運維工作的一些看法,接著通過服務監控的使命切入本次分享的主題。在服務監控設計原則中,沈建林老師分為六大部分,分別為微內核、樂觀策略、零侵入、約定大于配置、動態路由、集中管控等原則來設計。
在第三部分技術實現內容的分享中,沈建林老師通過日志采集方案對比、分布式服務跟蹤的挑戰、SGM整體技術架構、SGM Agent靜態架構、SGM Agent動態架構、SGM Agent采集內容、SGM擴展方式等等技術手段,解決了從人肉運維到進階的技術實現方式。
分享結束后,參會的運維/開發者與分享嘉賓就當前運維技術新概念、框架、思路,和目前工作中遇到的一些問題以及針對嘉賓分享的內容提出自己的疑惑和想法進行交流、學習,得到嘉賓的指導和建議。
51CTO Tech Neo技術沙龍是51CTO在2016年開始定期組織的IT技術人員線下交流活動,目前僅限北京地區,周期為每月1次,每期關注一個話題,范圍涉及大數據、云計算、機器學習、物聯網等多個技術領域。