成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

京東科技全鏈路故障診斷智能運維實踐

運維
我們在建設智能運維的基本目標與業(yè)界是一致的,主要都是為了降低故障的平均修復時間,延長系統(tǒng)的無故障的運行的時間,以此提升系統(tǒng)的可用性以及運維效率。在京東內部,主要依托于三大技術底座:運維知識圖譜、運維大數(shù)據(jù)處理技術、運維算法技術。
本文根據(jù)張靜老師在〖2023 中國數(shù)據(jù)智能管理峰會-上海站〗現(xiàn)場演講內容整理而成。

一、京東科技智能運維整體能力

我們在2018年就開始建設了智能運維,針對京東科技內部,我們運維面臨的問題主要是三點:

  • 難度逐步增加
  • 體系化要求越來越高
  • 成本要全面節(jié)省

圖片

我們在建設智能運維的基本目標與業(yè)界是一致的,主要都是為了降低故障的平均修復時間,延長系統(tǒng)的無故障的運行的時間,以此提升系統(tǒng)的可用性以及運維效率。在京東內部,主要依托于三大技術底座:運維知識圖譜、運維大數(shù)據(jù)處理技術、運維算法技術。

圖片

為賦能三大技術底座,我們主要做了兩件事情:

  • 一是通過運維算法技術,賦能我們的業(yè)務運維的監(jiān)控,做到故障的快速發(fā)現(xiàn)和快速定位;
  • 二是運維算法賦能智能調度,提升資源的利用率。以及在去年開始,我們在硬件故故障預測上也投入了研發(fā),并實現(xiàn)了場景落地。

下圖是我們智能運維的一個技術架構圖,主要包含數(shù)據(jù)采集計算層、數(shù)據(jù)存儲層、數(shù)據(jù)服務層、數(shù)據(jù)應用層。

圖片

此外,我們也會在每年618雙十一大促前,會對我們的業(yè)務應用進行應用健康度的體檢,并對核心應用也會進行整改,整體能力依托于我們運維知識圖譜的建設。

圖片

上圖我們整個京東科技智能運維產品的一個全景圖,主要包含數(shù)據(jù)層(腦)、學件層(心)、業(yè)務層(眼)。

二、運維算法賦能業(yè)務可觀測性落地經(jīng)驗

圖片

1、指標異常檢測

圖片

指標異常檢測主要是為實現(xiàn)集中管理監(jiān)控指標,并通過運維算法技術自動化地對在線的時序監(jiān)控指標進行異常診斷。

在日志分析上,我們能夠對線上服務組件這類日志進行實時聚類分析,包括通過日志實時語義匹配轉成指標等監(jiān)控手段,從日志、指標層面的不足。

在故障定位上,主要分為兩種,一是基于apm調用鏈的關聯(lián)分析掃描全局的故障根因,二是將NLP日志模板提取技術,與運維圖譜關系進行融合,集中對整體的故障根因進行掃描分析。

異常檢測最開始引入了統(tǒng)計學習落地試點,后面則引入了時序聚類、時序網(wǎng)絡等異常檢測算法,相比于固定閾值,能否自適應去適配不同場景下的監(jiān)控數(shù)據(jù)。除了異常檢測外,我們還做了一套自回歸動態(tài)基線的預測算法能力沉淀。在京東內部,主要落地了兩個場景:

一是學習歷史數(shù)據(jù)7-14天的指標波動規(guī)律性,對指標的未來趨勢及動態(tài)波動區(qū)間做預測,當?shù)苿討B(tài)區(qū)間時,就會實時發(fā)出這類告警;

二是做事前的判斷,比如內存使用率開始從20%增加到30%-40%時,不會引起運維同學的關注,但可能突然間10-15分鐘會達到80%,這時候可能就會反應不歸來,因此,我們會去提前發(fā)下這類數(shù)據(jù)的增長趨勢,在故障真正發(fā)生的時候,爭取故障處理的響應時間。

另外,在異常檢測以及動態(tài)基線預測模型上,我們在內部多個數(shù)據(jù)集上的準確率評估有90%以上,目前這套模型也有被IEEE的國際論文所收錄。

2、智能文本分析

圖片

京東科技有一款自研產品能夠支持包括基礎組件、容器、中間件、數(shù)據(jù)庫等多類型的日志接入,日志接入之后,能夠支持分布式日志檢索并進入智能分析層。因此,故障發(fā)生的時候,運維同學除了接收智能告警之外,還能通過平臺快速查詢,去看實時的日志。

圖片

在日志接入智能分析層后,會對運維日志進行模板的提取和預聚類,能及時發(fā)現(xiàn)一些線上未知的業(yè)務問題。此外,如果出現(xiàn)監(jiān)控指標沒有采集上來、配置的監(jiān)控告警并不準確、告警沒有及時發(fā)出等問題,我們也可以通過日志分析的手段,結合圖譜關系定位到真正的根因。

智能文本分析主要引入了NLP的技術,對全量運維日志進行聚類分析,訓練生成日志模板,運維、研發(fā)同學會在平臺標注關心的問題,再生成模板庫,在線實時匹配已知問題。也就是說,我們會將原始的運維日志,按照預定義好的類別進行語義匹配,并轉成時序的監(jiān)控指標,當一類問題日志突增時,我們也會及時發(fā)出告警。

我們在實踐中也發(fā)現(xiàn),不管是哪一種運維場景,對日志里面的動詞、形容詞、名詞都是較關心的,所以為了提升整個日志分析模型的準確度,我們引入了詞性分析技術,做了一部分特征增強。模型部分我們也是用Bert預訓練模型,并對Bert模型進行微調。

和業(yè)界deep log、logclass等比較火的模型相比,我們這套模型的效果都是較優(yōu)的,目前這套模型有被IEEE論文所收錄。

大家在做運維日志NLP分析的時候,可能會面臨一個問題:到底要標注對少日志,才算完成了模型學習?

針對這個問題,我們采用的是半監(jiān)督的方式。比如運維、研發(fā)同學會定期收到告警通知,里面會詳細記錄新日志產生量、占比量及告知標注需要,他們就會進入智能運維平臺,對所關心的問題進行定義,標注出來的部分則訓練出基于詞性標注的命名實體抽取模型,將其他相似文本中比較關系的實體抽取出來,再輔以運維、研發(fā)同學進行日志問題標注。

下面對京東科技內部的智能文本分析案例-k8s場景進行介紹:

圖片

我們通過k8s核心組件日志的實時聚類以及實時語義匹配,發(fā)現(xiàn)一些在指標層面發(fā)生不了的問題,比如日志占用文件句柄沒釋放、孤兒pod問題等。

上面是去年雙十一大促備戰(zhàn)前的案例,應用程序去調用集群時,我們發(fā)現(xiàn)它在往某一個集群緩存的節(jié)點頻繁打印日志。自動觸發(fā)診斷告警后,PE同學緊急排查,發(fā)現(xiàn)這個節(jié)點關聯(lián)到的是大促比較核心的一個應用,聯(lián)系應用研發(fā)同學后發(fā)現(xiàn),確實是線上程序開啟了調試模式,導致應用調用集群時,頻繁往這個節(jié)點打印日志,調試模式關閉后,也規(guī)避了在大促中可能出現(xiàn)的計算瓶頸問題。

在京東內部落地時,除了有按場景的服務組件日志,還有緩存、大數(shù)據(jù)、MySQL、網(wǎng)絡設備的日志。另外,近兩年做的比較多的k8s的node日志分析,實現(xiàn)了快速發(fā)現(xiàn)線上未知故障,發(fā)現(xiàn)了之前通過監(jiān)控發(fā)現(xiàn)不了的那些問題。

另外,運維日志分析落地到了不同場景,包括日志聚類、模板訓練提取、語義分析和日志分類等,我們也做了部分的模型蒸餾,這部分的實踐目前IEEE論文收錄了5項。

另外,我們也做了應用告警日志的MySQL、Redis根因分析。

圖片

3、健康度巡檢

圖片

接下來是健康度巡檢,其主要方式是結合運維專家排障制定巡檢的規(guī)則及異常檢測的能力,主動對線上核心的應用進行巡檢,去發(fā)現(xiàn)一些潛在問題,并分析數(shù)據(jù)健康度等,并且在大促重保之前,我們會對這些亞健康的應用進行核心整改。

另外,通過這套自動化巡檢能力,我們也能夠提升緩存的命中率,提升閑置服務器資源的使用率,經(jīng)過歷年運維場景的經(jīng)驗積累,我們目前有100+的應用業(yè)務巡檢規(guī)則。

4、全鏈路監(jiān)控體系

接下來全鏈路故障定位落地實踐,其中包括移動端、前端、服務端等監(jiān)控。

圖片

服務一旦發(fā)生瓶頸,可以綜合分析調用鏈、接口耗時、返回狀態(tài)碼、異常日志,網(wǎng)絡日志等,快速診斷問題。

圖片

同時,我們還能通過這套全鏈路監(jiān)控的追蹤能力,去看每一塊節(jié)點的耗時占比情況。

圖片

另外,我們自動化生成了調用鏈拓撲關系,直觀展示服務之間的依賴強弱,實時監(jiān)控每一個應用的服務質量(TPS、耗時、成功率、可用率)。

圖片

再者,將整個全鏈路的監(jiān)控數(shù)據(jù),統(tǒng)一地收集起來輸入到智能運維監(jiān)控中心,再做全局的根因定位。

圖片

在京東內部,主機問題定位及排查、操作變更、網(wǎng)絡/數(shù)據(jù)庫等場景,都覆蓋了這套全鏈路監(jiān)控,大促等重保期間都會投入使用,出現(xiàn)問題故障時,運維、研發(fā)用都較依賴于這套全鏈路監(jiān)控體系。

圖片

上圖關于日志模板根因定位的一個案例,在2022年618大促期間,我們從緩存服務端的組件層面發(fā)現(xiàn)一類日志模板大量突增,是一個AOF盤阻塞問題,恰好該問題直接關聯(lián)到業(yè)務營銷應用,關聯(lián)到的客戶端連接數(shù)超過最大連接數(shù)限制,造成刷盤阻塞的報警,關聯(lián)到的業(yè)務成功率也有下跌,當時業(yè)務監(jiān)控告警沒有提前發(fā)出,所以重保團隊非常關注,最后我們通過這套能力及時發(fā)現(xiàn)了這類問題。

5、多維指標根因定位

圖片

除此之外,我們做了多維指標明細的根因定位,主要是定位web場景的異常,當某個域名的TP耗時/TPS發(fā)生異常產生告警后,可按省份、運營商、機房、機柜、主機等各維度的TP耗時/錯誤狀態(tài)碼TPS突增等指標進行明細下鉆分析,通過強化學習搜索算法從數(shù)萬維度交叉組合數(shù)據(jù)中快速定位出異常的維度組合。

三、運維算法賦能降本增效落地經(jīng)驗

1、智能調度

圖片

我們會將master、node等監(jiān)控數(shù)據(jù)統(tǒng)一輸入到智能調度器,對應用資源使用情況及未來使用情況進行預測,將在線、離線應用進行合理的混合部署調度,以此提升資源利用率。

京東云在支持京東全線業(yè)務正常運行下,超大規(guī)模集群的CPU資源利用率提升3倍,單位訂單資源成本下降30%,內存平均使用率提升57%,目前這套模型也有被IEEE論文所收錄。

2、硬件故障預測

圖片

2022年開始,我們把運維算法落地到了硬件故障預測場景,和業(yè)界實踐同樣面臨著標簽不充分的問題。

因此,我們引入了半監(jiān)督學習的方式,去擴充硬盤的故障數(shù)據(jù);另我們基于時間窗口計算增強smart特征,輸入給時間注意力分析模型,讓模型得以充分訓練,提升硬盤故障預測準確性。

在支撐京東全線業(yè)務正常運行下,硬盤故障預測模型平均準確率達90%以上,平均召回率達80%左右,在業(yè)界處在靠前的水平。

3、運維算法

圖片

從2018年開始,我們開始沉淀智能運維算法能力,比如動態(tài)基線預測、運維日志預訓練模型、蒙特卡洛樹根因定位、相似度計算、告警共性分析算法、因果推斷算法等。

以告警共性分析算法為例,在內部落地比較核心的就是pingmesh場景(網(wǎng)絡場景)。在源和目的IP相互ping的時候,會有大量的延時以及丟包的指標監(jiān)控,當延時和丟包大量突增時,中間經(jīng)過的網(wǎng)絡設備共性的路徑是什么?這個時候,我們就是通過告警共性分析算法去分析解決的。

4、模型工廠

圖片

模型工廠主要用以整個智能運維算法學件的數(shù)據(jù)集快速增量學習,幫助運維算法迭代更新及再訓練,這其中包含前面介紹的8大組件。

5、運維監(jiān)控可視化大屏

圖片

除了以上功能,我們整個智能運維平臺也支持可視化。

做可觀測性實踐,一部分要做到快速定位,還要做到分布式的全鏈路追蹤,快速發(fā)現(xiàn)并響應,還有一部分是可視化,實現(xiàn)全局數(shù)據(jù)概覽。


圖片

講師介紹

張靜,京東科技智能運維算法高級經(jīng)理。碩士畢業(yè)于東北大學,持續(xù)深耕智能運維領域多年,帶領團隊致力于京東智能運維算法迭代,把智能算法能力落地京東線上橫向業(yè)務場景,算法在監(jiān)控、數(shù)據(jù)庫、網(wǎng)絡、資源調度等多個縱向場景取得突破,提升了產品和運維的技術競爭力。善于將實踐中沉淀的技術與日常算法工作中積累的技術與創(chuàng)新總結成專利和IEEE論文,申請智能運維發(fā)明專利50余項,IEEE國際會議論文收錄9篇。

責任編輯:武曉燕 來源: dbaplus社群
相關推薦

2010-09-26 12:19:28

DHCP故障診斷

2013-05-22 17:18:13

2021-11-25 10:36:04

DNS命令Linux

2010-08-03 13:41:22

路由器命令

2009-11-11 17:07:13

路由器故障

2020-03-13 11:18:17

運維架構技術

2020-09-16 15:52:03

人工智能

2009-05-19 16:40:41

TTL網(wǎng)絡故障科來軟件

2009-11-17 18:44:44

2025-03-04 08:53:10

2009-11-24 18:34:23

網(wǎng)絡故障診斷路由器

2020-05-03 12:52:39

VMware Hori虛擬桌面虛擬機

2012-10-09 16:00:35

交換機故障

2011-07-28 11:22:50

2009-11-12 14:07:16

路由器故障

2023-10-30 07:25:37

數(shù)據(jù)湖數(shù)據(jù)處理

2018-09-18 09:36:52

運維數(shù)據(jù)庫智能

2017-06-26 10:23:42

傳統(tǒng)運維京東金融

2011-05-07 14:29:26

復合機

2022-06-24 14:42:52

京東搜索
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久久入口 | 欧美中国少妇xxx性高请视频 | 日韩欧美在线精品 | 欧美激情欧美激情在线五月 | 久久一久久 | 国产重口老太伦 | 毛色毛片免费看 | jizz亚洲人 | 日本黄色免费大片 | 在线国产视频 | 久久亚洲精品久久国产一区二区 | 久久精品国产99国产精品 | 一本色道精品久久一区二区三区 | 黄色毛片一级 | 亚洲精品视频在线看 | 美女黄18岁以下禁止观看 | 久久久久久成人 | 精品一区二区三区中文字幕 | 精品欧美一区二区三区久久久 | 欧美在线一区二区三区 | 99热精品在线观看 | 乳色吐息在线观看 | 日本三级黄视频 | 欧美精品欧美精品系列 | 91精品久久久久久久久 | 成人自拍视频网站 | 亚洲成人精品国产 | 成人在线网址 | 欧美综合在线视频 | 久久亚洲一区二区三区四区 | 久久国产欧美日韩精品 | 天堂资源| 成人精品在线观看 | 国产高潮好爽受不了了夜夜做 | 国产成人免费视频网站高清观看视频 | 欧美一级欧美三级在线观看 | 日韩视频在线一区二区 | 精品国产欧美日韩不卡在线观看 | 久久精品国产亚洲夜色av网站 | 在线播放精品视频 | 免费看黄视频网站 |