成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

云“戰疫”:8天擴容100萬核,我們是這樣監控的

新聞 系統運維
筆者有幸參與了騰訊云的這次“戰疫”工作,監控系統有效地支撐了幾大應用場景。

 [[319347]]

疫情當前,科技向善,騰訊應用都開始支撐各大遠程工作、教育的場景,眾所周知的“騰訊課堂”、“微信課堂”,“騰訊會議”在抗擊疫情中做出了很大的貢獻,數億人成為了這些系統的用戶。通過可視、互動的遠程有效溝通、交流,一定程度保障了生產、學習工作的有序進行。

筆者有幸參與了騰訊云的這次“戰疫”工作,監控系統有效地支撐了幾大應用場景。

01 業務的監控需求

騰訊會議放量較早、騰訊課堂、微信課堂也相繼放量,應對海量的用戶場景需求,我們分析系統的主要需求表現在:

1. 如何了解設備整體水位與資源趨勢?

前面提及過,各大系統基于視頻云技術搭建,視頻云本身存在較多的視頻、音頻處理工作,設備量的需求日益增長。每天面對數萬核、數十萬核的設備量需求,雖然每個模塊有各自的負載特點,但大盤層急需準確把控整體系統水位,從而判斷整體設備需求趨勢。跟后端的設備供應部門準確、有效地提出需求。

2. 如何針對有可能出現的問題,第一時間做出有效分析?

比如:

a. 如何避免在海量指標中把控重點指標?

從單維指標到多維指標,系統的指標上萬個,且由于歷史原因,指標散落在不同BG的數個監控系統,如果對于重點指標缺乏有效的抽象、監控。不分主次地處理,可能忽略重要指標的把控,引起嚴重后果。

云“战疫”:8天扩容100万核,我们是这样监控的

圖一、錯綜復雜的立體式監控系統

b. 監控系統如何有效監測上述這些指標,使告警斂到合適范圍?

常見的監控手段為閾值監控,對業務形態比較熟練的開發、運維人員在指標上設置一個“恰當”的閾值,一旦偏離閾值,系統即發送告警到開發人員。

然而閾值設置的合理性不易判斷。在數千萬、上億用戶的場景下,閾值少設或多設 0.01% 都代表數千、上萬人的體驗受損,而且不同時間的數據,數據也會呈現一定的周期規律性,如圖二所示,簡單的閾值告警顯然無法滿足多樣化的業務需求。

云“战疫”:8天扩容100万核,我们是这样监控的

圖二、  無法判斷“閾值”的業務指標曲線

c. 問題發現的第一時間,開發、運維人員迫切需要知道問題的表現根因。以便快速介入處理,如何準確發現根因?

業務故障時,在大盤面,可能看到的是整個成功率(或用戶量)的下降。但引起下降的可能性是較多的。必須在第一時間找到原因,深入排查,以減少業務故障時間。

云“战疫”:8天扩容100万核,我们是这样监控的

圖三-1 某業務整體大盤成功率曲線

云“战疫”:8天扩容100万核,我们是这样监控的

圖三-2 某業務下鉆維度成功率曲線

02 監控解決方案

監控的存在是為業務服務的,團隊一起進行了碰頭,很快形成了解決方案并實施:

一、梳理重點模塊、重點指標。建立直觀的業務可觀測性

基于業務架構剖析、業務形態理解,我們梳理起若干個關鍵指標。所謂關鍵即業務生死指標,這些指標可以從以下維度來衡量:

1、對用戶有損

用戶有損的指標有:在線用戶量,用戶登陸成功率,用戶進房成功率,關鍵接口調用成功率…

2、對收入有損

購買成功率、付費成功率、收入趨勢等 ……

3、資源風險相關

分SET、分模塊CPU負載、出口帶寬等、以便及時介入調度。一般每個SET的容量是有限的,必須及時觀察各SET容量水位及負載趨勢,一方面系統自行進行SET間用戶調度,一方面人為可在必要時進行調度干預。

二、導入自定義 Dashboard 能力

采用 Dashboard 展示以上指標,抽象形成數個作戰視圖。較為常見的 Dashboard 有 Grafana, Kibana 等,我們采用了較常用的開源 Grafana,原因是:

  • 非常適合時序展示展示,提供自由的時間選擇功能;
  • 易于運維人員自由定制。配置門檻極低;
  • 易于適配各種異構數據源, 開發工作量較少。

在原有 Grafana 我們做了以下定制:

  • 集成公司 OA 權限控制機制。
  • 適配公司內部各監控系統數據源。時序數據庫存儲協議轉換,以有利于 grafana 直接拉取數據,而無需數據轉存,以節約數據存儲成本、獲得較為實時的數據效果。

[[319351]]

圖四:自定義 dashboard

三、引入 AIOps 能力

1. 無閾值監控

在之前多次提及過無閾值監控,在此不做過多闡述。基于統計(無監督)及 基于數據特征、人員打標形成的有監督方法。在此次監控保障中發揮了重要力量。

同時工程上我們做了一些場景導入,我們開發了“云監控助手” 移動端。方便用戶自行一鍵訂閱、退訂指標。獲得了較好的告警觸達準確性。避免告警過多騷擾。同時通過用戶的訂閱退訂動作,形成了用戶的興趣點標簽,為后續的告警推薦、模型訓練打下了基礎。

云“战疫”:8天扩容100万核,我们是这样监控的

圖五 - 智能告警配置移動端

2. 智能多維

業務人員關注整體業務大盤,同時業務保障工作是一個相對細致的工作,既要保障大盤穩定性,也要隨時診斷導致各種業務異常的根因,現場如戰場,故障場景下,早一秒鐘獲得根因,就能早一秒鐘修復故障,減少損失,多維分析方法是非常快速的問題分析方法,舉兩個例子:

1)客戶端質量

客戶端問題一般出現在:無法登陸、卡慢、無法退出、無法發言、異常中斷等。這種情況下,一般根因上可能與客戶的地域、運營商、客戶端版本相關,利用智能多維較為容易找到客戶端根因匯聚。

2)后端 API 質量

后端 API 質量主要出現在服務間調用,騰訊云用戶API主要表現在WEB端調用后端和用戶應用調用騰訊云。一般根因上可以出現在用戶調用方式(API/WEB),地域、產品、命令字、版本等層面。通過智能多維能迅速找到匯聚。

多維根因分析實現流程如下:

  • 統一業務指標上報,抽象Fields(指標) 與 Tags(維度) 上報至集中存儲, 相關技術選型有 Druid, InfluxDB, Prometheus等 。
  • 抽象業務關鍵指標, 集中監控關鍵指標。
  • 通過無閾值/有規則檢測方法獲得業務異常指標曲線。
  • 獲得異常期間故障根因維度。常用算法:決策樹、Adtributor 等。

云“战疫”:8天扩容100万核,我们是这样监控的

圖六 - 多維根因分析

3. 告警相似性

經過告警檢測后,產生的告警量可能還是不少,能對告警進行合并顯然是非常重要的需求,我們其中的一個解決辦法是先通過聚類算法對各告警源進行聚類(采用one-pass clustering, k-means等方法),各告警間的距離可以采用 Pearson 相似性公式獲得。

云“战疫”:8天扩容100万核,我们是这样监控的

該方法能獲得較好的相似性效果,減少對人員的告警騷擾。

云“战疫”:8天扩容100万核,我们是这样监控的

圖六:具有高度相似型的兩個指標

03 用戶反饋分析

用戶反饋分析的技術在騰訊內部已經相對成熟了,在2015年前后就已經相繼推出一些反饋分析功能。對于海量用戶反饋分析,此方法相對比較有效。

較為常見的處理方式是:

  • 產品增加投訴入口,用戶的反饋通過接口上報至指定位置。
  • 將投訴信息分詞,分詞方法很多,不再詳述。
  • 分析詞頻,通過無閾值監控,對突增詞頻做重點分析處理。

但另一方面此類旁路監控,已經相對滯后。最有效的辦法是在問題發生前就解決它,而不是引起投訴后。

04 小記

隨著業務的發展,技術越來越中臺化,業務質量保障越來越重要,如何有效破除數據煙囪,形成統一視圖?監控的本質是數據,如何利用這些數據,及時發現業務問題、有效診斷業務問題,是監控的關鍵目的所在。

 

責任編輯:張燕妮 來源: 高效運維
相關推薦

2020-02-07 09:12:11

騰訊云騰訊會議

2020-02-25 13:50:29

聆客疫情

2020-02-13 12:50:17

騰訊云騰訊會議

2020-05-29 10:12:49

服務器

2020-02-17 09:09:23

騰訊云騰訊會議星星海服務器

2020-02-17 14:59:38

無人機疫情

2015-12-10 10:14:28

物聯網物聯網技術

2020-02-13 12:52:02

騰訊云騰訊會議數據庫Redis

2020-07-15 15:39:03

阿里云神龍云服務器

2015-01-07 13:47:20

智能汽車英偉達8核

2016-12-28 14:51:46

大數據應用

2015-09-24 16:24:58

2020-04-29 11:08:18

5G網絡疫情

2020-02-13 17:09:29

曙光

2013-10-12 17:31:26

2020-02-11 11:44:26

中科曙光

2020-02-17 17:04:33

華為

2009-05-14 08:58:11

處理器IntelAMD

2020-01-21 21:48:07

架構平滑上云機房遷移
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品免费视频 | 黄视频网站免费观看 | 韩国av影院| 国产精品a久久久久 | 天堂一区二区三区四区 | 人人鲁人人莫人人爱精品 | 欧美黑人一级爽快片淫片高清 | 午夜精品视频在线观看 | 一区二区三区在线看 | 亚洲男人网| 国内精品久久久久久 | 欧美日韩一区二区电影 | 中文在线一区二区 | 亚洲一区视频在线 | 人人干97| 欧美日韩精品一区二区天天拍 | 一级黄在线观看 | 香蕉视频一区二区 | 麻豆hd| 99久久婷婷国产综合精品电影 | 日本欧美在线视频 | 国产午夜精品一区二区三区嫩草 | 日本爱爱| 狠狠久久综合 | 亚洲精品乱码久久久久久蜜桃91 | 免费看淫片 | 97色综合 | 久久久久久精 | 国产高清在线 | 日韩成人免费视频 | 成人免费在线电影 | 黄色片免费在线观看 | 81精品国产乱码久久久久久 | 少妇特黄a一区二区三区88av | 精品免费国产一区二区三区四区 | 成人在线视频观看 | 中文字幕一区二区三区四区不卡 | av在线伊人 | 成人h视频在线 | 一区二区手机在线 | 日韩毛片网 |