成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Prometheus 告警為什么選用Alertmanager?

安全 應用安全
alertmanager 主要用于接收 Prometheus 發送的告警信息,它支持多種告警通知渠道,而且很容易做到告警信息進行去重,降噪,分組等,超級好用。

[[382097]]

本文轉載自微信公眾號「猿天地」,作者尹吉歡。轉載本文請聯系猿天地公眾號。    

為什么要用 alertManager

alertmanager 主要用于接收 Prometheus 發送的告警信息,它支持多種告警通知渠道,而且很容易做到告警信息進行去重,降噪,分組等,超級好用。

其實 Grafana 也自帶了告警功能,本來想直接用 Grafana 的告警功能,這樣就不用多部署一個組件了,試用了一下 Grafana 的告警,不是很好用,然后就放棄了。

看上圖,最難受的就是 Template variables are not supported in alert queries 這段話了,不能用于變量類型的模板。下面來解釋下這個問題:

指標查詢語句如下:

  1. sum(rate(http_server_requests_seconds_count{application="$application", instance="$instance"}[1m])) 

其實是根據 application 和 instance 來查詢的,也就是在查詢的時候可以選擇哪個應用,哪個實例進行數據的查看。

但是你如果要用 Grafana 的告警,就不能這么寫,那要怎么寫呢?把變量去掉。

假如我的 A 服務有 5 個實例,那么你就得配置 5 個查詢語句,如下:

  1. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.12"}[1m])) 
  2. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.13"}[1m])) 
  3. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.14"}[1m])) 
  4. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.15"}[1m])) 
  5. sum(rate(http_server_requests_seconds_count{application="a-service", instance="10.11.11.16"}[1m])) 

到了這一步我就直接放棄了,太難用了,不知道有沒有其他的方式能夠解決這個問題,反正我是投向了 alertmanager。

部署 alertManager

部署 alertmanager 之前我們首先部署一個釘釘消息的轉發服務,也就是當有告警的時候,alertmanager 會調用這個轉發服務將告警內容發送至釘釘。

  1. docker run -d -p 8060:8060 --name webhook timonwong/prometheus-webhook-dingtalk --ding.profile="webhook1= 
  2. https://oapi.dingtalk.com/robot/send?access_token=你的token" 

釘釘機器人需要自定義關鍵詞來匹配告警信息,否則接收不到消息。

直接用 Docker 來部署 alertmanager,命令如下:

  1. docker run -d --name alertmanager -p 9093:9093 -v /opt/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml prom/alertmanager:latest 

alertmanager.yml

  1. global
  2.   resolve_timeout: 5m 
  3. route: 
  4.   receiver: webhook 
  5.   group_wait: 30s 
  6.   group_interval: 5m 
  7.   repeat_interval: 5m 
  8.   group_by: [alertname] 
  9.   routes: 
  10.   - receiver: webhook 
  11.     group_wait: 10s 
  12. receivers: 
  13. name: webhook 
  14.   webhook_configs: 
  15.   - url: http://10.100.0.168:8060/dingtalk/webhook1/send 
  16.     send_resolved: true 

webhook 的通知地址我們配置成上面我們部署的釘釘轉發服務的 IP+Port 就可以了。

修改 prometheus 的配置文件,增加 alertmanager 的配置。

prometheus.yml

  1. # Alertmanager configuration 
  2. alerting: 
  3.   alertmanagers: 
  4.   - static_configs: 
  5.     - targets: ["10.100.0.168:9093"
  6. rule_files: 
  7. "/etc/prometheus/rules.yml" 

配置告警規則

rules.yml

  1. groups: 
  2. name: qps 
  3.   rules: 
  4.   - alert: QPS告警 
  5.     expr: (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100 
  6.     for: 1m 
  7.     labels: 
  8.       severity: warning 
  9.     annotations: 
  10.       description: "應用:{{ $labels.application }} 實例:{{ $labels.instance }} QPS超過100 (當前值: {{ $value }})" 
  11.       summary: "" 
  12.   - alert: 應用下線告警 
  13.     expr: up == 0 
  14.     for: 0m 
  15.     labels: 
  16.       severity: warning 
  17.     annotations: 
  18.       description: "應用:{{ $labels.job }} 實例:{{ $labels.instance }} 已下線" 
  19.       summary: ""   

上面配置了 QPS 告警和應用下線的告警,關于告警規則不做詳細講解,大家可以自己去學習下,當然也有一些可以參考的規則配置,具體可以查看這個網站:https://awesome-prometheus-alerts.grep.to/rules

配置好了后可以在 prometheus 的 Web 控制臺 Alerts 中進行查看。

告警效果

遇到的問題

在告警內容顯示這塊遇到了一個問題,研究了挺長時間的。上面有貼釘釘告警后的消息接入,在描述信息中有寫哪個應用,哪個實例出問題了,就是這 2 個具體的信息,在我一開始配置告警規則的時候沒有獲取到值。

沒有獲取到值的原因是我的告警規則是這樣寫的:

  1. sum (rate(http_server_requests_seconds_count[1m])) > 100 

規則本身沒問題,也能執行,就是實例值獲取不到,后面研究了網上一些其他的規則,發現想要獲取具體的值,就得在規則里面包含這些內容才行。

然后就改用下面的方式了,在 sum 后接上要顯示的指標名稱,就可以在告警信息中顯示了。跟 Sql 中的 select 一樣,沒有寫清要哪個字段就不會查詢出來。

  1. (sum by(instance,application)(rate(http_server_requests_seconds_count[1m]))) > 100 

關于作者:尹吉歡,簡單的技術愛好者,《Spring Cloud 微服務-全棧技術與案例解析》, 《Spring Cloud 微服務 入門 實戰與進階》作者, 公眾號猿天地發起人。

 

 

責任編輯:武曉燕 來源: 猿天地
相關推薦

2015-04-16 15:42:21

關系型數據庫NoSQL

2025-04-09 08:05:00

運維告警Prometheus

2021-03-31 08:02:34

Prometheus 監控運維

2021-08-27 07:06:10

應用

2020-10-14 08:33:23

Prometheus監控體系

2025-01-21 11:18:46

2019-02-28 09:22:37

Nacos微服務DNS

2019-12-30 08:34:40

ZabbixPrometheus監控

2023-09-12 07:11:33

Prometheus聚合告警GPT

2015-12-28 13:37:14

云通信

2022-08-30 13:03:39

prometheusAlert

2023-11-21 08:57:16

2021-08-26 11:30:54

AlertManage阿里云

2022-07-25 14:24:53

Docker容器安全

2023-01-13 08:35:29

告警降噪系統

2023-03-26 08:41:37

2024-07-31 08:02:26

Prometheus服務器代碼

2022-07-29 21:23:54

Grafana微服務

2023-11-24 16:57:53

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 午夜影院在线观看 | 久久99久久99久久 | 日日日日操 | 色综合一区二区三区 | 亚洲成av人片在线观看无码 | 久久狠狠| 日韩视频免费在线 | 亚洲国产精品久久久久秋霞不卡 | 久久国产亚洲 | 日韩网站在线观看 | 久久骚 | 国产农村妇女精品一二区 | 人人鲁人人莫人人爱精品 | 天天射网站 | 欧日韩在线观看 | 欧美日韩精品 | 欧一区| 国产精品免费一区二区三区四区 | 久热免费 | 亚洲精品一区中文字幕 | 国产一区二区在线视频 | 欧美日韩在线一区 | 黄色国产区 | 毛片链接 | 浴室洗澡偷拍一区二区 | 国产一区二区三区欧美 | 精品亚洲91 | 夜夜操天天艹 | 日韩精品视频在线 | 精品久久久久久亚洲综合网 | 毛片入口| 国产精品99久久久久久动医院 | 91精品一区二区 | 国产精品久久久久久久久久免费看 | 欧美精品欧美精品系列 | 国产一区二区三区在线免费观看 | 一本色道精品久久一区二区三区 | 91av视频在线播放 | 欧美黄色绿像 | 精品久久国产 | 日韩精品一区二区三区四区视频 |