從 Prometheus 到 OpenTelemetry:指標(biāo)監(jiān)控的演進(jìn)與實(shí)踐
背景
關(guān)于 metrics 我最早接觸相關(guān)概念的就是 prometheus,它是第二個(gè)加入 CNCF(云原生)社區(qū)的項(xiàng)目(第一個(gè)是 kubernetes),可見(jiàn)在云原生領(lǐng)域 Metrics 指標(biāo)監(jiān)控從誕生之初就是一個(gè)非常重要的組件。
現(xiàn)實(shí)也確實(shí)如此,如今只要使用到了 kubernetes 相關(guān)的項(xiàng)目,對(duì)其監(jiān)控就是必不可少的。
當(dāng)然也不止是云原生的項(xiàng)目才需要 Metrics 指標(biāo)監(jiān)控,我們?nèi)魏我粋€(gè)業(yè)務(wù)都是需要的,不然我們的服務(wù)運(yùn)行對(duì)開(kāi)發(fā)運(yùn)維來(lái)說(shuō)都是一個(gè)黑盒,無(wú)法知道此時(shí)系統(tǒng)的運(yùn)行情況,因此才需要我們的業(yè)務(wù)系統(tǒng)將一些關(guān)鍵運(yùn)行指標(biāo)暴露出來(lái)。
圖片
業(yè)務(wù)數(shù)據(jù):比如訂單的增長(zhǎng)率、銷售金額等業(yè)務(wù)數(shù)據(jù);同時(shí)還有應(yīng)用自身的資源占用情況:
- QPS
- Latency
- 內(nèi)存
- CPU 等信息。
在使用 OpenTelemetry 之前,因?yàn)?prometheus 是這部分的絕對(duì)標(biāo)準(zhǔn),所以我們通常都會(huì)使用 prometheus 的包來(lái)暴露這些指標(biāo):
<!-- The client -->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient</artifactId>
<version>0.16.0</version>
</dependency>
<!-- Hotspot JVM metrics-->
<dependency>
<groupId>io.prometheus</groupId>
<artifactId>simpleclient_hotspot</artifactId>
<version>0.16.0</version>
</dependency>
暴露一個(gè)自定義的指標(biāo)也很簡(jiǎn)單:
import io.prometheus.client.Counter;
class YourClass {
static final Counter requests = Counter.build()
.name("requests_total").help("Total requests.").register();
void processRequest() {
requests.inc();
// Your code here.
}
}
這是暴露一個(gè)單調(diào)遞增的指標(biāo),prometheus 還提供了其他幾種指標(biāo)類型:
- Counter
- Gauge
- Histogram
之后我們只需要在 prometheus 中配置一些抓取規(guī)則即可:
scrape_configs:
- job_name: 'springboot'
scrape_interval: 10s
static_configs:
- targets: ['localhost:8080'] # Spring Boot ip+port
當(dāng)然如果是運(yùn)行在 kubernetes 環(huán)境,prometheus 也可以基于服務(wù)發(fā)現(xiàn)配置一些規(guī)則,自動(dòng)抓取我們的 Pod 的數(shù)據(jù),由于不是本文的重點(diǎn)就不過(guò)多介紹。
基本組件
在 OpenTelemetry 中自然也提供了 Metrics 這個(gè)組件,同時(shí)它也是完全兼容 Prometheus,所以我們理解和使用起來(lái)并不復(fù)雜。
MeterProvider
不同于 prometheus 客戶端中直接提供了 Counter 就可以創(chuàng)建指標(biāo)了,在 OpenTelemetry 中會(huì)提供一個(gè) MeterProvider 的接口,使用這個(gè)接口可以獲取 Meter,再使用 Meter 才可以創(chuàng)建 Counter、Gauge、Histogram 等數(shù)據(jù)。
下面來(lái)看看具體如何使用,這里我以 Pulsar 源碼的代碼進(jìn)行演示:
public InstrumentProvider(OpenTelemetry otel) {
if (otel == null) {
// By default, metrics are disabled, unless the OTel java agent is configured.
// This allows to enable metrics without any code change. otel = GlobalOpenTelemetry.get();
} this.meter = otel.getMeterProvider()
.meterBuilder("org.apache.pulsar.client")
.setInstrumentationVersion(PulsarVersion.getVersion())
.build();
}
LongCounterBuilder builder = meter.counterBuilder(name)
.setDescription(description)
.setUnit(unit.toString());
Meter Exporter
Meter Exporter 則是一個(gè) OpenTelemetry 獨(dú)有的概念,與我們之前講到的一樣:OpenTelemetry 作為廠商無(wú)關(guān)的平臺(tái),允許我們將數(shù)據(jù)寫入到任何兼容的產(chǎn)品里。
所以我們?cè)谑褂?Metrics 時(shí)需要指定一個(gè) exporter:
Exporter 類型 | 作用 | 備注 | 參數(shù) |
OTLP Exporter | 通過(guò) OpenTelemetry Protocol(OTLP) 發(fā)送指標(biāo)數(shù)據(jù)到 collect。 | 默認(rèn)生產(chǎn)環(huán)境中推薦使用,需要將數(shù)據(jù)發(fā)送到支持 OTLP 的后端,如 OpenTelemetry Collector。 | -Dotel.metrics.exporter=otlp (default) |
Console Exporter | 將指標(biāo)數(shù)據(jù)打印到控制臺(tái)的導(dǎo)出器。 | 開(kāi)發(fā)和調(diào)試,快速查看指標(biāo)數(shù)據(jù)。 | -Dotel.metrics.exporter=console |
Prometheus Exporter | 將指標(biāo)數(shù)據(jù)以 Prometheus 抓取的格式暴露給 Prometheus 服務(wù)。 | 與 Prometheus 集成,適用于需要 Prometheus 監(jiān)控的場(chǎng)景,這個(gè)可以無(wú)縫和以往使用 prometheus 的場(chǎng)景兼容 | -Dotel.metrics.exporter=prometheus |
Metric Instruments
與 prometheus 類似,OpenTelemetry 也提供了以下幾種指標(biāo)類型:
- Counter:?jiǎn)握{(diào)遞增計(jì)數(shù)器,比如可以用來(lái)記錄訂單數(shù)、總的請(qǐng)求數(shù)。
- UpDownCounter:與 Counter 類似,只不過(guò)它可以遞減。
- Gauge:用于記錄隨時(shí)在變化的值,比如內(nèi)存使用量、CPU 使用量等。
- Histogram:通常用于記錄請(qǐng)求延遲、響應(yīng)時(shí)間等。
同時(shí)每個(gè)指標(biāo)還有以下幾個(gè)字段:
- Name:名稱,必填。
- Kind:類型,必填。
- Unit:?jiǎn)挝?,可選。
- Description:描述,可選。
messageInCounter = meter
.counterBuilder(MESSAGE_IN_COUNTER)
.setUnit("{message}")
.setDescription("The total number of messages received for this topic.")
.buildObserver();
還是以 Pulsar 的為例,messageInCounter 是一個(gè)記錄總的消息接收數(shù)量的 Counter 類型。
subscriptionCounter = meter
.upDownCounterBuilder(SUBSCRIPTION_COUNTER)
.setUnit("{subscription}")
.setDescription("The number of Pulsar subscriptions of the topic served by this broker.")
.buildObserver();
這是記錄一個(gè)訂閱者數(shù)量的指標(biāo),類型是 UpDownCounter,也就是可以增加減少的指標(biāo)。
private static final List<Double> latencyHistogramBuckets =
Lists.newArrayList(.0005, .001, .0025, .005, .01, .025, .05, .1, .25, .5, 1.0, 2.5, 5.0, 10.0, 30.0, 60.0);
DoubleHistogramBuilder builder = meter.histogramBuilder("pulsar.client.producer.message.send.duration")
.setDescription("Publish latency experienced by the application, includes client batching time")
.setUnit(Unit.Seconds.toString())
.setExplicitBucketBoundariesAdvice(latencyHistogramBuckets);
這是一個(gè)記錄 Pulsar producer 發(fā)送延遲的指標(biāo),類型是 Histogram。
backlogQuotaAge = meter
.gaugeBuilder(BACKLOG_QUOTA_AGE)
.ofLongs()
.setUnit("s")
.setDescription("The age of the oldest unacknowledged message (backlog).")
.buildObserver();
這是一個(gè)記錄最大 unack 也就是 backlog 時(shí)間的指標(biāo),類型是 Gauge。
案例
在之前的文章:實(shí)戰(zhàn):如何編寫一個(gè) OpenTelemetry Extensions中講過(guò)如何開(kāi)發(fā)一個(gè) OpenTelemetry 的 extension,其實(shí)當(dāng)時(shí)我就是開(kāi)發(fā)了一個(gè)用于在 Pulsar 客戶端中暴露指標(biāo)的一個(gè)插件。
不過(guò)目前 Pulsar 社區(qū)已經(jīng)集成了該功能。
其中的核心代碼與上面講到的類似:
public static void registerObservers() {
Meter meter = MetricsRegistration.getMeter();
meter.gaugeBuilder("pulsar_producer_num_msg_send")
.setDescription("The number of messages published in the last interval")
.ofLongs()
.buildWithCallback(
r -> recordProducerMetrics(r, ProducerStats::getNumMsgsSent));
private static void recordProducerMetrics(ObservableLongMeasurement observableLongMeasurement, Function<ProducerStats, Long> getter) {
for (Producer producer : CollectionHelper.PRODUCER_COLLECTION.list()) {
ProducerStats stats = producer.getStats();
String topic = producer.getTopic();
if (topic.endsWith(RetryMessageUtil.RETRY_GROUP_TOPIC_SUFFIX)) {
continue;
} observableLongMeasurement.record(getter.apply(stats),
Attributes.of(PRODUCER_NAME, producer.getProducerName(), TOPIC, topic));
}}
只是這里使用了 buildWithCallback 回調(diào)函數(shù),OpenTelemetry 會(huì)每隔 30s 調(diào)用一次這個(gè)函數(shù),通常適用于 Gauge 類型的數(shù)據(jù)。
java -javaagent:opentelemetry-javaagent.jar \
-Dotel.javaagent.extensinotallow=ext.jar \
-Dotel.metrics.exporter=prometheus \
-Dotel.exporter.prometheus.port=18180 \
-jar myapp.jar
配合上 Prometheus 的兩個(gè)啟動(dòng)參數(shù)就可以在本地 18180 中獲取到指標(biāo)數(shù)據(jù):
curl http://127.0.0.1:18180/metrics
當(dāng)然也可以直接發(fā)往 OpenTelemetry-Collector 中,再由它發(fā)往 prometheus,只是這樣需要額外在 collector 中配置一下:
exporters:
debug: {}
otlphttp:
metrics_endpoint: http://promethus:8480/insert/0/opentelemetry/api/v1/push
service:
pipelines:
metrics:
exporters:
- otlphttp
processors:
- k8sattributes
- batch
receivers:
- otlp
圖片
這樣我們就可以在 Grafana 中通過(guò) prometheus 查詢到數(shù)據(jù)了。
有一點(diǎn)需要注意,如果我們自定義的指標(biāo)最好是參考官方的語(yǔ)義和命名規(guī)范來(lái)定義這些指標(biāo)名稱。
圖片
比如 OpenTelemetry 的規(guī)范中名稱是用 . 來(lái)進(jìn)行分隔的。
切換為 OpenTelemetry 之后自然就不需要依賴 prometheus 的包,取而代之的是 OTel 的包:
compileOnly 'io.opentelemetry:opentelemetry-sdk-extension-autoconfigure-spi:1.34.1'
compileOnly 'io.opentelemetry.instrumentation:opentelemetry-instrumentation-api:1.32.0'
總結(jié)
相對(duì)來(lái)說(shuō) Metrics 的使用比 Trace 簡(jiǎn)單的多,同時(shí) Metrics 其實(shí)也可以和 Trace 進(jìn)行關(guān)聯(lián),也就是 Exemplars,限于篇幅就不在本文展開(kāi)了,感興趣的可以自行查閱。
參考鏈接: