跳转至

Prometheus 监控指标设计与告警思路

告警的目标是“可行动”,而不是“更早更响”。先把指标体系搭好,再谈告警阈值。

1. RED / USE 快速建模

  • RED(面向请求):Rate、Errors、Duration
  • USE(面向资源):Utilization、Saturation、Errors

2. 计数器与直方图

  • 计数器(counter):只增不减,适合 QPS、错误数
  • 直方图(histogram):延迟分布(p50/p95/p99)

3. 告警规则的三个问题

1) 触发条件是什么(阈值/趋势/异常检测)
2) 触发后应该做什么(runbook)
3) 该告警是否会误报(噪音控制)