Prometheus 监控指标设计与告警思路¶
告警的目标是“可行动”,而不是“更早更响”。先把指标体系搭好,再谈告警阈值。
1. RED / USE 快速建模¶
- RED(面向请求):Rate、Errors、Duration
- USE(面向资源):Utilization、Saturation、Errors
2. 计数器与直方图¶
- 计数器(counter):只增不减,适合 QPS、错误数
- 直方图(histogram):延迟分布(p50/p95/p99)
3. 告警规则的三个问题¶
1) 触发条件是什么(阈值/趋势/异常检测)
2) 触发后应该做什么(runbook)
3) 该告警是否会误报(噪音控制)