可观测性三件套:Logs、Metrics、Traces 落地¶
很多团队“上了监控”却依然定位慢,原因通常是:数据割裂、缺少关联键、缺少可行动的告警与排障路径。
1. 先统一关联键¶
- trace_id / span_id:贯穿网关、服务、DB、消息队列
- request_id:对外暴露与排障复现
- user_id / tenant_id:业务维度聚合(注意脱敏)
2. 典型的排障路径¶
1) 告警触发(指标)
2) 定位异常请求(trace)
3) 对应日志上下文(logs)
3. 采样与成本¶
- 全量日志 + 全量 trace 通常不可持续
- 关键链路可提高采样或按错误采样(error sampling)