跳转至

可观测性三件套:Logs、Metrics、Traces 落地

很多团队“上了监控”却依然定位慢,原因通常是:数据割裂、缺少关联键、缺少可行动的告警与排障路径。

1. 先统一关联键

  • trace_id / span_id:贯穿网关、服务、DB、消息队列
  • request_id:对外暴露与排障复现
  • user_id / tenant_id:业务维度聚合(注意脱敏)

2. 典型的排障路径

1) 告警触发(指标)
2) 定位异常请求(trace)
3) 对应日志上下文(logs)

3. 采样与成本

  • 全量日志 + 全量 trace 通常不可持续
  • 关键链路可提高采样或按错误采样(error sampling)