监控

批注 2020-06-21 084850

目的

  • 长期趋势分析
  • 对照分析
  • 告警
  • 故障分析与定位

度量指标

  • 时延
  • 错误量
  • 通信量
  • 资源使用率

链路追踪

  • 监控服务间的行为

链路追踪的组成:

批注 2020-06-21 091223

日志中有用的信息

  • 时间
  • 标识
    • 系统标识
    • 用户标识
    • 事件标识...
  • 来源
  • 日志级别

分类

批注 2020-04-13 160526

Prometheus

架构

批注 2020-04-22 150857

单服务单主机

主要监控主机的CPU、内存等数据以及服务所产生的日志

单服务多主机

如果所有主机都发生问题,那么可能是服务的问题

否则如果只是某一主机出现异常,问题定位就比较简单

同时,单一服务部署到多台主机,一般需要负载均衡器来分发请求,所以也要对负载均衡器进行监控

多服务多主机

此时问题定位就没那么容易了,必须收集到足够多的数据

日志

应该有一个专门的日志系统来聚合服务的日志

服务指标

需要有一个专门的系统来对收集来的信息进行聚合,分类展示

综合监控

通常可以对系统一些资源指标进行监控,判断实际值是否超出设定的阈值,但这些数据并不能直接说明服务是否能正常工作

语义监控

通过端到端的测试来监控服务的工作正常与否

关联标识

微服务架构系统提供的功能通常是由一系列的服务调用配合来完成,但是如果上游服务出现了一个错误,将错误扩展到下游,如何定位这个错误?

解决这个问题的方法,是给一个个调用链分配一个标识,这样就可以根据这个标识找到这个调用链上的所有调用

标准化

无论是日志的格式,还是工具,都需要标准化

考虑受众

需要对日志的使用者,他们需要知道什么,想要什么以及如何消费数据等考虑清楚

results matching " "

No results matching " "

results matching " "

No results matching " "