Date: 2021-01-11 Address: 在线会议
- 有一千个微服务左右,全部跑在AWS ECS上。监控/日志收集得比较完整。
Three Phases of Observability
.
参见Beyond the 3 Pillars of Observability
- Know阶段:SLO受损的时候,大多数团队会收到告警
- 困难在于triage阶段,很难快速找出故障的Scope和impact。
- 不能快速triage的后果是团队可能采取错误的remediation方案,比如扩容前端服务而掩盖了后端服务性能下降的事实,这样会拉长MTTR。
- [Understand阶段]其实不很关键。
- 服务众多,服务之间的依赖关系不明确。
- 虽然有很多可观测数据,但是分布在不同的系统,故障处理人员需要依据经验手工拉取查看。
- 拉取到信息没有统一的展示地点,分布在Slack/google meeting/电话/办公桌,沟通成本非常高。
- DevOps组织架构下,Dev对SRE技能的掌握参差不齐。
- 可靠性需要在系统设计阶段即加以保证,比如设计冗余服务。
- 一个故障中心可以把主要依赖关系/SLO加以统一展示。
- Datadog或者观测云可以把SLO和指标/日志/变更关联起来。