实施 DevOps 的 SRE 原则,通过设计和构建可观测性的系统来预防事故。努⼒将可靠性进⼀步向左移动,获得降低成本、团队调整和业务收益等成果。以开发⼯作与运维⼯作各占⼀半时间为基准,在运维⼯作中 On-Call 值守的⽐例不超过 25%。然后,当你向着预防的最终⽬标进⾏管理场景的迭代时,找出制约因素,从⽽消除约束点。达成最后成果以奠定了⼀个 SRE 团队的基础。当你消除约束点时,之后相应的更新你的场景。
通过设计可观测的系统来防⽌服务中断,⽽不是去被动的修复服务中断
SRE 参与整体⽣命周期的想法适⽤于任何组织的规模。换句话说,旅程的各个阶段还是⼀样的
从客户的应⽤体验好坏的⻆度来评估 可观测性三个⽀柱。问⾃⼰:“客户的体验是由于那些代码、互联⽹和⽹络、第三⽅或其他交付链组件所构成的?"。