• 对待事故的态度(摘自rrc-wiki)


    1. 通报 && 通报 && 通报

    先通报给Leader;然后Leader视需要,通报给相关业务方

    为什么要先通报?第一,如果是一个严重的问题,Leader可能能帮你调集更多的资源、人手帮你解决这个问题;

    其次,如果对我们业务造成影响,我们可能需要去通知、安抚我们对口的业务方(比如SEM投放,比如电话销售团队、评估师、销售等等),尽量减少损失、给他们我们修复的预期。

    2. 先解决问题;先解决问题;先解决问题

    我们是一个团队。“团队”和“团伙”的区别,在于凝聚力、在于信任、协作、补位,去完成艰巨的任务。

    当出问题的时候,第一时间,我们不要去追究谁的责任,也不要因为这个模块/业务不是我负责就坐视不理。线上服务,是我们每一个人的事。

    谁都不是一座岛屿,自成一体;每个人都是那广袤大陆的一部分.如果海浪冲刷掉一个土块,欧洲就少了一点;如果一个海角、如果你朋友或你自己的庄园被冲掉,也是如此.任何人的死亡都使我受到损失,因为我包孕在人类之中.所以别去打听丧钟为谁而鸣,它为你敲响”  —— 海明威引用过的一首诗

    我们的成就,我们的损失,首先都是作为“团队”得到的,而不是“个人”;每一个流量、每一个线索、每一个数据错误,损失的都是你的一部分。所以,当出问题的时候,请不要问是谁的责任、不要责怪战友,请挺身而出、作为团队的一份子积极面对,先解决问题。

    3. 既往不咎 && 纵情向前

    最近看写谷歌的《如何定义团队》,谷歌有一个“百万美元俱乐部”,会员不是百万富翁,都是给谷歌百万美元以上损失的人。百万!美元!那又怎样?他们也没有被谷歌开除。

    世界上只有一种人不犯错,那就是不做事的人。No 上线, No bugs。做事越多的人,出错的可能性越大。

    我们是一家创业公司,我们的业务在飞速发展,我们线上产品技术以超音速在迭代上线,我们在与时间赛跑,我们要短期内做出卓尔不凡的成就。那我们一定会犯错。

    创业,一定对错误宽容。

    真正需要思考的,是我们如何避免类似的错误;而且作为一个团队,我们后续如何系统的、有组织的去避免类似的问题。不光是我们自己,也包括团队的其他人、后来者,如何也能够系统性的避免类似问题。

    case study的要义,并不是,“某人”出了“事故”,“某人”需要“反省”;case study的要义是,线上的损失,即是我们每一个人的损失,是跟你、跟我、跟每一个人有关的。每个人需从自己的所在出发,看是否有系统的手段,规避该问题、乃至规避类似问题。

    从工具、系统、流程、意识、技术,各个层面,系统性的去解决类似问题。做一个“学习型组织”,能看到组织的学习、进化,作为一个整体去避免类似问题。

    这是我们痛定思痛以后,需要深入去思考的。

    我们对错误宽容,但是请不要重复错误。核心,是如何避免再出现类似问题。

    四、事故处理时间提醒表

    关键时间点

    提醒事项

    5分钟内

    向上通报

    15分钟内

    以电话或钉钉形式通知主管及可能受影响的产品线。

    当天

    发出事故报告(包括精确到分钟的时间线,精确的PV/UV、线索、金钱等损失)

    7个自然日内

    召集case study,完成case study报告

    五、产品线事故级别定义

      • 服务级别: 各服务所属的服务级别,依据RD、PM、OP共同签署的SLA确定。
      • 事故级别定义: 以服务级别和影响程度来定义事故级别。
      • 定级是每次事故后,  第三方来定。损失一般指经济损失,  影响是, 多少人不能使用。   投诉量是体现使用者对事故的忍耐程度

    一级服务事故级别

    一般事故

    严重事故

    重大事故

    特大事故

    对外完全停止服务时间

    1-3分钟

    3-10分钟

    10-30分钟

    30分钟以上

    服务部分故障导致的流量损失占单日总流量比

    0.15%-0.45%

    0.45%-1.5%

    1.5%-4.5%

    4.5%以上

    服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

    3%-9%

    9%-30%

    30%-90%

    90%以上

    更新延迟或数据错误

    延迟1-2小时

    延迟2-12小时

    延迟超过12小时

    更新延迟超过12小时且无法恢复

    收入损失

    0.2% ~ 0.5%

    0.5% ~ 1%

    1% ~ 3%

    >3%

    二级服务事故级别

    一般事故

    严重事故

    重大事故

    特大事故

    对外完全停止服务时间

    5-10分钟

    10-30分钟

    30-60分钟

    60分钟以上

    服务部分故障导致的流量损失占单日总流量比

    0.75%-1.5%

    1.5%-4.5%

    4.5%-9%

    9%以上

    服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

    15%-30%

    30%-90%

    90%-180%

    180%以上

    更新延迟或数据错误

    延迟1-2小时

    延迟2-12小时

    延迟超过12小时

    更新延迟超过12小时且无法恢复

    收入损失

    0.2% ~ 0.5%

    0.5% ~ 1%

    1% ~ 3%

    >3%

    三级服务事故级别

    一般事故

    严重事故

    重大事故

    特大事故

    对外完全停止服务时间

    10-30分钟

    30-60分钟

    60分钟以上

    不适用

    服务部分故障导致的流量损失占单日总流量比

    1.5%-4.5%

    4.5%-9%

    9%以上

    不适用

    服务功能异常或严重影响用户体验,受影响访问量占单日总流量比

    30%-90%

    90%-180%

    180%以上

    不适用

    更新延迟或数据错误

    延迟6-12小时

    延迟12-24小时

    更新延迟超过24小时且无法恢复

    不适用

    收入损失

    0.2% ~ 0.5%

    0.5% ~ 1%

    1% ~ 3%

    >3%

     收入损失:以最近季度财报中总营收/90计算为单日平均营收,收入损失阈值以单日平均营收百分比计算

  • 相关阅读:
    linux——系统内核参数优化
    nginx 开启高效文件传输模式
    nginx——Nginx 处理事件模型
    Nginx 单个进程允许的最大连接数
    nginx传世经典
    Python中常见的数据类型总结(二)
    Python中常见的数据类型总结(一)
    Web压力测试工具 webbench
    性能测试概念点分析与过程讲解(四)--抓包
    性能测试概念点分析与过程讲解(三)
  • 原文地址:https://www.cnblogs.com/wt645631686/p/13475659.html
Copyright © 2020-2023  润新知