对待事故的态度（摘自rrc-wiki）

1. 通报 && 通报 && 通报

先通报给Leader；然后Leader视需要，通报给相关业务方

为什么要先通报？第一，如果是一个严重的问题，Leader可能能帮你调集更多的资源、人手帮你解决这个问题；

其次，如果对我们业务造成影响，我们可能需要去通知、安抚我们对口的业务方（比如SEM投放，比如电话销售团队、评估师、销售等等），尽量减少损失、给他们我们修复的预期。

2. 先解决问题；先解决问题；先解决问题

我们是一个团队。“团队”和“团伙”的区别，在于凝聚力、在于信任、协作、补位，去完成艰巨的任务。

当出问题的时候，第一时间，我们不要去追究谁的责任，也不要因为这个模块/业务不是我负责就坐视不理。线上服务，是我们每一个人的事。

“谁都不是一座岛屿,自成一体；每个人都是那广袤大陆的一部分.如果海浪冲刷掉一个土块,欧洲就少了一点；如果一个海角、如果你朋友或你自己的庄园被冲掉,也是如此.任何人的死亡都使我受到损失,因为我包孕在人类之中.所以别去打听丧钟为谁而鸣,它为你敲响” —— 海明威引用过的一首诗

我们的成就，我们的损失，首先都是作为“团队”得到的，而不是“个人”；每一个流量、每一个线索、每一个数据错误，损失的都是你的一部分。所以，当出问题的时候，请不要问是谁的责任、不要责怪战友，请挺身而出、作为团队的一份子积极面对，先解决问题。

3. 既往不咎 && 纵情向前

最近看写谷歌的《如何定义团队》，谷歌有一个“百万美元俱乐部”，会员不是百万富翁，都是给谷歌百万美元以上损失的人。百万！美元！那又怎样？他们也没有被谷歌开除。

世界上只有一种人不犯错，那就是不做事的人。No 上线， No bugs。做事越多的人，出错的可能性越大。

我们是一家创业公司，我们的业务在飞速发展，我们线上产品技术以超音速在迭代上线，我们在与时间赛跑，我们要短期内做出卓尔不凡的成就。那我们一定会犯错。

创业，一定对错误宽容。

真正需要思考的，是我们如何避免类似的错误；而且作为一个团队，我们后续如何系统的、有组织的去避免类似的问题。不光是我们自己，也包括团队的其他人、后来者，如何也能够系统性的避免类似问题。

case study的要义，并不是，“某人”出了“事故”，“某人”需要“反省”；case study的要义是，线上的损失，即是我们每一个人的损失，是跟你、跟我、跟每一个人有关的。每个人需从自己的所在出发，看是否有系统的手段，规避该问题、乃至规避类似问题。

从工具、系统、流程、意识、技术，各个层面，系统性的去解决类似问题。做一个“学习型组织”，能看到组织的学习、进化，作为一个整体去避免类似问题。

这是我们痛定思痛以后，需要深入去思考的。

我们对错误宽容，但是请不要重复错误。核心，是如何避免再出现类似问题。

四、事故处理时间提醒表

关键时间点	提醒事项
5分钟内	向上通报
15分钟内	以电话或钉钉形式通知主管及可能受影响的产品线。
当天	发出事故报告（包括精确到分钟的时间线，精确的PV/UV、线索、金钱等损失）
7个自然日内	召集case study，完成case study报告

一级服务事故级别	一般事故	严重事故	重大事故	特大事故
对外完全停止服务时间	1-3分钟	3－10分钟	10－30分钟	30分钟以上
服务部分故障导致的流量损失占单日总流量比	0.15%-0.45%	0.45%-1.5%	1.5%-4.5%	4.5%以上
服务功能异常或严重影响用户体验，受影响访问量占单日总流量比	3%-9%	9%-30%	30%-90%	90%以上
更新延迟或数据错误	延迟1-2小时	延迟2-12小时	延迟超过12小时	更新延迟超过12小时且无法恢复
收入损失	0.2% ~ 0.5%	0.5% ~ 1%	1% ~ 3%	>3%

二级服务事故级别	一般事故	严重事故	重大事故	特大事故
对外完全停止服务时间	5-10分钟	10－30分钟	30－60分钟	60分钟以上
服务部分故障导致的流量损失占单日总流量比	0.75%-1.5%	1.5%-4.5%	4.5%-9%	9%以上
服务功能异常或严重影响用户体验，受影响访问量占单日总流量比	15%-30%	30%-90%	90%-180%	180%以上
更新延迟或数据错误	延迟1-2小时	延迟2-12小时	延迟超过12小时	更新延迟超过12小时且无法恢复
收入损失	0.2% ~ 0.5%	0.5% ~ 1%	1% ~ 3%	>3%

三级服务事故级别	一般事故	严重事故	重大事故	特大事故
对外完全停止服务时间	10-30分钟	30－60分钟	60分钟以上	不适用
服务部分故障导致的流量损失占单日总流量比	1.5%-4.5%	4.5%-9%	9%以上	不适用
服务功能异常或严重影响用户体验，受影响访问量占单日总流量比	30%-90%	90%-180%	180%以上	不适用
更新延迟或数据错误	延迟6-12小时	延迟12-24小时	更新延迟超过24小时且无法恢复	不适用
收入损失	0.2% ~ 0.5%	0.5% ~ 1%	1% ~ 3%	>3%

注收入损失：以最近季度财报中总营收/90计算为单日平均营收，收入损失阈值以单日平均营收百分比计算