错误处理是系统韧性的设计

当错误率超过阈值时不再尝试调用服务 直接返回失败直到一段时间后再尝试恢复

剑飞
1/14错误处理是系统韧性的设计

但凌晨4点再跑就成功了

01命题

先说清本页判断

02解释

补足为什么

03行动

留下下一步

把“但凌晨4点再跑就成”落到一个具体项目里看结果
2/14错误处理是系统韧性的设计

但我们的推送频率明明很低

排查日志发现失败原因是微信API返回了"接口调用频率超限"
3/14错误处理是系统韧性的设计

把当天的调用配额全用光了

进一步追查发现是另一个项目的微信小程序在凌晨3点跑了一个批量同步任务 把当天的调

命题先说清本页判断
解释补足为什么
行动留下下一步
4/14错误处理是系统韧性的设计

而是"错了能恢复"

命题先说清本页判断
解释补足为什么
行动留下下一步
把“而是"错了能恢复"”落到一个具体项目里看结果
5/14错误处理是系统韧性的设计

而是设计时就该考虑的核心能力

错误处理不是事后补救而是设计时就该考虑的核心能力

把“而是设计时就该考虑”落到一个具体项目里看结果
6/14错误处理是系统韧性的设计

需要不同的处理策略

不同类型的错误 需要不同的处理策略

命题先说清本页判断
解释补足为什么
行动留下下一步
7/14错误处理是系统韧性的设计

这类错误是环境问题

这类错误是环境问题 等一会儿就好了
8/14错误处理是系统韧性的设计

这类错误是业务问题

01命题

先说清本页判断

02解释

补足为什么

03行动

留下下一步

把“这类错误是业务问题”落到一个具体项目里看结果
9/14错误处理是系统韧性的设计

上游服务本身没问题

命题先说清本页判断
解释补足为什么
行动留下下一步
把“上游服务本身没问题”落到一个具体项目里看结果
10/14错误处理是系统韧性的设计

这类错误是状态不一致导致的

比如重复推送订单已支付但库存未扣减任务执行到一半崩溃

把“这类错误是状态不一”落到一个具体项目里看结果
11/14错误处理是系统韧性的设计

对应四种错误类型

对应四种错误类型 有四种处理策略重试 降级 熔断 补偿

命题先说清本页判断
解释补足为什么
行动留下下一步
12/14错误处理是系统韧性的设计

带走四步

找项目

从真实任务开始

出材料

把想法变成可处理内容

做交付

用结果判断能力

可复用

把完成沉淀为流程

13/14错误处理是系统韧性的设计

让能力长出来

当错误率超过阈值时 不再尝试调用服务直接返回失败 直到一段时间后再尝试恢复