自动化失败后要先判断 failure type

1.浪费时间有些失败是环境临时问题（网络抖动SSH 超时）重试就能恢复

剑飞

而是不知道为什么失败

自动化工作流最怕的不是失败而是不知道为什么失败

命题先说清本页判断

解释补足为什么

行动留下下一步

非零退出码就重试

这种做法有三个问题

重试 100 次也没用

01命题

先说清本页判断

02解释

补足为什么

03行动

留下下一步

把“重试 100 次也”落到一个具体项目里看结果

每种类型对应不同的处理策略

命题先说清本页判断

解释补足为什么

行动留下下一步

把“每种类型对应不同的”落到一个具体项目里看结果

而是为了驱动自动化决策

失败分类不是为了让日志好看而是为了驱动自动化决策

把“而是为了驱动自动化”落到一个具体项目里看结果

`failure_retr

`failure_retryable()` 函数根据失败类型决定是否值得重试

命题先说清本页判断

解释补足为什么

行动留下下一步

esac } ```

*) printf 'false'

生成人类可读的下一步指导

`failure_next_action()` 函数根据失败类型和当前角色生成人类可读的下一步指导

命题先说清本页判断

解释补足为什么

行动留下下一步

``` 1.Agent

01命题

先说清本页判断

02解释

补足为什么

03行动

留下下一步

把“``` 1.Ag”落到一个具体项目里看结果

1.所有自动化脚本都应该

1.所有自动化脚本都应该有失败分类不仅仅是 `stage_with_agents.sh` 任何有重试逻辑的自动化脚本都

让想法成结构

01语言

先变成材料

02材料

再形成结构

03结构

最后推动行动

把“让想法成结构”落到一个具体项目里看结果

带走四步

找项目

从真实任务开始

出材料

把想法变成可处理内容

做交付

用结果判断能力

可复用

把完成沉淀为流程

让能力长出来

1.浪费时间有些失败是环境临时问题（网络抖动SSH 超时）重试就能恢复

返回原文

上一篇API设计的第一直觉陷阱下一篇多Agent审稿为什么独立worker更容易发