运维 / 智能体运维：部署与运营

智能体运维：部署与运营

在生产中运行智能体：灰度、版本化、扩缩、幂等重试、成本控制与事故响应。

持久状态与可恢复性

把智能体循环做成一次持久计算——事件溯源式历史、先写日志再产生副作用、以重放而非重新推导来恢复，使崩溃或重新部署绝不重启一个做了一半的任务。
并发、队列与扩缩容

智能体是批处理作业而非请求：带租约 worker 的队列、按租户并发上限、以日志为状态实现横向扩缩、以及有界扇出，才是能扛住生产负载的形态。
幂等、重试与副作用安全

四个叠加的重试源意味着每个写工具都会触发两次——除非你用源自意图的幂等键、失败分类与持久副作用账本构造出恰好一次。
在循环层面控制成本

智能体成本默认无界；把按任务的 token/步数/美元上限当作 fail-closed 熔断器，再对着质量指标调模型级联、提示与工具缓存、以及提前退出。
灰度发布、版本化与固定

行为是（模型、提示、工具）三元组；固定到带日期的快照、在每次运行上打戳，并只经影子/灰度加评估闸门提升新版本，配以即时配置切换回滚。
事故响应与失控遏制

失控的智能体 fail-open 且持续行动；从速率与进展检测、用恢复路径也遵守的循环内 fail-closed 熔断遏制、依赖预装的爆炸半径界限，并把每桩事故变成回归测试。