运维 / 智能体运维:部署与运营
智能体运维:部署与运营
在生产中运行智能体:灰度、版本化、扩缩、幂等重试、成本控制与事故响应。
- 持久状态与可恢复性把智能体循环做成一次持久计算——事件溯源式历史、先写日志再产生副作用、以重放而非重新推导来恢复,使崩溃或重新部署绝不重启一个做了一半的任务。
- 并发、队列与扩缩容智能体是批处理作业而非请求:带租约 worker 的队列、按租户并发上限、以日志为状态实现横向扩缩、以及有界扇出,才是能扛住生产负载的形态。
- 幂等、重试与副作用安全四个叠加的重试源意味着每个写工具都会触发两次——除非你用源自意图的幂等键、失败分类与持久副作用账本构造出恰好一次。
- 在循环层面控制成本智能体成本默认无界;把按任务的 token/步数/美元上限当作 fail-closed 熔断器,再对着质量指标调模型级联、提示与工具缓存、以及提前退出。
- 灰度发布、版本化与固定行为是(模型、提示、工具)三元组;固定到带日期的快照、在每次运行上打戳,并只经影子/灰度加评估闸门提升新版本,配以即时配置切换回滚。
- 事故响应与失控遏制失控的智能体 fail-open 且持续行动;从速率与进展检测、用恢复路径也遵守的循环内 fail-closed 熔断遏制、依赖预装的爆炸半径界限,并把每桩事故变成回归测试。