运维 / 智能体运维:部署与运营

智能体运维:部署与运营

在生产中运行智能体:灰度、版本化、扩缩、幂等重试、成本控制与事故响应。

  1. 持久状态与可恢复性
    把智能体循环做成一次持久计算——事件溯源式历史、先写日志再产生副作用、以重放而非重新推导来恢复,使崩溃或重新部署绝不重启一个做了一半的任务。
  2. 并发、队列与扩缩容
    智能体是批处理作业而非请求:带租约 worker 的队列、按租户并发上限、以日志为状态实现横向扩缩、以及有界扇出,才是能扛住生产负载的形态。
  3. 幂等、重试与副作用安全
    四个叠加的重试源意味着每个写工具都会触发两次——除非你用源自意图的幂等键、失败分类与持久副作用账本构造出恰好一次。
  4. 在循环层面控制成本
    智能体成本默认无界;把按任务的 token/步数/美元上限当作 fail-closed 熔断器,再对着质量指标调模型级联、提示与工具缓存、以及提前退出。
  5. 灰度发布、版本化与固定
    行为是(模型、提示、工具)三元组;固定到带日期的快照、在每次运行上打戳,并只经影子/灰度加评估闸门提升新版本,配以即时配置切换回滚。
  6. 事故响应与失控遏制
    失控的智能体 fail-open 且持续行动;从速率与进展检测、用恢复路径也遵守的循环内 fail-closed 熔断遏制、依赖预装的爆炸半径界限,并把每桩事故变成回归测试。