实战手册 / 编码与计算机操作智能体
编码与计算机操作智能体
能读代码、写代码、运行工具并驱动计算机的智能体——模式、外壳与陷阱。
- 编码智能体架构让编码智能体不止是代码生成器的“定位-编辑-验证”循环:智能体-计算机接口、为何智能体式优于流水线式,以及循环在哪里失效。
- 仓库导航与代码上下文代码搜索 vs 向量检索、符号级索引、在大型目录树上做上下文预算,以及为何自信的错误定位是代码检索代价最高的失败。
- 补丁生成与测试驱动循环结构化 diff 与 hunk 应用失败、测试驱动自我纠错、回归守护,以及循环里的三个诚实骗子:flake、过拟合、被删的断言。
- 计算机操作与 GUI 智能体像素 vs DOM 定位、动作空间、截图循环,以及那笔让 GUI 操控成为最后手段的乘法式延迟与可靠性税。
- 沙箱与安全执行容器化执行、网络与文件系统隔离、能力作用域,以及当智能体运行不可信、受攻击者影响的代码时如何为爆炸半径做设计。
- 评估编码智能体SWE-bench 系列、pass@k vs 解决率、测试编排敏感性、记录在案的污染,以及为何一个截止日期后的私有评测集才是唯一可信的数字。