实战手册 / 编码与计算机操作智能体

编码与计算机操作智能体

能读代码、写代码、运行工具并驱动计算机的智能体——模式、外壳与陷阱。

  1. 编码智能体架构
    让编码智能体不止是代码生成器的“定位-编辑-验证”循环:智能体-计算机接口、为何智能体式优于流水线式,以及循环在哪里失效。
  2. 仓库导航与代码上下文
    代码搜索 vs 向量检索、符号级索引、在大型目录树上做上下文预算,以及为何自信的错误定位是代码检索代价最高的失败。
  3. 补丁生成与测试驱动循环
    结构化 diff 与 hunk 应用失败、测试驱动自我纠错、回归守护,以及循环里的三个诚实骗子:flake、过拟合、被删的断言。
  4. 计算机操作与 GUI 智能体
    像素 vs DOM 定位、动作空间、截图循环,以及那笔让 GUI 操控成为最后手段的乘法式延迟与可靠性税。
  5. 沙箱与安全执行
    容器化执行、网络与文件系统隔离、能力作用域,以及当智能体运行不可信、受攻击者影响的代码时如何为爆炸半径做设计。
  6. 评估编码智能体
    SWE-bench 系列、pass@k vs 解决率、测试编排敏感性、记录在案的污染,以及为何一个截止日期后的私有评测集才是唯一可信的数字。