运维 / 评估与可观测性

评估与可观测性

度量没有唯一正确答案的智能体——结果与轨迹评测、LLM 作裁判、追踪与基准。

  1. 为什么评估智能体很难
    非确定性、多步复合误差、没有唯一标准答案、路径依赖、评估成本与数据集腐烂——单个干净数字是谎言的六个原因。
  2. 结果评估 vs 轨迹评估
    终态谓词与给决策序列打分:各自何时为正解、部分给分,以及作为最高杠杆安全检查的工具调用断言。
  3. 用 LLM 作为智能体评判者
    评分量表设计、成对 vs 单点、能颠倒裁决的偏差、针对人类标注校准,以及那些绝不该用评判者的情形。
  4. 批判地阅读智能体基准
    SWE-bench、GAIA、τ-bench、WebArena 实际测量什么,污染与框架敏感性为何让名次成为弱信号,以及真正做决定的小型自定义集。
  5. 智能体的追踪与可观测性
    轨迹是数据结构而非日志:每步记录什么、span 与 OpenTelemetry GenAI 约定,以及作为通往评估之桥的轨迹回放。
  6. 评估驱动的智能体开发
    评估是智能体唯一的规格:分层 CI 关卡、黄金轨迹、离线 vs 在线、生产到评估的飞轮,以及无回归棘轮。