运维 / 评估与可观测性
评估与可观测性
度量没有唯一正确答案的智能体——结果与轨迹评测、LLM 作裁判、追踪与基准。
- 为什么评估智能体很难非确定性、多步复合误差、没有唯一标准答案、路径依赖、评估成本与数据集腐烂——单个干净数字是谎言的六个原因。
- 结果评估 vs 轨迹评估终态谓词与给决策序列打分:各自何时为正解、部分给分,以及作为最高杠杆安全检查的工具调用断言。
- 用 LLM 作为智能体评判者评分量表设计、成对 vs 单点、能颠倒裁决的偏差、针对人类标注校准,以及那些绝不该用评判者的情形。
- 批判地阅读智能体基准SWE-bench、GAIA、τ-bench、WebArena 实际测量什么,污染与框架敏感性为何让名次成为弱信号,以及真正做决定的小型自定义集。
- 智能体的追踪与可观测性轨迹是数据结构而非日志:每步记录什么、span 与 OpenTelemetry GenAI 约定,以及作为通往评估之桥的轨迹回放。
- 评估驱动的智能体开发评估是智能体唯一的规格:分层 CI 关卡、黄金轨迹、离线 vs 在线、生产到评估的飞轮,以及无回归棘轮。