Agentic AI 维基

实战指南概念深度剖析实战手册运维更新日志关于

运维 / 评估与可观测性

评估与可观测性

度量没有唯一正确答案的智能体——结果与轨迹评测、LLM 作裁判、追踪与基准。

为什么评估智能体很难

非确定性、多步复合误差、没有唯一标准答案、路径依赖、评估成本与数据集腐烂——单个干净数字是谎言的六个原因。
结果评估 vs 轨迹评估

终态谓词与给决策序列打分：各自何时为正解、部分给分，以及作为最高杠杆安全检查的工具调用断言。
用 LLM 作为智能体评判者

评分量表设计、成对 vs 单点、能颠倒裁决的偏差、针对人类标注校准，以及那些绝不该用评判者的情形。
批判地阅读智能体基准

SWE-bench、GAIA、τ-bench、WebArena 实际测量什么，污染与框架敏感性为何让名次成为弱信号，以及真正做决定的小型自定义集。
智能体的追踪与可观测性

轨迹是数据结构而非日志：每步记录什么、span 与 OpenTelemetry GenAI 约定，以及作为通往评估之桥的轨迹回放。
评估驱动的智能体开发

评估是智能体唯一的规格：分层 CI 关卡、黄金轨迹、离线 vs 在线、生产到评估的飞轮，以及无回归棘轮。

Agentic AI 维基 — 沉淀长期有效的知识。 © 2026