数据与分析智能体

实战手册 · 领域实战手册

数据与分析智能体：失败模式是一个自信的错误数字。

一个文本转 SQL 或 notebook 智能体在演示里像魔法，在生产里却危险，原因只有一个：一个没有误差棒、配着流畅叙述的数字，在有人据此做决策之前，与一个正确答案无法区分。本手册把分析智能体当作一台必须报告自身不确定性的仪器：如何把它接地到 schema、如何核验它产出的结果、契合不可逆业务决策的自主级别，以及为何自信地给出的错误数字，是唯一要紧的失败模式。

STEP 1

任务是一个站得住脚的数字，不是一个看似合理的。

传统 bug 返回一个错误；分析智能体的 bug 返回 $4.2M 外加一句自信的话。无论查询是否连错了表或滤掉了一半行，输出在结构上看起来都值得信赖——一个干净的数字、一张图、一段话。因此任务不是"回答问题"，而是"产出一个就算错了决策也扛得住的数字，否则就拒答"。一个没人发现的错误仪表盘数字，会变成一张错误的董事会幻灯片，再变成一个错误的战略。一个会说"我不确定，这是查询，请核对"的分析智能体，比一个总能给答案的更有价值，因为后者会偶发且无形地酿成灾难。

STEP 2

Schema 接地就是整个准确性问题。

大多数错误数字不是算术错误——而是语义错误：模型用错误的键把 orders 连到 users、在业务指 closed_at 时用了 created_at、或对一个本已是平均值的列做了求和。修法不是更聪明的模型，而是接地：把真实 schema、列描述、已知连接路径、以及一组经过核验的示例查询喂给智能体——并把它约束在数仓视图上的只读角色，绝不直连原始生产。

# ground in schema + verified examples, run read-only, then verify
sql = model(question, schema=catalog, examples=verified_queries)
assert is_select_only(sql) and tables(sql) <= allowed_views
rows = warehouse.run(sql, role="analytics_ro", row_limit=1e6)

语义层与指标存储（dbt metrics、指标目录）把智能体从"对原始表写 SQL"挪到"选择一个受治理的指标"。一个预定义、经评审的 revenue 指标，智能体只是参数化它，就消除了整类连接/过滤错误。

STEP 3

核验是一个独立步骤，不是一种感觉。

最高杠杆的单一设计动作，是绝不信任第一条查询。把核验做成一个显式流水线阶段：跑智能体没写的合理性检查——行数在预期量级内、没有静默把 NULL 折叠掉的连接、总数与已知对照值勾对、以及一条独立生成、本应得出同一答案的第二查询。同一数字两种推导之间的分歧，是你能拥有的最便宜的幻觉检测器，代价仅为一条额外查询。

让智能体检查自己的工作，它通常会为第一个答案找理由——同一上下文里的自我核验是作秀。核验必须是一次全新推导或一项外部断言（一个对照总数、一个约束），而不是在提示后追加一句"你确定吗？"。

STEP 4

正确的自主：探索时自主，决策时设关。

让自主匹配数字所馈入之事的可逆性。探索性分析——一个人在 notebook 里迭代、逐一肉眼看每个结果——可以完全自主；人就是回路里的核验者。一个馈入高管仪表盘、查询与决策之间没有人的定时指标，才是危险配置：那里，智能体的查询必须被评审一次并固定下来，而不是每晚由一个非确定性模型重新生成。规则是：人越不会仔细审视那个数字，就越不该允许智能体重新撰写它。

STEP 5

评估信号：在已标注问题库上的正确性。

"看起来合理"不是评估。能驾驭分析智能体的信号，是在一份有已知正确答案的自然语言问题精选库上的执行准确率，按以下评分：

结果正确性——返回值是否与已核验的真值匹配，精确或在容差内；这是业务唯一在乎的指标。
查询有效性——它是否能执行，限定只读，不会扫全仓或超时。
校准的弃答——对 schema 无法回答的问题，它是否如实说而非编造一个连接；一个自信的错误答案得分远低于一个正确的"我答不了"。

把自信错答率当作一等数字追踪，并拒绝上线一个靠同时降低你承担不起的正确答案覆盖率来压低它的模型——但反过来绝不可。

STEP 6

数据与分析清单。

接地到真实 schema、列语义、连接路径与已核验示例查询——最好是受治理的指标/语义层。
数仓视图上的只读角色；执行前强制只 SELECT 断言与表白名单。
核验是独立阶段：对照总数、量级合理性检查、以及一条独立的第二推导必须一致。
自我"你确定吗？"不是核验；用全新推导或外部约束。
自主随人的审视程度伸缩：探索时自由，无人值守的定时指标其查询经评审并固定。
每个答案随附其查询与假设，以便人审计推导过程。
评估是已标注问题库上的执行准确率；自信错答率作为硬性、重权指标追踪。

诚实的取舍：一个会弃答并亮出查询的分析智能体，比一个总能给答案的更慢也更不惊艳——但总能给答案的那个版本是数字生成器，不是分析师，而这个差别恰恰在依赖它的那个决策来临之前都不可见。