衡量智能体投资回报

运维 · 经济性与投资回报

智能体的投资回报是相对真实反事实创造的价值，不是它表面像的那份劳动。

那个本能的回报话术——"智能体干一个人的活，所以回报就是工资减去 API 账单"——几乎总是错的，而且错得能一直撑到一场财务评审把项目砍掉。真正的回报衡量需要一个显式的价值定义、一个站得住脚的反事实基线、一个把仍在循环里的人算进去的诚实成本侧，以及一个把"智能体可信之前的爬坡"算进去的价值实现时间。

STEP 1

"智能体替代一个人"这个框架是范畴错误。

智能体很少替代一整个岗位；它吸收一片任务，并改变其余任务的形态。把回报算成"裁掉的人头 × 工资"，假设了那个人消失了——但通常他们转去评审智能体、处理它的上报、做它做不了的判断工作。诚实的问题不是"这替掉了哪个人"，而是"现在做成、而以前没在做的工作的边际价值，扣除仍需的人工付出后，是多少"。赢面常常是没有任何人头计划会拨款的吞吐或覆盖，而非你删掉的一行工资。

STEP 2

没有反事实基线就没有回报，只有一个故事。

回报是相对本来无论如何都会发生的事的价值。如果工单本就在下降，或一个更便宜的规则引擎本就能抓住 60% 的情形，那么智能体只赚到相对那个基线的增量——而非整个结果。最强的基线是一个实验；没有它，就用带对照分段的前后对比；最弱的是一个把假设摊开陈述的反事实估计。

# ROI is the delta over the counterfactual, net of new costs
value_with_agent     = outcomes_delivered * value_per_outcome
value_counterfactual = baseline_outcomes  * value_per_outcome   # happens anyway

incremental_value = value_with_agent - value_counterfactual
roi = (incremental_value - loaded_agent_cost) / loaded_agent_cost
# crediting the agent with value_with_agent alone is the lie

最常见的回报灌水：把整个结果记到智能体头上，而非相对基线的增量。它把一个朴素而真实的 1.4× 变成一个虚构的 9×，财务一问"对比什么？"就崩。在上智能体之前先建基线，否则上线后你无法度量它。

STEP 3

把价值定义为一个核验过的结果，不是活动量。

"智能体处理了 4 万个请求"是活动量，不是价值——这个数无论工作有没有帮上忙都会往上走。价值必须是一个绑定到业务本就信任的指标的核验结果：未重开的解决工单、转化了的合格线索、被下游接受的已处理文档。活动指标奖励一个忙碌的智能体；结果指标奖励一个有用的智能体，只有后者扛得住审视。如果你说不出那个核验过的结果，你还没有回报论证，你有的是一份用量报告。

STEP 4

给那个其实从未真正离开循环的人算成本。

分母是满载的，而最大的隐藏项是没有消失的人工付出。麦肯锡 2026《人工智能现状》数据显示，范围划得好的部署能达到强劲回报，但通不过财务评审的项目，是那些只算 API 账单、忽略智能体新造出的工作的项目。

评审与监督——人检查、纠正、批准智能体输出是经常性成本，早期常常是主导项。
上报处理——智能体闭不掉的那部分仍消耗一个人，往往是每件成本最高的难案。
维护——评估、提示与工具维护、模型升级折腾是一条持续的项，不是一次性的搭建。

STEP 5

决定项目的是价值实现时间，不是稳态回报。

智能体有一段长爬坡：上线时成功率低、人工评审重，随评估收紧、提示成熟而改善。稳态回报可以很出色，而累计现金头寸却深陷负值好几个月。已公开的模式把目标明确的智能体的回本期放在 3–12 个月、把强劲回报放在投产后约一年内——但一个按第一个月数字评判、或拨款跑道短于其价值实现时间的项目，会在它赚回本之前就被取消。要度量累计曲线与盈亏平衡点，而不只是那条渐近线。

STEP 6

什么时候诚实的回报数字是"还不行，也许这里也不行"。

如果价值无法核验、基线无从知晓、或满载的人工成本抹掉了收益，诚实的答案是：这还不是一个回报为正的用例——而这么说比一年后才发现要便宜。有些工作流确实过不了那道线；一个忠实的负面结果把投资重定向到一个过得了的。一个扛不住敌意财务评审的回报模型不是稳健分析，是一次预先排期的取消。