智能体的投资回报是相对真实反事实创造的价值,不是它表面像的那份劳动。
那个本能的回报话术——"智能体干一个人的活,所以回报就是工资减去 API 账单"——几乎总是错的,而且错得能一直撑到一场财务评审把项目砍掉。真正的回报衡量需要一个显式的价值定义、一个站得住脚的反事实基线、一个把仍在循环里的人算进去的诚实成本侧,以及一个把"智能体可信之前的爬坡"算进去的价值实现时间。
"智能体替代一个人"这个框架是范畴错误。
智能体很少替代一整个岗位;它吸收一片任务,并改变其余任务的形态。把回报算成"裁掉的人头 × 工资",假设了那个人消失了——但通常他们转去评审智能体、处理它的上报、做它做不了的判断工作。诚实的问题不是"这替掉了哪个人",而是"现在做成、而以前没在做的工作的边际价值,扣除仍需的人工付出后,是多少"。赢面常常是没有任何人头计划会拨款的吞吐或覆盖,而非你删掉的一行工资。
没有反事实基线就没有回报,只有一个故事。
回报是相对本来无论如何都会发生的事的价值。如果工单本就在下降,或一个更便宜的规则引擎本就能抓住 60% 的情形,那么智能体只赚到相对那个基线的增量——而非整个结果。最强的基线是一个实验;没有它,就用带对照分段的前后对比;最弱的是一个把假设摊开陈述的反事实估计。
# ROI is the delta over the counterfactual, net of new costs value_with_agent = outcomes_delivered * value_per_outcome value_counterfactual = baseline_outcomes * value_per_outcome # happens anyway incremental_value = value_with_agent - value_counterfactual roi = (incremental_value - loaded_agent_cost) / loaded_agent_cost # crediting the agent with value_with_agent alone is the lie
最常见的回报灌水:把整个结果记到智能体头上,而非相对基线的增量。它把一个朴素而真实的 1.4× 变成一个虚构的 9×,财务一问"对比什么?"就崩。在上智能体之前先建基线,否则上线后你无法度量它。
把价值定义为一个核验过的结果,不是活动量。
"智能体处理了 4 万个请求"是活动量,不是价值——这个数无论工作有没有帮上忙都会往上走。价值必须是一个绑定到业务本就信任的指标的核验结果:未重开的解决工单、转化了的合格线索、被下游接受的已处理文档。活动指标奖励一个忙碌的智能体;结果指标奖励一个有用的智能体,只有后者扛得住审视。如果你说不出那个核验过的结果,你还没有回报论证,你有的是一份用量报告。
给那个其实从未真正离开循环的人算成本。
分母是满载的,而最大的隐藏项是没有消失的人工付出。麦肯锡 2026《人工智能现状》数据显示,范围划得好的部署能达到强劲回报,但通不过财务评审的项目,是那些只算 API 账单、忽略智能体新造出的工作的项目。
- 评审与监督——人检查、纠正、批准智能体输出是经常性成本,早期常常是主导项。
- 上报处理——智能体闭不掉的那部分仍消耗一个人,往往是每件成本最高的难案。
- 维护——评估、提示与工具维护、模型升级折腾是一条持续的项,不是一次性的搭建。
决定项目的是价值实现时间,不是稳态回报。
智能体有一段长爬坡:上线时成功率低、人工评审重,随评估收紧、提示成熟而改善。稳态回报可以很出色,而累计现金头寸却深陷负值好几个月。已公开的模式把目标明确的智能体的回本期放在 3–12 个月、把强劲回报放在投产后约一年内——但一个按第一个月数字评判、或拨款跑道短于其价值实现时间的项目,会在它赚回本之前就被取消。要度量累计曲线与盈亏平衡点,而不只是那条渐近线。
什么时候诚实的回报数字是"还不行,也许这里也不行"。
如果价值无法核验、基线无从知晓、或满载的人工成本抹掉了收益,诚实的答案是:这还不是一个回报为正的用例——而这么说比一年后才发现要便宜。有些工作流确实过不了那道线;一个忠实的负面结果把投资重定向到一个过得了的。一个扛不住敌意财务评审的回报模型不是稳健分析,是一次预先排期的取消。