智能体单位经济学

运维 · 经济性与投资回报

真正重要的单位是每个成功任务的成本，而成功率在分母上。

团队给每 token 成本和每次 API 调用成本插探针，因为这些能直接从账单上读出来。两者都是错误的单位。token 不是交付物；一个成功完成的任务才是。决定一个智能体是生意还是烧钱的指标是每个成功结果的成本——而由于失败的尝试照样按全价计费却什么也没交付，成功率坐在分母上，那里一点小变化就会把单位经济学剧烈地甩来甩去。

STEP 1

每 token 成本藏起了唯一重要的那个数。

一个每次运行花 0.40 美元的智能体看起来很便宜，直到你得知它只有 60% 的时候成功。客户只为成功付你钱，但每次运行你都付了钱——所以你交付每个结果的真实成本是 0.40 / 0.60 = 0.67 美元，而这还没算重试。每 token 成本对此什么也没告诉你；它衡量的是付出，不是交付的价值。2025–2026 年正在收敛的行业术语是每个成功任务的成本（CPST）：所有尝试的总成本，除以真正产出了结果的尝试次数。

STEP 2

成功率这个分母是主导杠杆。

把这个单位写出来，杠杆就一目了然。把成功率从 70% 提到 85%，在模型价格完全不变的情况下把每个成功的成本砍掉约 18%——通常远大于任何 token 优化的幅度，而且它同时改进了产品。

# cost per successful task — the denominator does the work
attempts        = 1000
cost_per_run    = 0.40          # you pay this every attempt, win or lose
success_rate    = 0.70
retries_per_win = 1.3           # failed tries before a win still bill

cost_per_win = (cost_per_run * retries_per_win) / success_rate
# = 0.52 / 0.70 = $0.74  — not the $0.40 on the dashboard

优化模型之前，先优化分母。一个提升成功率的可靠性修复会复利：它降低每个成功的成本，又抬高交付价值，又缩小重试税——一处改动三处赢。token 调优只动其中一项。

STEP 3

在度量成本之前先定义"成功"，否则你什么也没度量。

只有当"成功"是一个客观、可自动判定、且客户会认同的裁决——一个解决的工单、一个合并的 PR、一张通过的发票——而不是"模型返回了一段流畅的回应"时，CPST 才有意义。如果成功由做这件事的同一个模型来评判，你度量的是置信而非正确，你的分母被无声失败灌了水。定义成功的那个评估是单位经济学得以存在的前提；没有它，你有的是一个没有单位的成本数字。

STEP 4

毛利是价格减去满载的每个成功成本，不是减去模型成本。

满载的每个成功任务成本包含失败的尝试、重试、一部分任务触发的人工上报、评估与可观测性开销，以及为昂贵长尾留的缓冲。毛利是客户付的价格减去那个，不是减去原始模型花费。

把上报成本算进去。如果 8% 的任务回退给一个满载劳动成本 6 美元的人工，那会给平均每个成功的成本加上约 0.48 美元——常常大于模型那一项。
把评估/可观测性税算进去。让智能体安全的评判调用、轨迹与监控是真实的按任务成本，不是可忽略的开销。
按满载数字定价。一个对着原始模型成本定价的产品，在长尾或上报率第一次移动时就是负毛利。

STEP 5

决定存亡的是分布，不是平均。

智能体每任务成本严重右偏：多数任务很便宜，少数通过长循环、深扇出与重试风暴烧掉中位数的 50–100 倍。均值可以看着很健康，而第 95 百分位的任务摧毁了当月毛利。要按 p95 成本月、而非平均来为单位经济学做承保——一个只在均值处盈利的生意，是一个恰恰在最忙时亏钱的生意。

STEP 6

什么时候每 token 成本终究是对的指标。

token 成本只对一件事是正确的镜片：在相同成功率下比较同一任务的两个实现——那里，更便宜的 token 是纯毛利。错误在于把它当作头条业务指标。只在成功率、重试率与长尾都插上探针之后再优化 token；一个失败任务上更便宜的 token，只是更快地亏钱。