真正重要的单位是每个成功任务的成本,而成功率在分母上。
团队给每 token 成本和每次 API 调用成本插探针,因为这些能直接从账单上读出来。两者都是错误的单位。token 不是交付物;一个成功完成的任务才是。决定一个智能体是生意还是烧钱的指标是每个成功结果的成本——而由于失败的尝试照样按全价计费却什么也没交付,成功率坐在分母上,那里一点小变化就会把单位经济学剧烈地甩来甩去。
每 token 成本藏起了唯一重要的那个数。
一个每次运行花 0.40 美元的智能体看起来很便宜,直到你得知它只有 60% 的时候成功。客户只为成功付你钱,但每次运行你都付了钱——所以你交付每个结果的真实成本是 0.40 / 0.60 = 0.67 美元,而这还没算重试。每 token 成本对此什么也没告诉你;它衡量的是付出,不是交付的价值。2025–2026 年正在收敛的行业术语是每个成功任务的成本(CPST):所有尝试的总成本,除以真正产出了结果的尝试次数。
成功率这个分母是主导杠杆。
把这个单位写出来,杠杆就一目了然。把成功率从 70% 提到 85%,在模型价格完全不变的情况下把每个成功的成本砍掉约 18%——通常远大于任何 token 优化的幅度,而且它同时改进了产品。
# cost per successful task — the denominator does the work attempts = 1000 cost_per_run = 0.40 # you pay this every attempt, win or lose success_rate = 0.70 retries_per_win = 1.3 # failed tries before a win still bill cost_per_win = (cost_per_run * retries_per_win) / success_rate # = 0.52 / 0.70 = $0.74 — not the $0.40 on the dashboard
优化模型之前,先优化分母。一个提升成功率的可靠性修复会复利:它降低每个成功的成本,又抬高交付价值,又缩小重试税——一处改动三处赢。token 调优只动其中一项。
在度量成本之前先定义"成功",否则你什么也没度量。
只有当"成功"是一个客观、可自动判定、且客户会认同的裁决——一个解决的工单、一个合并的 PR、一张通过的发票——而不是"模型返回了一段流畅的回应"时,CPST 才有意义。如果成功由做这件事的同一个模型来评判,你度量的是置信而非正确,你的分母被无声失败灌了水。定义成功的那个评估是单位经济学得以存在的前提;没有它,你有的是一个没有单位的成本数字。
毛利是价格减去满载的每个成功成本,不是减去模型成本。
满载的每个成功任务成本包含失败的尝试、重试、一部分任务触发的人工上报、评估与可观测性开销,以及为昂贵长尾留的缓冲。毛利是客户付的价格减去那个,不是减去原始模型花费。
- 把上报成本算进去。如果 8% 的任务回退给一个满载劳动成本 6 美元的人工,那会给平均每个成功的成本加上约 0.48 美元——常常大于模型那一项。
- 把评估/可观测性税算进去。让智能体安全的评判调用、轨迹与监控是真实的按任务成本,不是可忽略的开销。
- 按满载数字定价。一个对着原始模型成本定价的产品,在长尾或上报率第一次移动时就是负毛利。
决定存亡的是分布,不是平均。
智能体每任务成本严重右偏:多数任务很便宜,少数通过长循环、深扇出与重试风暴烧掉中位数的 50–100 倍。均值可以看着很健康,而第 95 百分位的任务摧毁了当月毛利。要按 p95 成本月、而非平均来为单位经济学做承保——一个只在均值处盈利的生意,是一个恰恰在最忙时亏钱的生意。
什么时候每 token 成本终究是对的指标。
token 成本只对一件事是正确的镜片:在相同成功率下比较同一任务的两个实现——那里,更便宜的 token 是纯毛利。错误在于把它当作头条业务指标。只在成功率、重试率与长尾都插上探针之后再优化 token;一个失败任务上更便宜的 token,只是更快地亏钱。