智能体的单位经济学不会渐渐侵蚀——它在所有人都不再盯着的地方,骤然反转。
一个赚钱的智能体和一个亏钱的智能体,常常是同一个智能体面对不同输入。经济性很少沿一条平滑斜坡退化;它在特定的结构点上翻转——重试风暴、长尾、上报、评估账单、无声失败税——在那里每个成功的成本越过每个成功的收入并停在那一侧。本文编目反转发生在何处,好让监视落在失败面上,而不是那个舒服的平均上。
重试是一个乘数,而作用在不稳定工具上的乘数是无界的。
孤立看着审慎的重试逻辑,组合起来是灾难性的。一个 5 层深、每层也重试的智能体树里某一步上的 3× 重试不是 3×;最坏情况是 3⁵,而最坏情况是相关的——当一个依赖劣化,每个任务同时重试。经济性反转不在平均重试率,而在那次相关的爆发,那里一个工具抖动把一个赚钱的小时变成当月最大的成本项。重试策略是一个伪装成可靠性细节的单位经济学决策。
长尾吃掉中位数赚来的毛利。
任务成本服从幂律分布:中位数任务很便宜,p99 任务是它的 50–100 倍,在智能体处理得最差的输入上烧循环与扇出。由于长尾是流量的一小部分,它在均值仪表盘上不可见,却消耗了总花费的大头。
# the mean is healthy; the tail already ate the profit median_cost = 0.18 p99_cost = 14.0 # ~78x the median — same agent, hard input tail_share = 0.02 # 2% of tasks ... tail_spend_fraction = (0.02 * 14.0) / (0.98 * 0.18 + 0.02 * 14.0) # ≈ 0.61 — 2% of tasks are 61% of total cost
优化中位数,是在优化那 39% 从来就不是问题的花费。毛利的生死系于 p99——显式地给长尾设上限、改路由、或拒绝它,因为在账单出现之前,它不会出现在你盯着的任何平均里。
上报反转了它本应保护的经济性。
人工上报是那个安全阀,也安静地摧毁单位经济学。每个上报的任务付了全额智能体成本,然后再付一个人的满载成本,所以上报率从 5% 爬到 20% 不是给成本加 15%——它能让每个成功任务的成本翻倍,因为上报聚集在昂贵的难案上。一个只靠把难活上报才达到回报目标的智能体没有自动化工作流;它在人工费上加了一道 AI 附加费。
评估账单随自主性扩张,不随收入。
让一个自主智能体可信,要花试点没花的钱:对每个输出做 LLM 评判调用、每次模型升级跑回归套件、轨迹存储、以及对评估本身的人工评审。这笔成本随智能体的自主性与风险面增长,不随它赚的收入——所以你把它做得越安全越自主,评估那一项越挤压毛利。它是真实的销货成本,一个把它记成一次性研发的模型是在藏起反转,不是在避开它。
无声失败税是你只在下游才付的成本。
最贵的失败是那个在仪表盘上不花一分钱的:一个自信而错误、通过了智能体自己检查、发了出去、在下游引爆的答案——一笔错误退款、一次糟糕合并、一条错归档的记录。它的成本不在模型账单里;它是善后、信任损害,以及对智能体如今所触一切的人工重新核验。
- 它不被计量。没有 token 计数器看得见它;它在数周后以支持成本、拒付或流失浮现。
- 它也对成功征税。一次无声失败迫使重查那些正确的输出,抹掉了为智能体辩护的那份劳动节省。
- 它放大了回报的谎言。回报把那个输出算成了成功;真实账本为它付两遍。
什么时候诚实的做法是收窄范围或干脆不发。
当长尾框不住、上报遏制不了、或无声失败税超过节省的劳动,经济性不会随规模改善——它反转得更狠,因为这里每个失败模式都被流量放大。修法很少是更便宜的模型;而是一个智能体确实可靠的更窄范围,或者一个不发这个工作流的决定。一个只在简单输入上赚钱的智能体不是一个有调参问题的产品——它是一个假装成更大产品的更小产品。