经济性在何处崩溃

运维 · 经济性与投资回报

智能体的单位经济学不会渐渐侵蚀——它在所有人都不再盯着的地方，骤然反转。

一个赚钱的智能体和一个亏钱的智能体，常常是同一个智能体面对不同输入。经济性很少沿一条平滑斜坡退化；它在特定的结构点上翻转——重试风暴、长尾、上报、评估账单、无声失败税——在那里每个成功的成本越过每个成功的收入并停在那一侧。本文编目反转发生在何处，好让监视落在失败面上，而不是那个舒服的平均上。

STEP 1

重试是一个乘数，而作用在不稳定工具上的乘数是无界的。

孤立看着审慎的重试逻辑，组合起来是灾难性的。一个 5 层深、每层也重试的智能体树里某一步上的 3× 重试不是 3×；最坏情况是 3⁵，而最坏情况是相关的——当一个依赖劣化，每个任务同时重试。经济性反转不在平均重试率，而在那次相关的爆发，那里一个工具抖动把一个赚钱的小时变成当月最大的成本项。重试策略是一个伪装成可靠性细节的单位经济学决策。

STEP 2

长尾吃掉中位数赚来的毛利。

任务成本服从幂律分布：中位数任务很便宜，p99 任务是它的 50–100 倍，在智能体处理得最差的输入上烧循环与扇出。由于长尾是流量的一小部分，它在均值仪表盘上不可见，却消耗了总花费的大头。

# the mean is healthy; the tail already ate the profit
median_cost = 0.18
p99_cost    = 14.0          # ~78x the median — same agent, hard input
tail_share  = 0.02          # 2% of tasks ...

tail_spend_fraction = (0.02 * 14.0) / (0.98 * 0.18 + 0.02 * 14.0)
# ≈ 0.61  — 2% of tasks are 61% of total cost

优化中位数，是在优化那 39% 从来就不是问题的花费。毛利的生死系于 p99——显式地给长尾设上限、改路由、或拒绝它，因为在账单出现之前，它不会出现在你盯着的任何平均里。

STEP 3

上报反转了它本应保护的经济性。

人工上报是那个安全阀，也安静地摧毁单位经济学。每个上报的任务付了全额智能体成本，然后再付一个人的满载成本，所以上报率从 5% 爬到 20% 不是给成本加 15%——它能让每个成功任务的成本翻倍，因为上报聚集在昂贵的难案上。一个只靠把难活上报才达到回报目标的智能体没有自动化工作流；它在人工费上加了一道 AI 附加费。

STEP 4

评估账单随自主性扩张，不随收入。

让一个自主智能体可信，要花试点没花的钱：对每个输出做 LLM 评判调用、每次模型升级跑回归套件、轨迹存储、以及对评估本身的人工评审。这笔成本随智能体的自主性与风险面增长，不随它赚的收入——所以你把它做得越安全越自主，评估那一项越挤压毛利。它是真实的销货成本，一个把它记成一次性研发的模型是在藏起反转，不是在避开它。

STEP 5

无声失败税是你只在下游才付的成本。

最贵的失败是那个在仪表盘上不花一分钱的：一个自信而错误、通过了智能体自己检查、发了出去、在下游引爆的答案——一笔错误退款、一次糟糕合并、一条错归档的记录。它的成本不在模型账单里；它是善后、信任损害，以及对智能体如今所触一切的人工重新核验。

它不被计量。没有 token 计数器看得见它；它在数周后以支持成本、拒付或流失浮现。
它也对成功征税。一次无声失败迫使重查那些正确的输出，抹掉了为智能体辩护的那份劳动节省。
它放大了回报的谎言。回报把那个输出算成了成功；真实账本为它付两遍。

STEP 6

什么时候诚实的做法是收窄范围或干脆不发。

当长尾框不住、上报遏制不了、或无声失败税超过节省的劳动，经济性不会随规模改善——它反转得更狠，因为这里每个失败模式都被流量放大。修法很少是更便宜的模型；而是一个智能体确实可靠的更窄范围，或者一个不发这个工作流的决定。一个只在简单输入上赚钱的智能体不是一个有调参问题的产品——它是一个假装成更大产品的更小产品。