成本、质量与延迟

E4
概念 · AI 模型与工具生态

模型规模与"成本/质量/延迟"三角。

本条目讲一个主导生产选型的核心权衡:你无法同时把质量最大化、把成本最小化、把延迟最小化。读完后,你会建立一套关于模型"规模"的工作模型,知道前沿档与小型档分别买到了什么,以及如何围绕这个三角做工程,而不是假装它不存在。

STEP 1

"规模"是个代理指标,且会漏水。

粗略说,更大的模型(更多参数、更多训练算力)往往更有能力、每 token 更慢、每 token 更贵。但参数量是不可靠的标题:架构、训练数据质量与训练算力同样重要,而且许多模型根本不公布参数量。提供方转而暴露档位——通常一个小/快档、一个均衡中档、一个前沿档——这些档位标签是比任何数字都更实用的把手。

持久的直觉:按档位思考,而非按参数。当前的中档模型往往以前沿模型一个零头的成本与延迟,就能匹敌上一代的前沿模型。正是这种代际漂移,使得"用最大的模型"很少是正确默认——去年的旗舰能力就是今年的便宜档。

STEP 2

这个三角。

QUALITY (准确率、推理深度) /\ / \ / \ / \ / \ / \ COST /____________\ LATENCY ($ / token) (出答案的时间) 在三角内部选一个点,而不是某个角。 推向 QUALITY → 更大/推理模型 → 更贵、更慢。 推向 低成本 → 更小模型 → 质量风险。 推向 低延迟 → 更小/不思考 → 质量风险。 目标是找到 在你的评测上 仍足够好 的 最便宜、最快的模型——而不是最好的模型。

经典错误是孤立地优化某一个角:选了质量最高的模型,却发现延迟对交互式产品不可用;或选了最便宜的,却上线了用户能察觉的质量退步。正确的框架是一个约束满足问题:在我的延迟预算与成本上限下,我能拿到的最高质量是多少?——在有代表性的评测集上度量,而非在公开基准上。

STEP 3

每个轴,具体说。

成本

按 token 计价,通常输入比输出便宜,且推理/"思考" token 也计费。成本随模型档位以及你携带多少上下文而扩张——一个每轮被灌入巨大提示的小模型,可能比被灌入精简提示的大模型还贵。成本优化往往既是模型选择问题,也是上下文工程问题。

延迟

两个数字要紧:首 token 时间(响应性)与总生成时间(吞吐)。更大的模型与推理模式会同时拉高两者。对交互式体验,首 token 时间加流式通常比原始总时间更重要;对批处理作业,总吞吐主导,延迟几乎无所谓。

质量

不是一个数字。小模型在常规抽取或分类上可与前沿模型持平,却在多步推理上崩溃。"足够好"是任务特定的,正因如此,公开排行榜无法替你和你的任务回答它,而你自己的评测集可以。

STEP 4

围绕三角做工程。

你不必接受单一的全局点。最强的生产模式是路由/级联:每个请求先送到便宜、快的模型;只在便宜模型不确定或检测到任务困难时才升级到更大或推理模型。多数真实流量是简单的,所以多数请求在便宜路径上解决,只有需要的少数才付前沿的成本与延迟。

  • 按步骤分档。在智能体内部,每步用能用的最便宜模型:小模型做分类或路由,推理模型只用于真正难的规划步,中档模型写最终答案。
  • 积极缓存。提示缓存压平稳定上下文的成本,往往会改变哪一档更经济。
  • 先适配规模,再升级。从通过你评测的最小档起步,仅在它可度量地失败处往上走——与"从前沿起步、之后再砍成本"相反。

成熟的默认既不是"最好的模型"也不是"最便宜的模型"——而是仍能通过你评测的最小模型,并为其失败的个案配一条便宜的升级路径。这句话就是生产模型经济学的大部分。