选模型：一份清单

概念 · AI 模型与工具生态

为用例选模型：一份务实清单。

这是整个主题的综合条目。它把前面的观念——家族、开放 vs 闭源、模态、成本/质量/延迟三角、推理、服务与基准素养——变成一套可重复的决策流程，适用于任何用例，并在版图变动时可重新套用。

STEP 1

从任务出发，绝不从模型出发。

最常见的失败是先选模型（"我们用最好的那个"）再把用例硬塞给它。反过来。在点名任何模型之前先写下：什么进什么出（模态）、核心任务实际有多难、用户能容忍的延迟、预期量下的每请求成本上限，以及数据被允许去哪里。是这些约束、而非排行榜，在质量都还没登场前就淘汰了大半候选空间。

STEP 2

清单，按顺序。

┌──────────────────────────────────────────────────────────────┐ │ 模型选择清单（自上而下执行） │ │ │ │ 1. 模态需要哪些输入/输出？ │ │ → 淘汰物理上做不到的模型。 │ │ 2. 数据推理数据可以去哪里？ │ │ → 可能强制开放权重/边界内托管。 │ │ 3. 难度核心任务需要真正的推理吗？ │ │ → 决定推理 vs 直答、档位下限。 │ │ 4. 延迟交互还是批处理？首 token 预算？ │ │ → 给模型规模/思考预算封顶。 │ │ 5. 成本预期量下每请求的 $ 上限？ │ │ → 给档位封顶；影响自托管 vs API。 │ │ 6. 短名单仅用基准来挑出通过 1–5 的 2–4 个候选。 │ │ 7. 评测在短名单上跑你的评测集； │ │ 质量 + 成本 + 延迟一起打分。 │ │ 8. 决定通过的最小/最便宜模型， │ │ 并为失败个案配便宜的升级路径。 │ └──────────────────────────────────────────────────────────────┘

第 1–5 步是硬约束——它们移除选项。第 6 步是公开基准唯一该出现的地方：作为便宜过滤器，而非决策。第 7–8 步才是真正做决策的地方，依据来自你自己数据的证据。

STEP 3

默认选能工作的最小者，然后升级。

成熟姿态与"从前沿起步、之后再砍成本"相反。从可能合适的最小、最便宜、最快的档起步，证明它通过你的评测，仅在它可度量地失败处往上走。多数真实工作负载由简单请求主导；为罕见的难请求做规模，意味着在每个简单请求上多付钱。在存在难个案处，用路由/升级路径处理它们——便宜模型在先，仅在检测到困难时才用前沿或推理模型——而非升级整个工作负载。

智能体内按步骤分档。不同步骤难度不同；不要为整个循环选一个模型。便宜模型路由、推理模型只用于难步、中档模型做合成。
把模型抽象在一条缝之后。让换模型是改配置，而非重构。这正是让你能对下一个发布采取行动而无需重写的关键。
重跑，别重新"凭感觉"。当你怀疑新模型更好时，重跑评测。感觉不是证据；噪声带是真实的。

STEP 4

为一个不会静止的领域做设计。

本节每条具体推荐都会过期；流程不会。模型会更便宜、更有能力，开放/闭源差距会持续摆动，模态与推理控制会持续扩张，今天的前沿会是明年的便宜档。为这一现实设计良好的系统有三个特性：模型在一层薄接口之后可替换、一个有代表性的评测集是每次变更的裁判、团队在结构性转变而非个别发布的层面跟踪这一领域。

若你只从整个主题记住一句话：选通过你自己评测的最小模型，让它在一条缝之后可替换，并让你的评测集——而非排行榜或发布公告——决定每一次变更。这一纪律会比今天市面上的每个模型都活得久。