E9
概念 · AI 模型与工具生态
为用例选模型:一份务实清单。
这是整个主题的综合条目。它把前面的观念——家族、开放 vs 闭源、模态、成本/质量/延迟三角、推理、服务与基准素养——变成一套可重复的决策流程,适用于任何用例,并在版图变动时可重新套用。
STEP 1
从任务出发,绝不从模型出发。
最常见的失败是先选模型("我们用最好的那个")再把用例硬塞给它。反过来。在点名任何模型之前先写下:什么进什么出(模态)、核心任务实际有多难、用户能容忍的延迟、预期量下的每请求成本上限,以及数据被允许去哪里。是这些约束、而非排行榜,在质量都还没登场前就淘汰了大半候选空间。
STEP 2
清单,按顺序。
┌──────────────────────────────────────────────────────────────┐
│ 模型选择清单(自上而下执行) │
│ │
│ 1. 模态 需要哪些输入/输出? │
│ → 淘汰物理上做不到的模型。 │
│ 2. 数据 推理数据可以去哪里? │
│ → 可能强制开放权重/边界内托管。 │
│ 3. 难度 核心任务需要真正的推理吗? │
│ → 决定推理 vs 直答、档位下限。 │
│ 4. 延迟 交互还是批处理?首 token 预算? │
│ → 给模型规模/思考预算封顶。 │
│ 5. 成本 预期量下每请求的 $ 上限? │
│ → 给档位封顶;影响自托管 vs API。 │
│ 6. 短名单 仅用基准 来挑出通过 1–5 的 2–4 个候选。 │
│ 7. 评测 在短名单上跑你的评测集; │
│ 质量 + 成本 + 延迟一起打分。 │
│ 8. 决定 通过的最小/最便宜模型, │
│ 并为失败个案配便宜的升级路径。 │
└──────────────────────────────────────────────────────────────┘
第 1–5 步是硬约束——它们移除选项。第 6 步是公开基准唯一该出现的地方:作为便宜过滤器,而非决策。第 7–8 步才是真正做决策的地方,依据来自你自己数据的证据。
STEP 3
默认选能工作的最小者,然后升级。
成熟姿态与"从前沿起步、之后再砍成本"相反。从可能合适的最小、最便宜、最快的档起步,证明它通过你的评测,仅在它可度量地失败处往上走。多数真实工作负载由简单请求主导;为罕见的难请求做规模,意味着在每个简单请求上多付钱。在存在难个案处,用路由/升级路径处理它们——便宜模型在先,仅在检测到困难时才用前沿或推理模型——而非升级整个工作负载。
- 智能体内按步骤分档。不同步骤难度不同;不要为整个循环选一个模型。便宜模型路由、推理模型只用于难步、中档模型做合成。
- 把模型抽象在一条缝之后。让换模型是改配置,而非重构。这正是让你能对下一个发布采取行动而无需重写的关键。
- 重跑,别重新"凭感觉"。当你怀疑新模型更好时,重跑评测。感觉不是证据;噪声带是真实的。
STEP 4
为一个不会静止的领域做设计。
本节每条具体推荐都会过期;流程不会。模型会更便宜、更有能力,开放/闭源差距会持续摆动,模态与推理控制会持续扩张,今天的前沿会是明年的便宜档。为这一现实设计良好的系统有三个特性:模型在一层薄接口之后可替换、一个有代表性的评测集是每次变更的裁判、团队在结构性转变而非个别发布的层面跟踪这一领域。
若你只从整个主题记住一句话:选通过你自己评测的最小模型,让它在一条缝之后可替换,并让你的评测集——而非排行榜或发布公告——决定每一次变更。这一纪律会比今天市面上的每个模型都活得久。