服务与访问：API、本地、网关

概念 · AI 模型与工具生态

服务与访问：API、本地推理与网关。

本条目把人们常混为一谈的两件事分开：你用哪个模型，以及它在哪里运行。读完后，你会有一张清晰的访问层地图——第一方 API、云托管模型目录、独立推理提供方、本地/自托管服务，以及网关——以及决定哪一种合适的权衡。

STEP 1

模型选择与服务选择是正交的。

一个常见错误是把"用 Llama"或"用 Claude"当作单一决策。实际上你选一个模型，并另外选一种运行它的方式。同一个开放权重模型可能在多家独立推理公司、在云目录、在你自己的硬件上都可用——同样的权重，延迟、价格、隐私与可靠性却大不相同。把这两个决策解耦，是本条目的核心技能。

STEP 2

访问选项。

第一方提供方 API

直接调用训练该模型的实验室。你最先拿到最新快照、其完整特性集（工具使用、缓存、推理控制）以及其可靠性工程。代价：只有它的模型、它的定价、它的可用性与路线图。这是闭源前沿模型的默认。

云托管模型目录

主流云平台提供托管目录，在统一的云内端点之后暴露许多模型（常含第三方与开放权重模型）。价值：数据留在你既有的云边界内、统一计费与 IAM、企业合规。代价：模型可用性落后于第一方源，且你继承云的区域与配额约束。

独立推理提供方

专门把开放权重模型服务得又快又便宜的公司，在延迟、吞吐与每 token 价格上竞争。价值：往往是到某个流行开放模型最便宜/最快的路径，无基础设施可运维。代价：你在把数据与正常运行时间托付给第三方，菜单也是它选择托管的那些。

本地/自托管服务

用推理引擎在你自己的硬件上运行开放权重模型，从开发用的笔记本级运行时，到生产中优化过的 GPU 服务栈。价值：最大的控制力与隐私、高利用率下的固定成本、无每 token 账单。代价：容量规划、扩展、批处理效率、安全补丁与正常运行时间都归你——是一项真实的工程职能，不是勾选项。

网关/路由器

位于上述一个或多个之前的代理层，呈现单一 API 并加入跨提供方关切：密钥管理、跨提供方的回退与负载均衡、花费上限与限速、缓存与统一日志。价值：从一处获得提供方独立性与运维控制。代价：热路径上又一个要运维与保护的组件，以及一点点额外延迟。

STEP 3

决定它的几个维度。

数据边界。推理数据在法律与合同上被允许去哪里？常是第一道过滤器，且无论成本如何都可能强制自托管或云内服务。
成本模型。按 token 的运营性支出（API、推理提供方）vs 固定容量（自托管）。交叉点完全取决于持续利用率。
延迟与吞吐。独立提供方在这里拼得很凶；第一方各异；自托管是你工程做成什么样就是什么样。
特性滞后。第一方最先拿到新模型快照与能力；中间方滞后一个周期或更多。
可靠性与集中风险。单一提供方是单点故障。带回退的网关用简单性换韧性。

STEP 4

一个务实的默认。

对多数起步团队：调用通过你评测的那个模型的第一方 API，置于一层你自己的薄内部抽象之后。那层抽象是便宜的保险——它让你日后能把模型挪到网关之后、加一个回退提供方，或把高量路径自托管，而无需重写应用。过早做多提供方路由是过度工程；对单一端点未加抽象的硬依赖是工程不足。两者之间那条薄缝是正确的起步姿态，只在出现具体的成本、隐私或可靠性需求时才加网关或自托管。

按能力与你的评测决定模型。按数据边界、你的量下的成本与可靠性需求决定服务路径。让这两个决策保持分离——且在代码中可缝合——正是让访问层不变成锁定的关键。