模型版图：家族与提供方

概念 · AI 模型与工具生态

模型版图：家族、提供方，以及如何看待它们。

本条目为你提供一份截至 2026 年初、厂商中立的大模型版图：谁在构建主要的模型家族，"家族"与"模型"的区别是什么，以及一套稳定的思维模型——让你无需背诵几周就过时的排行榜，也能给任何新发布的模型找准位置。

STEP 1

家族是一条谱系，而不是单一模型。

提供方发布的是模型家族：一条带名字的谱系，会被周期性地重新训练并重新发布，每一代内部通常还分若干规模或能力档位。当你读到 "Claude"、"GPT"、"Gemini"、"Llama" 或 "Mistral" 时，读到的是家族名，而不是某个具体产物。你真正通过 API 调用的，是该家族里一个带日期、带版本的快照——某一代、某一档（小/中/前沿），且常常带某个日期后缀。

这很重要，因为几乎所有关于"哪个模型最好"的持久论断，实际都是关于某个具体快照、在某个具体任务上、在某个具体日期的论断。家族是稳定的，快照不是。把思维模型建立在家族和档位上，把"某基准上当前最好的快照"当作部署时再核实的易变细节。

本节中提到的模型名称与排名均为示例并带时间戳。这一领域大约每隔几个月就会重新洗牌。请把任何具体的"X 胜过 Y"的说法视为会过期的，在投入使用前对照当前的官方文档与独立评测重新核实。

STEP 2

主要提供方，按发布方式分组。

截至 2026 年初，版图可归入几个可辨识的群组。这是一张地图，不是排名。

前沿闭源权重实验室

Anthropic（Claude 家族）、OpenAI（GPT 家族）与 Google DeepMind（Gemini 家族）各自发布主要通过托管 API 访问的专有前沿模型。它们在能力顶端竞争，在安全与对齐工作上投入巨大，并在每一代内部发布分档阵容（一个小/快档、一个均衡档、一个顶级推理档）。权重不公开；你以服务方式使用它们。

开放权重的领军者

Meta（Llama 家族）与 Mistral 让"权重可下载、可自行运行"的强力模型流行起来，许可证从宽松到"附条件可获取源码"不等。更广的生态——包括 Qwen、DeepSeek、Gemma 等谱系背后的实验室——发布了多个强力的开放权重模型，其中若干在许多任务上可与闭源前沿模型一较高下。"开放权重"如今是版图的一等组成部分，而非边缘。

平台与基础设施参与者

云厂商与独立推理公司不一定训练前沿模型，但让其中许多模型可被使用，有时还附带自家微调或托管保障。它们属于访问层（见"服务与访问"条目）而非模型层，但实践中你往往是把模型与托管方一起选定的。

STEP 3

真正区分模型的几个维度。

与其背名字，不如学维度。任何模型——今天的或下个季度的——都会落在以下每个维度的某处，本节其余条目本质上就是每个维度一篇。

开放 vs 闭源权重。你能下载并自行运行，还是只能以服务方式调用？决定控制力、成本结构、隐私与锁定。
模态。仅文本，还是也支持视觉、音频等输入/输出？决定它能否尝试你的问题。
规模/档位。前沿 vs 中档 vs 小型。决定主导生产经济性的成本/质量/延迟权衡。
推理 vs 直答。它会在回答前花额外的推理期算力"思考"吗？决定难的多步问题上的准确率，以及简单问题上的成本。
专用性。通用型 vs 为代码、嵌入、检索或某领域调优。

一个好习惯：新模型发布时，别问"它是不是最好"，问"它在这五个维度上落在哪里，这个组合是否契合我手上的活"。即便排行榜不断翻搅，这个问题始终可答。

STEP 4

为何版图变动如此之快——以及什么保持稳定。

易变层是前沿能力排名：哪个家族当前占据某基准之巅，以数月为周期变化，而基准领先也很少能干净地迁移到你的具体工作负载。稳定层是结构：分档家族的存在、开放/闭源之分、模态与推理两个维度，以及"谁训练模型"与"谁提供模型服务"之间的分离。

实践推论：把你的系统建在稳定结构之上。用一层薄接口把具体模型抽象起来，让换快照只是改配置；保留一个反映你的任务的评测集，每当考虑新发布时就重跑。能持续跟上的团队，不是把每次发布都背下来的，而是其架构让换模型变便宜、其评测能告诉它这次换是否真是改进的。

整节最可迁移的一项技能：为你自己的用例维护一个小而有代表性的评测集。它比任何单个模型都活得久，也是"新模型对我是否更好"唯一可靠的裁判。