模型版图:家族与提供方

E1
概念 · AI 模型与工具生态

模型版图:家族、提供方,以及如何看待它们。

本条目为你提供一份截至 2026 年初、厂商中立的大模型版图:谁在构建主要的模型家族,"家族"与"模型"的区别是什么,以及一套稳定的思维模型——让你无需背诵几周就过时的排行榜,也能给任何新发布的模型找准位置。

STEP 1

家族是一条谱系,而不是单一模型。

提供方发布的是模型家族:一条带名字的谱系,会被周期性地重新训练并重新发布,每一代内部通常还分若干规模或能力档位。当你读到 "Claude"、"GPT"、"Gemini"、"Llama" 或 "Mistral" 时,读到的是家族名,而不是某个具体产物。你真正通过 API 调用的,是该家族里一个带日期、带版本的快照——某一代、某一档(小/中/前沿),且常常带某个日期后缀。

这很重要,因为几乎所有关于"哪个模型最好"的持久论断,实际都是关于某个具体快照、在某个具体任务上、在某个具体日期的论断。家族是稳定的,快照不是。把思维模型建立在家族和档位上,把"某基准上当前最好的快照"当作部署时再核实的易变细节。

本节中提到的模型名称与排名均为示例并带时间戳。这一领域大约每隔几个月就会重新洗牌。请把任何具体的"X 胜过 Y"的说法视为会过期的,在投入使用前对照当前的官方文档与独立评测重新核实。

STEP 2

主要提供方,按发布方式分组。

截至 2026 年初,版图可归入几个可辨识的群组。这是一张地图,不是排名。

前沿闭源权重实验室

Anthropic(Claude 家族)、OpenAI(GPT 家族)与 Google DeepMind(Gemini 家族)各自发布主要通过托管 API 访问的专有前沿模型。它们在能力顶端竞争,在安全与对齐工作上投入巨大,并在每一代内部发布分档阵容(一个小/快档、一个均衡档、一个顶级推理档)。权重不公开;你以服务方式使用它们。

开放权重的领军者

Meta(Llama 家族)与 Mistral 让"权重可下载、可自行运行"的强力模型流行起来,许可证从宽松到"附条件可获取源码"不等。更广的生态——包括 Qwen、DeepSeek、Gemma 等谱系背后的实验室——发布了多个强力的开放权重模型,其中若干在许多任务上可与闭源前沿模型一较高下。"开放权重"如今是版图的一等组成部分,而非边缘。

平台与基础设施参与者

云厂商与独立推理公司不一定训练前沿模型,但让其中许多模型可被使用,有时还附带自家微调或托管保障。它们属于访问层(见"服务与访问"条目)而非模型层,但实践中你往往是把模型与托管方一起选定的。

STEP 3

真正区分模型的几个维度。

与其背名字,不如学维度。任何模型——今天的或下个季度的——都会落在以下每个维度的某处,本节其余条目本质上就是每个维度一篇。

  • 开放 vs 闭源权重。你能下载并自行运行,还是只能以服务方式调用?决定控制力、成本结构、隐私与锁定。
  • 模态。仅文本,还是也支持视觉、音频等输入/输出?决定它能否尝试你的问题。
  • 规模/档位。前沿 vs 中档 vs 小型。决定主导生产经济性的成本/质量/延迟权衡。
  • 推理 vs 直答。它会在回答前花额外的推理期算力"思考"吗?决定难的多步问题上的准确率,以及简单问题上的成本。
  • 专用性。通用型 vs 为代码、嵌入、检索或某领域调优。

一个好习惯:新模型发布时,别问"它是不是最好",问"它在这五个维度上落在哪里,这个组合是否契合我手上的活"。即便排行榜不断翻搅,这个问题始终可答。

STEP 4

为何版图变动如此之快——以及什么保持稳定。

易变层是前沿能力排名:哪个家族当前占据某基准之巅,以数月为周期变化,而基准领先也很少能干净地迁移到你的具体工作负载。稳定层是结构:分档家族的存在、开放/闭源之分、模态与推理两个维度,以及"谁训练模型"与"谁提供模型服务"之间的分离。

实践推论:把你的系统建在稳定结构之上。用一层薄接口把具体模型抽象起来,让换快照只是改配置;保留一个反映你的任务的评测集,每当考虑新发布时就重跑。能持续跟上的团队,不是把每次发布都背下来的,而是其架构让换模型变便宜、其评测能告诉它这次换是否真是改进的。

整节最可迁移的一项技能:为你自己的用例维护一个小而有代表性的评测集。它比任何单个模型都活得久,也是"新模型对是否更好"唯一可靠的裁判。