什么是大语言模型?

F3
概念 · AI 基础

什么是大语言模型?

你用过聊天机器人,所以你知道 LLM 能做什么。本篇要讲的是它什么——那个出人意料地简单的核心思想(预测文本的下一段),为什么把这个思想做得非常大就产生了无人显式编写的能力,以及这能告诉你何时该信任它。把这一点弄明白,现代 AI 的其余部分便不再神秘。

STEP 1

一句话定义。

大语言模型(LLM)是一个非常大的神经网络,被训练去做一件事:给定一段文本,预测接下来是什么。这就是全部的训练目标。给它看"法国的首都是",它就学会给" 巴黎"赋予很高的概率。在公共互联网、书籍和代码的相当大一部分上反复这样做,网络就被迫吸收关于语言、事实和推理模式的海量结构——因为想把下一个词预测好,就必须掌握这一切。

"大"不是营销辞令。它指两个具体的量:可调权重的数量(参数,常达数十亿)和它训练所用的文本量(常达数万亿个词)。过去十年最重要的发现是:把两者一起做大,会持续让模型变好,而且并不像研究者预期的那样早早进入瓶颈。

STEP 2

生成就是循环中的预测。

"预测下一个词"听起来太弱,不足以产出文章和可运行的代码。诀窍在于这个循环。模型并不规划一整个答案;它预测一小段(一个令牌——大致是一个词片),把它接到文本后面,再在如今稍长一点的文本上重新运行。重复几百次,一整段回复便逐个令牌地涌现出来。

prompt:  "Write a haiku about the sea."
step 1 → "Vast"
step 2 → "Vast blue"
step 3 → "Vast blue horizon"
   ... each step: feed everything so far back in, predict the next token ...
final  → a complete haiku

这就是为什么 LLM 能在长篇段落中保持连贯:每一个新令牌都是在已写下的一切(包括它自己之前的输出)的参照下被选出来的。这也是为什么模型没有固定计划、可以在生成途中被引导——它没有内部提纲,只有一个以不断增长的文本为条件的、滚动进行的预测。

还有一个微妙之处:模型并不输出单个词。它为每一个可能的下一个令牌输出一个概率,再由一个独立的采样步骤选出一个。这就是为什么相同提示词会给出不同答案——这一点在"温度与采样"篇中讨论。

STEP 3

能力从何而来:规模与涌现。

真正令人意外的部分在这里。没有人为"翻译法语""总结这份合同""调试 Python"编写过代码。训练目标自始至终只是预测下一个令牌。然而在足够大的规模下,模型却变得能做这些事——这一现象常被称为涌现行为:在小模型中微弱或不存在的能力,随着规模增大而出现,有时还相当突然。

为什么会这样的直觉是:要在整个互联网上预测下一个令牌,一个仅靠死记硬背的模型不可能取胜——文本的空间实在太大了。目标的压力迫使它内化可复用的结构:语法、事实关联、算术模式、论证的形状、代码的惯例。那些被内化的结构,正是我们后来当作"能力"来使用的东西。翻译能力的出现,是因为训练数据中含有平行文本;推理模式的出现,是因为数据中含有大量推理。模型学会它们,不是因为被告知要这样做,而是因为它们有助于预测下一个令牌。

一个相关的飞跃是上下文学习:你可以在提示词里给模型看几个任务示例,它就会照着模式来做,无需重新训练。这一点同样从未被显式编程;它从规模中涌现而来。

"涌现"不意味着魔法或意识。它的意思是"未被直接指定,但由大规模优化一个简单目标所产生"。它更接近于复杂天气如何从简单物理定律中产生,而非任何神秘之物。

STEP 4

这个定义告诉你关于信任的什么。

牢牢握住这个定义——"一个被优化来产出文本合理续写的系统"——模型的优势与失败便会变得可预测,而非令人意外。

  • 流畅有保证;真实没有。目标奖励的是看起来像好续写的文本。通常最合理的续写也恰好是正确的,这就是它常常正确的原因。但当模型缺乏相关知识时,听起来最合理的续写依然会被产出——同样自信,同样语气。这是"幻觉"的根源,在其专篇中讨论。
  • 它的知识冻结在训练时刻。它从一份文本快照中学习。截止时间之后的事件,除非在提示词中提供,否则就是缺席的。
  • 它靠模式推理,而非靠证明。对于形状类似其训练数据的问题,它很强;对于真正新颖的多步逻辑则较弱,因为它是在匹配学到的模式,而非执行一套已验证的步骤。
  • 它可通过上下文被引导。因为每个令牌都以前文为条件,提示词是一个强大的控制面——这是提示工程,以及给模型工具和文档来据之工作的基础。

所以 LLM 既不是数据库,也不是推理引擎。它是一个非常大、非常能干的下一令牌预测器,其流畅是可靠的,而其事实准确性必须通过接地、验证和良好的提示词设计去赢得。本维基后文中每一项实用技术——检索、工具、智能体——其存在恰恰是为了弥补这个定义所预言的那道缺口。