自主性等级

A3
概念 · 智能体 AI 详解

自主性等级:从建议到完全自主。

"智能体性(agentic)"不是一个是非属性——它是一个旋钮。同样的底层循环,可以在人类批准每个动作的情况下运行,可以在人类抽查的情况下运行,也可以在完全没有人监督的情况下运行。本篇给你一个五级阶梯,用来精确讨论一个系统拥有多少自主性,为什么合适的等级是一个针对每个任务的工程决策(而不是一个要最大化的成熟度分数),以及你授予的自主性如何改变关于风险和设计的一切。

STEP 1

这个阶梯。

精神上借鉴了人人都知道的驾驶自动化等级,并针对 LLM 智能体作了改编。各等级之间变化的变量恰好只有一件事:谁来决定、谁必须批准下一个动作。

L0  SUGGEST       Model proposes; human does everything.
                  "Here's a draft email." You read, edit, send.
                  No tools fire. This is a chatbot.

L1  ACT-WITH-     Model proposes a specific action; human must
    APPROVAL      approve before it executes.
                  "I want to run: DELETE FROM logs WHERE ... .
                   Approve? [y/N]"  Nothing happens on its own.

L2  ACT-AND-      Model acts autonomously on low-stakes steps;
    ESCALATE      pauses for approval on flagged high-stakes ones.
                  Reads files freely; asks before it emails a
                  customer or spends money.

L3  SUPERVISED    Model runs the whole loop unattended; a human
    AUTONOMY      reviews the result and can intervene/roll back.
                  "It refactored the module overnight; review
                   the PR in the morning."

L4  FULL          Model runs the loop and the outcome takes
    AUTONOMY      effect with no human in the path at all.
                  Production triage bot that closes tickets
                  itself, 24/7, no review queue.

人们总是需要的两点澄清。第一,等级是一个系统内某个具体任务的属性,而非整个产品的属性——一个编码智能体在写测试时可能是 L3,但在动部署管道时是 L1。第二,越高并非越好。L4 不是 L1 的"成熟"版本;它是一种不同的风险姿态,只有当任务确实需要时你才采用。

STEP 2

当你往上爬时,实际改变的是什么。

阶梯上的每一级,都在用人力换取两样你必须有意识地接受的东西:更大的爆炸半径更差的可恢复性

  • 吞吐量上升。支持自主性的全部经济论据就在这里:一个批准每一步的人类就是瓶颈。移除这个人类,智能体就能以机器速度跨越数千个任务运行。这是真实的,也是任何人愿意费这个事的原因。
  • 单个错误决策的代价上升。在 L1,一个错误动作在批准提示处被拦截——烦人,但无害。在 L4,同一个错误动作在任何人看到之前就已经对生产环境执行了。模型的错误率没变;变的是每个错误的后果
  • 错误悄无声息地累积。在低自主性下,人类通过及早注意到"那看起来不对"来打断错误级联。在高自主性下,一个错误观察喂出一个错误决策,喂出一个更糟的观察,循环放大它自己的错误,没有断路器。自主性不仅抬高了每个动作的赌注——它移除了那个能拦住级联的东西。
  • 你不再能实时解释发生了什么。一个受监督智能体的轨迹是事后审查的。到那时动作已经发生了。"我们可以审计日志"是真的,但与"我们可以阻止这个坏结果"不是一回事。

清晰的思考方式:自主性不是"智能体有多聪明"——而是"如果它这一次错了,你愿意损失多少,再乘以它运行得有多频繁"。一个出色的智能体在一个不可逆、高频的任务上以 L4 运行,是一个比平庸智能体在同一任务上以 L1 运行更糟的赌注。

STEP 3

选择等级:两个问题,按顺序。

不要凭雄心选择自主性等级。要通过回答关于任务的两个问题来选择,按以下顺序:

  • 问题一——可逆性。"如果智能体在这里做错了事,我能廉价地撤销它吗?"起草文本:完全可逆,你不发出去就行。开一个拉取请求:可逆,它只是个提议。汇款、给客户发邮件、删掉一张数据库表、合并到 main 并自动部署:不可廉价撤销。无论模型有多好,不可逆动作把你的自主性封顶在 L1–L2。这是首要因素。
  • 问题二——频率与监督能力。"这个运行得多频繁,人类现实中跟得上吗?"一个每天运行十次的任务能支撑 L1 的人类批准。一个每天运行一万次的任务不能——没有人类带宽,所以你被迫转向带采样和护栏的 L2/L3,因此你必须把任务限制在可逆动作上(回到问题一)。

实例:一个对进来的支持工单做分流的智能体。对工单分类和打标签是可逆且高频的 → L3/L4 没问题。发起退款不可廉价撤销 → 那个具体动作即便位于同一个智能体内部,也停留在 L1(人类批准每一笔退款)。教训再说一遍:按动作设置自主性,而非按智能体。

由此直接得出的一个可靠设计模式:先在 L1 构建智能体,观察几百条真实轨迹,然后只把那些被证明既安全又琐碎常规的具体动作提升等级。从观察到的行为中赢得的自主性是稳健的;从乐观中假定的自主性,正是那些警世故事的开端。

STEP 4

"人在环路"那个旋钮就是同一个旋钮。

你会听到"人在环路中(human in the loop)"、"人在环路上(human on the loop)"和"人在环路外(human out of the loop)"。这些不是一个单独的概念——它们只是这同一个阶梯上各位置的名称,只是从人类的座位而非智能体的座位来描述:

  • 人在环路 = L1:人类是循环内部一个必需的步骤;没有他们智能体无法推进。控制最大,吞吐最小。
  • 人在环路 = L2/L3:循环自行运行;人类监控并可以中断或推翻。控制是一个否决权,而非一道闸门。
  • 人在环路 = L4:人类根本不在执行路径里;监督(如果有的话)是统计性的、事后的。

这给你的一个最有用的习惯:每当有人描述一个"AI 智能体"时,问"按动作算自主性等级是多少,是什么让那些有风险的动作可逆?"如果他们无法干脆地回答,那么这个系统就不是被设计出来的——而是被期望出来的。自主性是那个把一个有用工具变成一个负债的变量,也是你这个设计者最直接控制的那一个。其余篇目——工具与环境、何时该用智能体、风险——在很大程度上就是一项关于如何负责任地设置这个旋钮的研究。