渐进式自主 — 实战手册

实战手册 · 智能体体验与人机交互

自主权是按范围、凭已证明的可靠性挣来的，而不是靠一个设置开关授予的。

"智能体应该有多自主？"没有唯一答案，因为自主权不是单一旋钮。它是一个等级：当智能体在某个特定范围内证明了可靠性时应当上升，做不到时应当下降。本文把自主权阶梯——操作者、协作者、顾问、审批者、观察者（2025 年自主权层级文献所阐述的层级）——当作一个用户有意识攀爬的产品界面：晋升以战绩为门槛，降级则是一等的、可逆的动作。

STEP 1

自主权阶梯是一连串人类角色，而非智能体的权力档位。

用人类做什么来描述每一级，因为那才是用户真正体验到的东西：

操作者——人类驾驶；智能体只执行明确指令。
协作者——智能体就小步骤提出并执行；人类在旁并肩工作。
顾问——智能体给出建议；人类决策并执行。
审批者——智能体完成工作；人类在效果落地前批准。
观察者——智能体自主行动；人类事后监控与审计。

越高并非越好——对给定的范围与战绩而言，它要么恰当，要么不恰当。产品的职责是让当前所处的级别可读，并让下一级的前置条件显式。

STEP 2

自主权是按范围限定的，绝非全局的。

一个智能体可以同时在"为新工单打标签"上配得上观察者级自主，在"发放退款"上只配得上操作者级。单一的全局自主设置，逼用户为两个风险画像迥异的任务挑同一个数字——他要么过度约束了安全任务，要么过度信任了危险任务。把自主权绑定到一个 (能力, 范围) 对：动作类别、资源边界、金额上限、环境。自主权阶梯不是一架梯子；而是每个范围一架梯子。

# Autonomy is a function of (capability, scope), not a global flag
level = policy.autonomy_for(
    capability="refund",
    scope={"max_amount": 50, "region": "EU"},
)
if level >= APPROVER and request.amount <= 50:
    await act_then_review(request)
else:
    await recommend_only(request)

STEP 3

晋升以一份用户看得见的战绩为门槛。

不要让用户第一天就跳到高自主，也不要悄悄晋升。每一级的上调都要以该范围内已证明的可靠性为门槛：N 次执行、可接受的纠正率、零次被撤回的高后果动作。把这个提议做得显式且有证据支撑——"在审批者级别的 80 笔退款中，你调整了 2 笔、撤回了 0 笔。要把 ≤50 美元的欧盟退款移到观察者级吗？"——这样用户是在同意一次经过校准的变更，而不是凭信念扳一个开关。H1 中那份战绩，正是在这里买下一级台阶的货币。

在证据最新鲜的时刻提出晋升——就在该范围内一段干净连胜之后——而不是埋在一个用户只访问过一次、从此不再光顾的设置页里。

STEP 4

降级必须是自动的、可逆的，且语气上不带惩罚色彩。

一架没有下行台阶的自主权阶梯，不过是一次慢动作的不可逆授予。一起实质性事故、一次错误率回退、一次范围变更、或一次上下文迁移，都必须能让智能体自动下降一级——这是持续验证，而非一次性毕业。要把降级表述为正常的安全响应，而非失败裁决：它应当被预期、被记录、被解释，并能凭一份新战绩重新攀回。一个用户知道能被安全降级的智能体，正是一个他们能理性地去晋升的智能体。

STEP 5

让当前所处的级别及其边界绝无误读可能。

现场最大的单一自主权失败，是对"智能体当前被允许独自做什么"的含糊不清。用户必须随时能不费力地回答：在这个范围内，这个智能体处于什么级别，以及它会在哪条确切边界上停下来询问。把级别及其范围呈现在动作发生处，而不只在设置里——用户已失去追踪的自主权，会同时产生过度信任（以为它会问）和信任不足（以为它不会问）。

STEP 6

什么时候不该往上爬阶梯。

如果在更高一级上一次罕见失手的代价，超过了所有成功累计省下的时间，那就停在低一级——一个在期望值上净为负的自主权不是成熟度里程碑，而是一起被推迟的事故。