问责与归属

C4
运维 · 治理与合规

问责与归属——智能体永远不是被问责的那一方。

当一个自主智能体发出一笔错误退款、删掉错误的记录,或发出一封诽谤性邮件时,「是模型干的」不是任何人——客户、审计师、法庭——会接受的答案。问责无法被委派给软件;它总会落到一个人或一个组织头上。现实中的失败模式不是恶意,而是一种责任弥散:人人都碰过这个系统,却没人拥有它的决策。本文讲在事故之前就指派那份归属:操作者角色、对自主行动做 RACI,以及有分量的签字。

STEP 1

问责不会转移到智能体身上。

智能体是一件器具;器具不被问责,部署它们的人才被问责。这不是哲学旁白——它是其余一切据以推导的设计前提。说「是 AI 决定的」,用治理的话讲,等同于「我们部署了一个采取了这个行动的系统,而我们没指派任何人去拥有它」。智能体的自主性并不制造问责缺口;它把问责重新落到那个选择授予这份自主、限定其范围并把它上线的人身上。治理的工作是事先把那个人明确出来,因为一份未指派的问责会变成弥散的,而弥散的会变成没人的。

STEP 2

操作者角色:一个具名的人在生产中拥有这个智能体。

每个生产中的智能体都需要一个操作者——一个具体、具名的人或角色,为它运行期间做的事负责。不是团队,不是抽象的「AI 治理」:是一个能为这个智能体的行动作答、有权暂停或撤销它、并被期望去这么做的人。操作者拥有它的范围与权限、它的升级路径,以及事故后是否继续运行它的决定。一个没有具名操作者的智能体,是一个没人为之负责的智能体——而这一点,在它第一次造成损害时,会被发现意味着所有人,因而是没有人。

「操作者」是一个治理角色,不是一个职称——它可以是值班轮班。不可商量的是:对任何给定行动,「谁为这个负责」总有一个可确定的人类答案。

STEP 3

对自主行动做 RACI,而不只是对项目。

团队对项目做 RACI,却忘了对行动做 RACI。对智能体治理而言,需要负责/问责/咨询/知会(Responsible/Accountable/Consulted/Informed)的单元是自主决策本身。具体地,对每一类智能体行动:谁被问责(单一——操作者或其链条)、谁负责智能体的行为正常(构建团队)、在高后果类别行动前谁必须被咨询(法务、安全、一个领域负责人),以及它们行动时谁被知会(审计、受影响的业务负责人)。产出是一张把行动类别映射到单一被问责负责人的小表。

# RACI per agent action class — Accountable is always singular
action_class        A              R            C              I
"read_only"           operator       eng-team     —              —
"refund <= 1k"       operator       eng-team     —              audit
"refund > 1k"        finance-lead   eng-team     fin-controls   audit
"delete_customer"    dpo            eng-team     legal,sec      audit
STEP 4

签字是一个有名字和日期的决定,不是一个勾选框。

「它被批准了」如果批准只是任何人不读就能按的一个绿按钮,那一文不值。有分量的签字有三个属性:一个有权承担后果的具名批准者、一份被记录的依据(他们评审了什么——风险评估、评估结果、范围),且它被记进审计轨迹(C1),使决定及其拥有者熬过人员更替。这既适用于部署该智能体,也适用于(对高后果行动类别)特定的运行时审批。签字的要点不是仪式;它是把弥散的「团队决定的」转换成一个具体的人在某个日期、基于一份陈述的依据决定的。

STEP 5

把自主性映射到它所需的问责。

恰当的人类归属程度随后果与可逆性伸缩,而这个映射应当是明确的,不是每次事故现场临时拼凑。低后果、可逆的行动可在操作者常驻问责之下完全自主。随着后果上升,问责必须在更靠近行动处被行使:操作者复核异常,然后由具名批准者做明确的行动前签字,然后双人控制(C2 的职责分离)。智能体的能力可以恒定;围绕它的问责结构随赌注升高而收紧——而那道阶梯是事先决定并被记录的,使一次事故永远不会变成一场关于本该谁在盯着的争论。

STEP 6

诚实的取舍。

明确的问责有成本:它把具名的人架到火上,他们会合理地抵触,且它用评审与签字拖慢高后果路径。压力总是让它保持隐含、跑得更快。但隐含的问责不是更轻的治理——它是一场必然发生的事故后慌乱,其中责任弥散本身就是那项发现,而具名拥有者的缺失会被读作疏忽。在智能体自主之前,按行动类别命名操作者与被问责拥有者;一个没有具体某人拥有的行动,是一个你的组织默认拥有的行动,且条件最糟。