把实战手册适配到你的领域

Y6
实战手册 · 领域实战手册

把实战手册适配到你的领域:方法,而非菜单。

前面五份实战手册是同一个方法的实例。重点从来不是背下支持或分析的配方——而是把推导内化,让你能为还没人写过的领域产出实战手册:法律评审、临床接诊、代码迁移、理赔处理。本文把元方法提炼为一个可重复的序列——任务、自主、工具、评估、护栏——以及那些诚实回答后就把任意垂直领域的实战手册交到你手上的问题。

STEP 1

每份实战手册都是同样五个问题,同样的顺序。

回看支持、分析、SRE、研究与 GTM,表面各异但骨架完全一致:精确定义任务、按可逆性设定自主、经工具接地、选一个镜像业务代价的评估信号、用护栏界定头号失败模式。每个领域只是用不同的具体内容填空。一份新实战手册不是发明出来的;它是通过为你的垂直领域诚实回答这五个问题推导出来的——方法与领域无关,只有答案是本地的。

STEP 2

用必须为真的条件定义任务,而非它做什么。

反复出现的第一个错误,是把任务框定为活动("答工单""发邮件""修故障"),而非成功与失败条件。锋利的版本永远是两个谓词:一个好结果长什么样,以及代价压倒一切的那个错误结果是什么。支持:解决 vs 自信的错误政策。分析:站得住脚的数字 vs 自信的错误数字。SRE:真正修复 vs 有害的"修复"。当你能用一句话陈述那个压倒性失败时,任务定义就完成了——因为那句话设计了下游的一切。

用一个问题找到压倒性失败:"哪一个输出,如果错了还发了出去,会让这个项目被取消?"那个答案是你的硬约束,不是一个可与头条数字权衡的指标。

STEP 3

按可逆性设定自主,分解为多个区域。

自主从不是整个智能体的单一旋钮——每份实战手册都把作用面切成一个自主运行的高价值低风险区(信息性答案、诊断、研究、起草),和一个设关的有后果不可逆区(交易、修复、发送)。反复出现的规则:

# the autonomy law every playbook obeys
autonomy = f(reversibility, blast_radius, human_scrutiny)
if irreversible(action) or blast_radius(action) > tolerable:
    require_human_gate(action)        # draft, do not do
else:
    autonomous(action)                # the value lives here

先分解,再按区域分配自主。一个被赋予单一全局自主级别的智能体,要么太胆怯而无用,要么太自由而不安全——没有一个同时满足两者的设置。

STEP 4

工具是接地与爆炸半径的限制,不只是能力。

在每份实战手册里,工具都身兼两职:它们把模型接地到它不可猜测的真相(账户状态、schema、抓取的来源、同意状态),它们也是限制所在之处(退款上限、只读角色、抑制过滤、限定范围的运维手册)。推导问题分两部分:智能体绝不可编造什么——那就成为一个检索或状态工具;以及最糟的单次调用是什么——那就成为一个类型化签名,限制在边界而非提示里强制执行。表达为提示指令的护栏是一个愿望;同一护栏作为一个拒绝越界输入的工具是一个保证。这是最可迁移的单一教训。

STEP 5

评估必须镜像业务代价函数,尤其是那个不对称。

每份实战手册的评估都拒绝了头条指标(分流、打开率、"读起来不错"),因为它掩盖了压倒性失败,并把那个失败赋予匹配其现实不对称的权重。可迁移的构造:

  • 在真实、有代表性的输入上评分——重放的对话记录、已标注问题库、过往事故、发送前草稿——而非合成的顺利路径。
  • 把压倒性失败作为一个硬性、重权的维度评分——一个自信的错误答案在评估里必须比一次干净弃答昂贵得多,因为在业务里就是如此。
  • 奖励校准的弃答——"我答不了 / 我不确定 / 升级"是一个正确输出,不是失误,只要替代选项是一个自信的错误。
  • 拒绝那些靠同时降低你承担不起的覆盖率来压低失败率的权衡——反过来绝不可。
STEP 6

元清单:推导你领域的实战手册。

  • 任务:陈述好结果,并用一句话说出代价会令项目取消的压倒性失败。
  • 自主:分解为区域;可逆且低爆炸处自主,不可逆或高触达处设关。
  • 工具:它绝不可编造什么 → 接地工具;最糟的调用是什么 → 限制在边界而非提示里的类型化工具。
  • 评估:真实有代表性的输入;压倒性失败作为硬性重权维度;奖励校准弃答。
  • 护栏:部署前结构性地界定头号失败;配恢复路径也遵守的 fail-closed 熔断。
  • 把假设记入变更日志:写下哪些答案是猜测,以便它们被检验时重访这份实战手册。

诚实的取舍:这个方法把不光鲜的工作前置——命名失败、分解自主、构建会拒绝的工具——放在惊艳的演示之前,而这个排序就是全部要点:每个跳过它的垂直领域都发布了一个变成事故的演示,方法不过是有意地、提早地付那笔代价、而非意外地、太晚地付的那份纪律。