何时(与何时不)采用多智能体

G1
深入解析 · 多智能体系统

何时(与何时不)采用多智能体:先把协调税算清楚。

"多智能体"是 agentic AI 中被滥用得最厉害的架构:2025 年的多份企业调研显示,宣称采用多智能体设计的项目大幅上升,但其中大多数任务,作为一个装备良好的单智能体来跑反而更快、更便宜、更可靠。本文给你一套决策流程——协调到底要付出什么代价、单智能体设计不会出现的那类失败模式,以及一个问题确实需要不止一个智能体的三个站得住脚的理由。

STEP 1

默认就是一个带工具的单智能体,你必须论证才能离开它。

处于工具使用循环中的单个智能体——规划、调用工具、观察、再循环——已经覆盖了人们求助于多智能体去做的大部分事情。它有一个上下文窗口(没有信息会在跨越智能体边界时丢失)、一条控制线程(不需要达成共识)、一个成本计量表(没有扇出倍增)。每多一个智能体,就是一个会丢失信息的新上下文边界、一条可能死锁的新消息通道、一股成倍增加开销的新 token 流。把多智能体当作一项需要论证的成本,而不是默认假定的起点。

STEP 2

协调税真实存在、可量化,而且通常被低估。

把工作拆分到多个智能体会引入单循环中并不存在的成本。把它们一一点名,你才能给它们定价:

  • Token 倍增。每个子智能体都带着自己的上下文和工具调用。Anthropic 报告其多智能体研究系统在可比任务上使用的 token 量约为单次对话的 15 倍量级。这个倍数是入场费,而非极端个例。
  • 有损边界。子智能体返回的是摘要,而非完整推理。父智能体基于摘要行动。每一跳都会把细微之处、注意事项和不确定性压缩掉——这是单一上下文从不承受的结构性信息损失。
  • 协调延迟。分解、派发、等待最慢的工作者、再聚合。关键路径是最慢的分支加上编排开销,而不是平均值。
  • 涌现的失败面。死锁、活锁、群体思维和错误传播是系统级失败,单智能体根本没有对应物(见 multi-agent-failure-modes)。

如果你在动手之前说不出预期的 token 倍数和每一跳的信息损失预算,那你设计的不是多智能体系统——你是在赌涌现式协调不要钱。它不会不要钱。

STEP 3

当工作是顺序的或上下文耦合的,一个带工具的智能体胜过一群。

多智能体的收益来自并行隔离。如果你的任务两者都没有,拆分只会增加税负。一条"研究 → 分析 → 写作"流水线,若每一阶段都需要上一阶段的完整输出,那它本质上就是顺序的:链上的三个智能体不过是一个智能体外加额外的串行化点和三次有损交接。诚实的检验标准是:如果每个子任务都需要看到其他每个子任务产出的大部分内容,那你就是一个任务穿了一支团队的戏服。

# sequential + context-coupled -> single agent wins
def solve(task):
    ctx = []
    for step in plan(task):
        ctx.append(agent.run(step, history=ctx))  # no lossy hop
    return ctx[-1]
STEP 4

拆分恰好只有三个站得住脚的理由。

  • 独立子问题上的真并行。检索十个来源、审计十二个文件、评估六个候选设计——这类工作分支之间没有读后写依赖,且墙钟延迟很重要。这是最强的理由:加速是真实的,边界是干净的。
  • 把上下文隔离当作一项功能。只拿到所需文件的子智能体,比一个握着全部信息的智能体更难被干扰、更难被提示注入。隔离可以提升可靠性、缩小单智能体上下文——这是正确性论据,不只是速度论据。
  • 硬性的能力或信任边界。不同模型、不同工具权限、或不同爆炸半径——例如把一个不可信的代码执行智能体沙箱隔离,远离持有生产凭据的智能体。这里的拆分是一项安全控制,而非优化。

"角色不同"和"感觉更有条理"不在这份清单上。角色标签是一种提示工程技巧,在单个智能体内部用得很好。把一个提示词重组成五个共享同一上下文的人格,你什么也没换来,却付了全额协调税。

STEP 5

用清单决策,而不是用审美决策。

在拆分之前,下列各项都应成立:(1) 子任务足够独立,分支之间很少需要彼此的中间状态;(2) 并行或隔离的价值超过你已定价的协调税;(3) 你能写出一个确定性的聚合步骤,且该步骤自身不需要重新推导工作者做过的事;(4) 你拥有跨智能体的可观测性(逐智能体追踪、传播深度、联合成本),因为跨越边界你看不见的东西就调试不了。任何一条不满足,单智能体设计就不只是更简单——而是更正确。

STEP 6

何时不要采用多智能体。

当任务是顺序的、当子任务紧密上下文耦合、当延迟无所谓(并行的唯一回报被浪费)、或当你缺乏跨智能体可观测性来调试结果时,不要拆分。2025–2026 年最强的多智能体设计都是的:在真正可并行、可隔离的工作上用少数几个智能体——而不是一张人格组织架构图。只有当并行或隔离带来的收益大于 token 倍增、有损交接以及一整类全新系统失败所付出的代价时,才增加一个智能体。