辩论、投票与集成

深入解析 · 多智能体系统

辩论、投票与集成：收益究竟从何而来。

多智能体辩论（MAD）——智能体争辩、批评、再趋同——是被引用最多的多智能体模式之一，也是被误解最深的之一。2025–2026 年的文献现在已经讲清楚了：大部分可测量的收益来自集成（采样多个答案再投票），而非辩论回合本身；且当智能体缺乏多样性时，辩论会坍缩回最初的多数派。本文把有效的部分与大多无效的部分分开，并告诉你各自何时值得其倍增的成本。

STEP 1

集成是主力：独立采样加一次投票。

把同一问题独立跑 N 次再聚合——离散答案用多数投票，开放式答案用一个评判者/综合。这就是把自洽性（self-consistency）推广到多个智能体之上，它之所以稳健，是因为独立的错误往往不会重合，所以众数答案比任何单次采样更常正确。它还高度可并行、易于观测。2025–2026 年多份对 MAD 协议的基准研究发现，仅对独立输出做简单多数投票，就已经吃下了所报告收益的大部分。

# ensemble: independent samples, then vote
def ensemble(task, n):
    answers = [agent.run(task) for _ in range(n)]  # independent
    return majority(answers)                          # or judge-synthesis

STEP 2

辩论只有在集成之上才增加价值，而且只是有时。

辩论中，智能体跨回合看到彼此的答案与推理，并可以修订。2025–2026 年诚实的发现是：一旦你控制住集成基线，辩论回合几乎不带来系统性收益——除非配以显式的纠正结构：一个专职批评者、不对称角色，或一个能检测稳定性的停止规则。辩论真正取胜的场景，是一个智能体能验证另一个智能体某一步的任务（数学证明、代码、事实链），于是错误的一行会被抓住并纠正。在验证困难处（开放式判断），辩论大多只是把算力转化为自信的一致。

STEP 3

多样性是承重变量；没有它，辩论就坍缩。

每一份集成与辩论收益背后的机制都是错误独立性。如果你的智能体是同一模型、同一提示词、相近采样，它们的错误就是相关的——投票只是把一个意见重数一遍，辩论动态会变得静止并坍缩回最初的多数派。2026 年关于多智能体委员会的工作把这直接量化为表征坍缩：智能体的推理变得近乎一致（两两相似度高、有效秩低），于是增加智能体只增成本不增信息。多样性必须被设计出来：不同模型、不同提示词/人格、不同温度，或不同工具访问权——而非被假定存在。

同一模型同一提示词的 N 个副本不是集成——它是一个意见被采样了 N 次，按 N× 计价。投票会看起来很自信，却和单次调用错得一模一样，而你付了全额倍数。相关的智能体是辩论"没用"最常见的单一原因。

STEP 4

多样性有益，直到它坍缩或它永不收敛——两者都是失败模式。

存在一个可用的区间，而非单调的"越多越好"。多样性太少 → 坍缩为单一相关意见（无收益，全成本）。太多，又没有机制去解决分歧 → 智能体永不收敛，评判者看到的是噪声，你花了 N× 制造出一个打不破的平局。工程目标是校准过的多样性：因实质性原因而分歧的智能体，加上一条能真正裁决分歧、而非把它平均成浆糊的聚合规则（置信度加权投票、一个强评判者，或一条检测稳定性的停止规则）。

按校准过的置信度而非原始计数加权投票，并加入一条稳定性检测停止规则。2025–2026 年的结果显示，置信度与多样性感知的聚合优于扁平多数投票——而稳定性检查会在辩论不再改变任何人想法的那一回合就停下，通常是第一或第二回合，省下倍数的其余部分。

STEP 5

成本随智能体数线性增长，随辩论回合数超线性增长。

N 个的集成是单次调用的 N×。N 个智能体辩论 R 回合大致是 N×R，且每回合的上下文都在变大，因为智能体要重读抄本——所以 token 成本爬升得比单看 R 更快。只在一个正确答案值得单次调用若干倍、且你已设计出多样性使这若干倍换来真实错误削减之处，才花这笔钱。在简单或低风险任务上，集成的准确率增益淹没在噪声里，而账单不会。

STEP 6

何时不要辩论或集成。

当一次好的调用已经达标、当智能体相关（你会为一个意见付 N×）、当任务没有可供辩论利用的可验证结构、或当没有任何聚合规则能裁决你将制造的分歧时，两者都跳过。优先选更便宜、更可观测的集成而非辩论——除非任务支持步骤级验证且你有纠正结构。集成把多样性转化为准确率；没有设计出的多样性和一个裁决者，它就把钱转化为自信的错误——辩论尤甚。