辩论、投票与集成

G4
深入解析 · 多智能体系统

辩论、投票与集成:收益究竟从何而来。

多智能体辩论(MAD)——智能体争辩、批评、再趋同——是被引用最多的多智能体模式之一,也是被误解最深的之一。2025–2026 年的文献现在已经讲清楚了:大部分可测量的收益来自集成(采样多个答案再投票),而非辩论回合本身;且当智能体缺乏多样性时,辩论会坍缩回最初的多数派。本文把有效的部分与大多无效的部分分开,并告诉你各自何时值得其倍增的成本。

STEP 1

集成是主力:独立采样加一次投票。

把同一问题独立跑 N 次再聚合——离散答案用多数投票,开放式答案用一个评判者/综合。这就是把自洽性(self-consistency)推广到多个智能体之上,它之所以稳健,是因为独立的错误往往不会重合,所以众数答案比任何单次采样更常正确。它还高度可并行、易于观测。2025–2026 年多份对 MAD 协议的基准研究发现,仅对独立输出做简单多数投票,就已经吃下了所报告收益的大部分。

# ensemble: independent samples, then vote
def ensemble(task, n):
    answers = [agent.run(task) for _ in range(n)]  # independent
    return majority(answers)                          # or judge-synthesis
STEP 2

辩论只有在集成之上才增加价值,而且只是有时。

辩论中,智能体跨回合看到彼此的答案与推理,并可以修订。2025–2026 年诚实的发现是:一旦你控制住集成基线,辩论回合几乎不带来系统性收益——除非配以显式的纠正结构:一个专职批评者、不对称角色,或一个能检测稳定性的停止规则。辩论真正取胜的场景,是一个智能体能验证另一个智能体某一步的任务(数学证明、代码、事实链),于是错误的一行会被抓住并纠正。在验证困难处(开放式判断),辩论大多只是把算力转化为自信的一致。

STEP 3

多样性是承重变量;没有它,辩论就坍缩。

每一份集成与辩论收益背后的机制都是错误独立性。如果你的智能体是同一模型、同一提示词、相近采样,它们的错误就是相关的——投票只是把一个意见重数一遍,辩论动态会变得静止并坍缩回最初的多数派。2026 年关于多智能体委员会的工作把这直接量化为表征坍缩:智能体的推理变得近乎一致(两两相似度高、有效秩低),于是增加智能体只增成本不增信息。多样性必须被设计出来:不同模型、不同提示词/人格、不同温度,或不同工具访问权——而非被假定存在。

同一模型同一提示词的 N 个副本不是集成——它是一个意见被采样了 N 次,按 N× 计价。投票会看起来很自信,却和单次调用错得一模一样,而你付了全额倍数。相关的智能体是辩论"没用"最常见的单一原因。

STEP 4

多样性有益,直到它坍缩或它永不收敛——两者都是失败模式。

存在一个可用的区间,而非单调的"越多越好"。多样性太少 → 坍缩为单一相关意见(无收益,全成本)。太多,又没有机制去解决分歧 → 智能体永不收敛,评判者看到的是噪声,你花了 N× 制造出一个打不破的平局。工程目标是校准过的多样性:因实质性原因而分歧的智能体,加上一条能真正裁决分歧、而非把它平均成浆糊的聚合规则(置信度加权投票、一个强评判者,或一条检测稳定性的停止规则)。

按校准过的置信度而非原始计数加权投票,并加入一条稳定性检测停止规则。2025–2026 年的结果显示,置信度与多样性感知的聚合优于扁平多数投票——而稳定性检查会在辩论不再改变任何人想法的那一回合就停下,通常是第一或第二回合,省下倍数的其余部分。

STEP 5

成本随智能体数线性增长,随辩论回合数超线性增长。

N 个的集成是单次调用的 N×。N 个智能体辩论 R 回合大致是 N×R,且每回合的上下文都在变大,因为智能体要重读抄本——所以 token 成本爬升得比单看 R 更快。只在一个正确答案值得单次调用若干倍、且你已设计出多样性使这若干倍换来真实错误削减之处,才花这笔钱。在简单或低风险任务上,集成的准确率增益淹没在噪声里,而账单不会。

STEP 6

何时不要辩论或集成。

当一次好的调用已经达标、当智能体相关(你会为一个意见付 N×)、当任务没有可供辩论利用的可验证结构、或当没有任何聚合规则能裁决你将制造的分歧时,两者都跳过。优先选更便宜、更可观测的集成而非辩论——除非任务支持步骤级验证且你有纠正结构。集成把多样性转化为准确率;没有设计出的多样性和一个裁决者,它就把钱转化为自信的错误——辩论尤甚。