研究与综合智能体

实战手册 · 领域实战手册

研究与综合智能体：失败模式是一个建立在不存在来源上的流畅答案。

一个会浏览、阅读并写出带引用报告的深度研究智能体，是 2025–2026 年最有用的智能体之一，也是最容易被过度信任的之一：无论来源是否真实、是否说了智能体所声称的话，它都会产出严谨的表面形态——分节、引用、自信的综合。本手册给出有主见的版本：不制造虚假共识的多源综合、作为硬约束的引用纪律、作为预算决策的深度与广度，以及为何一个捏造的来源是唯一能毁掉整份交付物的失败。

STEP 1

任务是一份站得住脚的综合，不是一篇自信的文章。

研究智能体的输出在结构上与一份优秀的无法区分：标题、叙述、脚注。读者看不出引用 [4] 是否支持它所附的句子、两个"独立"来源是否是同一篇新闻稿换了说法、或一个关键论断是否依赖一个智能体从未真正抓取的 URL。任务不是"写一份关于 X 的报告"——而是"产出一个多疑的读者能顺着引用核验的论断，并标出你无法确认的部分"。一个会说"来源有分歧，这是区间，这个数字我无法核实"的研究智能体在做这份工作；一个把每处张力都化解成顺滑自信叙述的，在隐藏要紧的工作。

STEP 2

引用纪律是硬约束，在检索之后强制执行。

不可商量的规则：每个非平凡论断都归因到一个智能体真正检索过的来源，且归因经过核验——而非生成。危险的失败是捏造的引用：一个不存在论文的看似合理的标题、作者、年份，或一个并不含所声称事实的真实 URL。把归因强制为一个事后步骤，对照抓取内容重新核对每条引用，对不通过的论断丢弃或标记。

# every claim must map to fetched content; verify, do not trust
for claim, cite in draft.claims:
    doc = fetched.get(cite.url)        # must have been actually retrieved
    if doc is None or not supports(doc, claim):
        claim.flag("unverified")   # do not silently keep it

让智能体给一份已写好的草稿"补引用"，它会逆向编造看似合理的来源来贴合行文——事后补上的引用是捏造参考文献最丰沃的单一来源。先检索、从检索到的内容写作、再核验；绝不先写后引。

STEP 3

多源综合必须保留分歧，而非把它平均掉。

研究智能体的价值在跨源综合；陷阱在于通过抹平真实分歧来制造虚假共识。三个来源说同一件事，因为它们都引自同一原始来源，那是一个来源，不是三个——佐证需要独立的来源出处。智能体必须区分一致与回声、把冲突估计呈现为区间而非中点、并把单个未确认来源当作线索而非事实。抹掉不确定性的综合不是综合，而是洗白。

STEP 4

深度与广度是一个预算决策，明确地做出。

一个无界研究智能体，要么浅读三个来源而错过答案，要么永远追引用而烧掉预算。深度与广度不是一个寄望它涌现的行为——而是智能体应明确做出、你应界定的规划决策：一个固定来源预算、一条停止规则（当新来源不再改变结论时停，而非智能体觉得做完了时）、以及一个把更多深度分给承重论断、更少分给背景的结构。正确的自主：在硬性来源/步数/成本预算下自主收集与起草，高风险时把综合提交人类判断。

一条好的停止规则基于信息增益：只要每个新来源仍能撼动一个关键论断或其置信度就继续收集；当来源只是重复你已有的就停。"读 N 个来源"是预算；"读到边际来源不再改变答案"才是研究。

STEP 5

评估信号：可核验的论断，而非读者满意度。

"报告读起来不错"正是让捏造蒙混过关的指标——流畅且错误正是那个失败。能驾驭研究智能体的评估，在一份有已知答案与已知优质来源的问题库上评分：

论断准确性——抽样论断对照真值核对；一个自信陈述的错误事实，权重远低于一个有保留的正确论断。
引用忠实度——抽样引用核验其存在且确实支持所附论断；单个捏造来源是报告级失败。
覆盖与校准——它是否找到要紧的来源，是否正确标出无法确认的部分而非糊弄过去。

STEP 6

研究与综合清单。

每个非平凡论断归因到真正检索过的来源；归因在事后步骤核验，而非生成。
检索 → 从检索到的内容写作 → 核验；绝不先写后补引用。
佐证需要独立出处；冲突估计呈现为区间，而非中点。
单个未确认来源是线索，不是事实；不确定性被保留，而非抹平。
深度与广度是带信息增益停止规则的有界预算。
在硬性来源/步数/成本预算内自主；高风险工作的综合提交人类判断。
评估对照真值给论断准确性与引用忠实度评分；一个捏造来源即令报告不通过。

诚实的取舍：一个会标出不确定、拒绝编造佐证的研究智能体，产出更短、更有保留、更不惊艳的报告——但惊艳版本的那层光泽，恰恰是一个会让整份交付物作废的捏造来源之上的伪装。