研究与综合智能体:失败模式是一个建立在不存在来源上的流畅答案。
一个会浏览、阅读并写出带引用报告的深度研究智能体,是 2025–2026 年最有用的智能体之一,也是最容易被过度信任的之一:无论来源是否真实、是否说了智能体所声称的话,它都会产出严谨的表面形态——分节、引用、自信的综合。本手册给出有主见的版本:不制造虚假共识的多源综合、作为硬约束的引用纪律、作为预算决策的深度与广度,以及为何一个捏造的来源是唯一能毁掉整份交付物的失败。
任务是一份站得住脚的综合,不是一篇自信的文章。
研究智能体的输出在结构上与一份优秀的无法区分:标题、叙述、脚注。读者看不出引用 [4] 是否支持它所附的句子、两个"独立"来源是否是同一篇新闻稿换了说法、或一个关键论断是否依赖一个智能体从未真正抓取的 URL。任务不是"写一份关于 X 的报告"——而是"产出一个多疑的读者能顺着引用核验的论断,并标出你无法确认的部分"。一个会说"来源有分歧,这是区间,这个数字我无法核实"的研究智能体在做这份工作;一个把每处张力都化解成顺滑自信叙述的,在隐藏要紧的工作。
引用纪律是硬约束,在检索之后强制执行。
不可商量的规则:每个非平凡论断都归因到一个智能体真正检索过的来源,且归因经过核验——而非生成。危险的失败是捏造的引用:一个不存在论文的看似合理的标题、作者、年份,或一个并不含所声称事实的真实 URL。把归因强制为一个事后步骤,对照抓取内容重新核对每条引用,对不通过的论断丢弃或标记。
# every claim must map to fetched content; verify, do not trust for claim, cite in draft.claims: doc = fetched.get(cite.url) # must have been actually retrieved if doc is None or not supports(doc, claim): claim.flag("unverified") # do not silently keep it
让智能体给一份已写好的草稿"补引用",它会逆向编造看似合理的来源来贴合行文——事后补上的引用是捏造参考文献最丰沃的单一来源。先检索、从检索到的内容写作、再核验;绝不先写后引。
多源综合必须保留分歧,而非把它平均掉。
研究智能体的价值在跨源综合;陷阱在于通过抹平真实分歧来制造虚假共识。三个来源说同一件事,因为它们都引自同一原始来源,那是一个来源,不是三个——佐证需要独立的来源出处。智能体必须区分一致与回声、把冲突估计呈现为区间而非中点、并把单个未确认来源当作线索而非事实。抹掉不确定性的综合不是综合,而是洗白。
深度与广度是一个预算决策,明确地做出。
一个无界研究智能体,要么浅读三个来源而错过答案,要么永远追引用而烧掉预算。深度与广度不是一个寄望它涌现的行为——而是智能体应明确做出、你应界定的规划决策:一个固定来源预算、一条停止规则(当新来源不再改变结论时停,而非智能体觉得做完了时)、以及一个把更多深度分给承重论断、更少分给背景的结构。正确的自主:在硬性来源/步数/成本预算下自主收集与起草,高风险时把综合提交人类判断。
一条好的停止规则基于信息增益:只要每个新来源仍能撼动一个关键论断或其置信度就继续收集;当来源只是重复你已有的就停。"读 N 个来源"是预算;"读到边际来源不再改变答案"才是研究。
评估信号:可核验的论断,而非读者满意度。
"报告读起来不错"正是让捏造蒙混过关的指标——流畅且错误正是那个失败。能驾驭研究智能体的评估,在一份有已知答案与已知优质来源的问题库上评分:
- 论断准确性——抽样论断对照真值核对;一个自信陈述的错误事实,权重远低于一个有保留的正确论断。
- 引用忠实度——抽样引用核验其存在且确实支持所附论断;单个捏造来源是报告级失败。
- 覆盖与校准——它是否找到要紧的来源,是否正确标出无法确认的部分而非糊弄过去。
研究与综合清单。
- 每个非平凡论断归因到真正检索过的来源;归因在事后步骤核验,而非生成。
- 检索 → 从检索到的内容写作 → 核验;绝不先写后补引用。
- 佐证需要独立出处;冲突估计呈现为区间,而非中点。
- 单个未确认来源是线索,不是事实;不确定性被保留,而非抹平。
- 深度与广度是带信息增益停止规则的有界预算。
- 在硬性来源/步数/成本预算内自主;高风险工作的综合提交人类判断。
- 评估对照真值给论断准确性与引用忠实度评分;一个捏造来源即令报告不通过。
诚实的取舍:一个会标出不确定、拒绝编造佐证的研究智能体,产出更短、更有保留、更不惊艳的报告——但惊艳版本的那层光泽,恰恰是一个会让整份交付物作废的捏造来源之上的伪装。