用户觉得有说服力的解释,与一个真实的解释,并不是一回事。
智能体体验中的透明度,常被简化为"把推理过程展示出来"。但模型输出的思维链是一段看似合理的叙事,而不是它为何如此行动的、经过验证的因果说明——近期研究(如 Barez 等人《思维链不等于可解释性》,牛津,2025;以及更广泛的"忠实度对可信度"文献)表明,二者可能严重脱节。本文区分你能信赖的解释与仅仅有说服力的解释,并说明如何为当下的决策选择恰当的解释海拔。
忠实与可信是两个不同的轴——而用户只能感知其中一个。
可信度指一段解释读起来对人是否合理。忠实度指它是否真的反映了产生该输出的那段计算。危险在于:即便真正的成因是一个模型从未提及的提示词线索,模型也能稳定地产出看似合理的理由(文献称之为事后合理化)。用户无从直接感知忠实度——一段流畅、结构良好的理由感觉上就是忠实的——于是一个有说服力却不忠实的解释,是一台过度信任制造机,正是 H1 那个失败换了套新装。
把一段原始思维链当作"智能体的推理"展示出来,等于对因果关系做了一个未经验证的断言。它往往在不提升真实可靠性的情况下提升用户信任——这是最糟的组合。
宁可选择你能核查的产物,也不要选择你只能相信的叙事。
稳健的做法是把透明度锚定在可验证的底座上,而非自述。按可独立核查的程度,给解释类型排序:
- 最强——有外部依据:源文档原文引用、确切的工具调用及其原始结果、即将应用的差异、实际执行的查询。这些是关于世界的事实,用户无需相信模型的内省即可查验。
- 居中——结构性的:计划、任务分解、选用了哪些工具又跳过了哪些。可核查其连贯性,但无法核查隐藏的成因。
- 最弱——内省式的:那段自由文本的"我为何这么做"。可用于形成假设,但绝不能作为正确性的证据。
界面应以最强一档打头。把叙事当作引用与轨迹之上的点缀,而非主菜。
在决策所要求的海拔上去解释。
不存在唯一正确的深度——只存在能支撑这位用户下一步决策的深度。过度解释本身就是一种失败:一堵推理之墙会训练用户不读就折叠面板,于是你失去这条通道,正如 H1 中过度展示置信度一样。
# Altitude follows consequence and the user's role if stakes == "high" or user.is_reviewing: show(plan + sources + diff) # inspectable substrate elif user.asked_why: show(one_line_rationale, expandable=True) else: show(outcome + provenance_badge) # quiet by default
默认给出一行"做了什么、来自哪里",让完整计划与来源仅一键之遥,并且绝不自动展开思维链。按需深入,胜过默认深入。
来源溯源是你能交付的杠杆率最高的透明度。
对多数智能体输出而言,最有助于决策的那一份透明度,往往不是为什么,而是来自哪里:哪个来源、哪个工具、哪段检索到的文字、什么时间戳。来源溯源可外部验证、难以令人信服地伪造、且可直接据以行动——用户能点进去核查。它还能优雅降级:"我没能为此找到来源"本身就是诚实而高价值的透明度,会说这句话的智能体,比那个总能给出流畅答案的智能体,赢得更校准的信任。
让不确定性与"没走的那条路"可见。
只叙述既定路径的透明度,恰好藏起了审阅者最需要的信息:智能体对什么没把握,以及它差点改做什么。把它否决掉的相近备选、它不得不做出的假设、它所缺的输入呈现出来。这能把解释从一份辩护(会诱发合理化)转变为一份决策辅助(会邀请纠正)——并把审阅者稀缺的注意力引向那些承重的假设,而不是那段自信的中间过程。
什么时候不该展示推理轨迹。
如果你无法验证一段理由是否忠实,就不要把它当作智能体的推理来呈现——改为呈现可核查的来源溯源与计划,并让自述式叙事保持为一个显式、需主动开启的假设。