透明度与可解释性

实战手册 · 智能体体验与人机交互

用户觉得有说服力的解释，与一个真实的解释，并不是一回事。

智能体体验中的透明度，常被简化为"把推理过程展示出来"。但模型输出的思维链是一段看似合理的叙事，而不是它为何如此行动的、经过验证的因果说明——近期研究（如 Barez 等人《思维链不等于可解释性》，牛津，2025；以及更广泛的"忠实度对可信度"文献）表明，二者可能严重脱节。本文区分你能信赖的解释与仅仅有说服力的解释，并说明如何为当下的决策选择恰当的解释海拔。

STEP 1

忠实与可信是两个不同的轴——而用户只能感知其中一个。

可信度指一段解释读起来对人是否合理。忠实度指它是否真的反映了产生该输出的那段计算。危险在于：即便真正的成因是一个模型从未提及的提示词线索，模型也能稳定地产出看似合理的理由（文献称之为事后合理化）。用户无从直接感知忠实度——一段流畅、结构良好的理由感觉上就是忠实的——于是一个有说服力却不忠实的解释，是一台过度信任制造机，正是 H1 那个失败换了套新装。

把一段原始思维链当作"智能体的推理"展示出来，等于对因果关系做了一个未经验证的断言。它往往在不提升真实可靠性的情况下提升用户信任——这是最糟的组合。

STEP 2

宁可选择你能核查的产物，也不要选择你只能相信的叙事。

稳健的做法是把透明度锚定在可验证的底座上，而非自述。按可独立核查的程度，给解释类型排序：

最强——有外部依据：源文档原文引用、确切的工具调用及其原始结果、即将应用的差异、实际执行的查询。这些是关于世界的事实，用户无需相信模型的内省即可查验。
居中——结构性的：计划、任务分解、选用了哪些工具又跳过了哪些。可核查其连贯性，但无法核查隐藏的成因。
最弱——内省式的：那段自由文本的"我为何这么做"。可用于形成假设，但绝不能作为正确性的证据。

界面应以最强一档打头。把叙事当作引用与轨迹之上的点缀，而非主菜。

STEP 3

在决策所要求的海拔上去解释。

不存在唯一正确的深度——只存在能支撑这位用户下一步决策的深度。过度解释本身就是一种失败：一堵推理之墙会训练用户不读就折叠面板，于是你失去这条通道，正如 H1 中过度展示置信度一样。

# Altitude follows consequence and the user's role
if stakes == "high" or user.is_reviewing:
    show(plan + sources + diff)        # inspectable substrate
elif user.asked_why:
    show(one_line_rationale, expandable=True)
else:
    show(outcome + provenance_badge)   # quiet by default

默认给出一行"做了什么、来自哪里"，让完整计划与来源仅一键之遥，并且绝不自动展开思维链。按需深入，胜过默认深入。

STEP 4

来源溯源是你能交付的杠杆率最高的透明度。

对多数智能体输出而言，最有助于决策的那一份透明度，往往不是为什么，而是来自哪里：哪个来源、哪个工具、哪段检索到的文字、什么时间戳。来源溯源可外部验证、难以令人信服地伪造、且可直接据以行动——用户能点进去核查。它还能优雅降级："我没能为此找到来源"本身就是诚实而高价值的透明度，会说这句话的智能体，比那个总能给出流畅答案的智能体，赢得更校准的信任。

STEP 5

让不确定性与"没走的那条路"可见。

只叙述既定路径的透明度，恰好藏起了审阅者最需要的信息：智能体对什么没把握，以及它差点改做什么。把它否决掉的相近备选、它不得不做出的假设、它所缺的输入呈现出来。这能把解释从一份辩护（会诱发合理化）转变为一份决策辅助（会邀请纠正）——并把审阅者稀缺的注意力引向那些承重的假设，而不是那段自信的中间过程。

STEP 6

什么时候不该展示推理轨迹。

如果你无法验证一段理由是否忠实，就不要把它当作智能体的推理来呈现——改为呈现可核查的来源溯源与计划，并让自述式叙事保持为一个显式、需主动开启的假设。