语音智能体失败模式

实战手册 · 语音与实时智能体

语音智能体失败模式：它们如何崩坏，以及好的降级听起来是什么样。

文本智能体失败在一块用户能重读的屏幕上、一个他们能重点的按钮上。语音智能体实时地失败，对着一个无法回滚的人，常常在电话上，且往往是在他们这一天里已经出了岔子的时候。这些失败具体、反复、可辨识——而一个可用的语音产品与一个令人抓狂的之间的差别，几乎完全在于它失败时怎么表现，而非它工作时。

STEP 1

幻听：自信地回答错的问题。

任何级联的复合性失败。STT 听错，LLM 从未看见那份不确定，于是智能体自信地回答了一个来电者没问的问题——然后据此行动。来电者听到对错事流畅而笃定的回应，得出结论：智能体要么没在听，要么不聪明。

防御不是更好的模型；是结构性的谦逊。读回高风险槽位（speech-stack），变更前确认（voice-tooling-and-state），并在 STT 置信度低或答案系于某一个槽位时，发问而非假设。一个说"你是说四-四-七吗？"的智能体，胜过一个满怀自信寄到错地址的。

STEP 2

空气死寂：那段被读作掉线的沉默。

最常见也最致命的语音失败。后端在干活、模型在想、一个工具在途——而线上是静的。来电者的心智模型里没有"加载转圈"；沉默意味着掉线，于是他们说"喂？… 喂？"、重头来，或挂断。每一段超过约一秒的沉默间隙都是一次掉线风险。

FAILURE                CALLER'S READ
2s silent tool call    "call dropped" -> "hello?"
8s silent backend      "it's broken"  -> hang up
silent after barge-in  "did it hear me?" -> repeats louder
RULE: the channel is never silent > ~1s. ever.

解法是 voice-tooling-and-state 里那套口头遮掩纪律，作为一条硬不变量来施行：不存在任何一条代码路径能让音频通道沉默超过一秒而没有一句口头应答。

STEP 3

无限道歉循环。

一种特征性的语音病理：智能体误解、道歉，来电者重述（常常更大声更生气），智能体误解这个如今已失真的输入，再道歉。每一轮同时劣化音频（沮丧的语音对 STT 更难）与来电者的耐心。没有进展的礼貌是一种失败模式，不是缓解。

# detect the loop; escalate, do not apologize again
if consecutive_failed_turns >= 2:
    # stop apologizing. change strategy.
    offer_constrained_choice()     # "press 1 for billing"
if consecutive_failed_turns >= 3:
    handoff_to_human(reason="repeated_nlu_failure")

显式跟踪连续不前进的轮次。两次后，改策略（给一个受限选择、收窄问题、切到 DTMF 按键）。三次后，升级。那一刻智能体的活不是继续试——是把来电者送到真能帮上忙的某个人或某个东西那里。

STEP 4

延迟停滞与死亡螺旋。

一个慢轮次让来电者朝间隙里开口；那段语音在生成中途到达并触发一次打断；智能体停下，来电者的话与旧回复的尾巴叠在一起，STT 把这锅混音弄糊，智能体误解，恢复延迟变长——每一次失败让下一次更可能。延迟不只是烦人；它主动制造本组其余部分里的轮次与识别失败。

这正是为何延迟预算（latency-budget）是可靠性关切，而非打磨关切。在预算之下对话稳定；在它之上，失败复合成一个智能体无法靠说话脱身的螺旋。

STEP 5

升级与移交：你必须为之设计的那个失败模式。

每个语音智能体都会遇到它处理不了的通话——超范围、反复听错、一个生气或痛苦的来电者，或单纯一个需要人的任务。一个严肃语音产品的衡量标准不是这从不发生；而是当它发生时，移交是干净的。

识别触发。显式请求（"人工"／"客服代表"）、反复失败、检测到的痛苦或愤怒、或一个超范围意图——每一个都该路由到人，而非循环。
带上上下文。把摘要、已核实的槽位、以及尝试过什么交给人。逼来电者向一个人把一切重说一遍，本身就是一种令人抓狂的失败。
朝人失败，而非朝沉默失败。若智能体拿不准是否该升级，就升级。移交是一次优雅降级；卡死的循环是一次有着友好嗓音的故障。

把每一次生产失败当作一个回归测试，与文本智能体里完全一样：抓下通话音频、对着栈回放、断言智能体现在恢复或升级而非循环。一个你无法回放的语音失败，是一个你会再次发布的语音失败。

STEP 6

诚实的权衡。

你做不出一个永不失败的语音智能体；你只能选择它如何失败——一个早早且诚实地升级的产品，永远胜过一个把失败藏在自信嗓音与道歉循环背后的。