实战手册 / 语音与实时智能体

语音与实时智能体

实时语音智能体——语音栈、轮替、打断、延迟预算、语音特有的工具与状态。

  1. 实时智能体架构
    级联(STT→LLM→TTS)vs 原生语音到语音、有状态的音频传输,以及一切所系的那个决策:智能体循环住在哪里。
  2. 延迟预算
    把亚秒轮次逐行记账:毫秒去了哪里、为何端点检测是最大一块,以及被感知 vs 实际的延迟。
  3. 轮次与打断
    VAD vs 端点检测、语义轮次结束检测、强制打断、作为前提的回声消除,以及附和 vs 真正的打断。
  4. STT、TTS 与语音到语音
    流式 STT、转写错误税、TTS 首段音频时间、原生音频模型,以及为何 8 kHz 电话改变每一个基准。
  5. 语音中的工具调用与状态
    不留空气死寂地调工具:前导语、异步/并行工具运行、变更前靠耳朵确认,以及贯穿可打断通话的槽位状态。
  6. 语音智能体失败模式
    幻听、空气死寂、无限道歉循环、延迟死亡螺旋,以及你必须为之设计的升级/移交。