实战手册 / 语音与实时智能体
语音与实时智能体
实时语音智能体——语音栈、轮替、打断、延迟预算、语音特有的工具与状态。
- 实时智能体架构级联(STT→LLM→TTS)vs 原生语音到语音、有状态的音频传输,以及一切所系的那个决策:智能体循环住在哪里。
- 延迟预算把亚秒轮次逐行记账:毫秒去了哪里、为何端点检测是最大一块,以及被感知 vs 实际的延迟。
- 轮次与打断VAD vs 端点检测、语义轮次结束检测、强制打断、作为前提的回声消除,以及附和 vs 真正的打断。
- STT、TTS 与语音到语音流式 STT、转写错误税、TTS 首段音频时间、原生音频模型,以及为何 8 kHz 电话改变每一个基准。
- 语音中的工具调用与状态不留空气死寂地调工具:前导语、异步/并行工具运行、变更前靠耳朵确认,以及贯穿可打断通话的槽位状态。
- 语音智能体失败模式幻听、空气死寂、无限道歉循环、延迟死亡螺旋,以及你必须为之设计的升级/移交。