STT、TTS 与语音到语音

实战手册 · 语音与实时智能体

STT、TTS 与语音到语音：耳朵与嘴巴之间的那一栈。

在级联里，两个模型把你的智能体夹在中间：进来路上是语音转文本，出去路上是文本转语音。每个都是一个有损换能器，各有其延迟、准确率与表现力的取舍——而它们犯的错不会停在原地，会传播进智能体的推理。原生语音到语音去掉了这对括号，却换来另一组约束。本文讲的是在每一层上选得好，并睁着眼睛缴转写错误税。

STEP 1

STT：流式 vs 批量，以及为何流式对智能体取胜。

批量 STT 以最大准确率转写一段已结束的音频。流式 STT 在来电者说话时发出部分假设，并随更多音频到达而修订它们。对智能体，流式不是可选项：它正是让端点检测、推测与热启动得以工作的东西。你接受略低的最终准确率，换取你别无他法满足的延迟预算。

部分结果不稳定。"我想" → "我想取消" → "我想取消我的… 升级"。绝不要在部分结果上做不可逆动作；把副作用门控在最终化的转写文本上。
领域准确率 > 基准 WER。干净朗读语音上的词错误率，对你客户在 8 kHz 电话线上的账号、产品名与口音几乎什么也说明不了。

STEP 2

转写错误税。

这是任何级联的标志性负债。STT 不会返回"我不确定"；它把最佳猜测作为自信的文本返回，而 LLM 随后把那段文本当作基准事实来推理。一个听错的数字、一个错的药名、一个被丢掉的否定——智能体现在自信地对来电者从未说过的东西采取行动。

# the tax: confident text from uncertain audio
caller said:   "don't ship it to the old address"
STT produced:  "do ship it to the old address"
LLM reasons:   confidently. wrong order. no flag raised.

LLM 无法恢复 STT 已经销毁的信息——它只能貌似合理地猜，而在名字与数字上这意味着自信地猜错。别"让模型自己理清"。对高风险槽位——金额、ID、是／否、地址——把值读回去并取得明确确认。这确认不是礼貌；它是一条有损信道的纠错码。

STEP 3

TTS：延迟、韵律，以及流式要求。

TTS 质量已不再是瓶颈——自然度大体被 2025 年代模型解决了。与智能体相关的轴线不同：

首段音频时间。对响应延迟唯一要紧的 TTS 延迟数字。一个质量极好但首样本要 800 ms 的模型在对话里不可用。
流式合成。TTS 必须增量接收文本、增量发出音频，这样你在 LLM 的第一个子句上就开口，而非它最后一个 token。
韵律与控制。节奏、强调，以及能在话语中途被干净打断的能力，比再多一档保真度更要紧。
发音控制。订单 ID、币种与专有名词需要显式处理——"$1,204.50"与"ACC-0042"必须每次都说对，这通常意味着在合成前规范化文本。

STEP 4

原生语音到语音：你得到什么、放弃什么。

一个原生音频模型（OpenAI 的 gpt-realtime、Gemini Live）直接听到韵律与情绪并富有表现力地说话，关键路径上没有转写税，且少两个串行延迟跳。代价是真实且不同的：

cascade           native speech-to-speech
+ inspectable     - audio reasoning is opaque
+ swap any stage  - vendor-coupled, fewer voices
+ text guardrails - guardrail the audio, async, harder
- transcript tax  + hears tone, no STT tax
- 2 extra hops    + lowest latency

OpenAI 报告 gpt-realtime 在 MultiChallenge 音频指令遵循基准上为 30.5%，高于其 2024 年 12 月前代的 20.6%——真实进步，同时也提醒：音频原生的指令遵循仍落后于文本。成本敏感的路径可降到 gpt-realtime-mini；你用余量换价格。

STEP 5

电话现实：8 kHz 改变一切。

一通电话是窄带——8 kHz μ-law，为 1970 年代人类语音设计，而非为 STT。在 16 kHz 录音棚音频上得分漂亮的模型，在一通有背景噪声、编解码伪影、且来电者在车里用蓝牙耳机的真实 PSTN 通话上会退化。永远在与你将实际发布的通道相符的音频上评估你的语音栈，而非在干净样本上。

STEP 6

诚实的权衡。

级联以一笔永久的转写错误税为代价，给你可检视性与逐级可替换性；原生以不透明的音频推理与更难的护栏为代价，给你表现力与最低延迟——没有不缴税的栈，只有一种你已选择缴的税。