STT、TTS 与语音到语音

V4
实战手册 · 语音与实时智能体

STT、TTS 与语音到语音:耳朵与嘴巴之间的那一栈。

在级联里,两个模型把你的智能体夹在中间:进来路上是语音转文本,出去路上是文本转语音。每个都是一个有损换能器,各有其延迟、准确率与表现力的取舍——而它们犯的错不会停在原地,会传播进智能体的推理。原生语音到语音去掉了这对括号,却换来另一组约束。本文讲的是在每一层上选得好,并睁着眼睛缴转写错误税。

STEP 1

STT:流式 vs 批量,以及为何流式对智能体取胜。

批量 STT 以最大准确率转写一段已结束的音频。流式 STT 在来电者说话时发出部分假设,并随更多音频到达而修订它们。对智能体,流式不是可选项:它正是让端点检测、推测与热启动得以工作的东西。你接受略低的最终准确率,换取你别无他法满足的延迟预算。

  • 部分结果不稳定。"我想" → "我想取消" → "我想取消我的… 升级"。绝不要在部分结果上做不可逆动作;把副作用门控在最终化的转写文本上。
  • 领域准确率 > 基准 WER。干净朗读语音上的词错误率,对你客户在 8 kHz 电话线上的账号、产品名与口音几乎什么也说明不了。
STEP 2

转写错误税。

这是任何级联的标志性负债。STT 不会返回"我不确定";它把最佳猜测作为自信的文本返回,而 LLM 随后把那段文本当作基准事实来推理。一个听错的数字、一个错的药名、一个被丢掉的否定——智能体现在自信地对来电者从未说过的东西采取行动。

# the tax: confident text from uncertain audio
caller said:   "don't ship it to the old address"
STT produced:  "do ship it to the old address"
LLM reasons:   confidently. wrong order. no flag raised.

LLM 无法恢复 STT 已经销毁的信息——它只能貌似合理地猜,而在名字与数字上这意味着自信地猜错。别"让模型自己理清"。对高风险槽位——金额、ID、是/否、地址——把值读回去并取得明确确认。这确认不是礼貌;它是一条有损信道的纠错码。

STEP 3

TTS:延迟、韵律,以及流式要求。

TTS 质量已不再是瓶颈——自然度大体被 2025 年代模型解决了。与智能体相关的轴线不同:

  • 首段音频时间。对响应延迟唯一要紧的 TTS 延迟数字。一个质量极好但首样本要 800 ms 的模型在对话里不可用。
  • 流式合成。TTS 必须增量接收文本、增量发出音频,这样你在 LLM 的第一个子句上就开口,而非它最后一个 token。
  • 韵律与控制。节奏、强调,以及能在话语中途被干净打断的能力,比再多一档保真度更要紧。
  • 发音控制。订单 ID、币种与专有名词需要显式处理——"$1,204.50"与"ACC-0042"必须每次都说对,这通常意味着在合成前规范化文本。
STEP 4

原生语音到语音:你得到什么、放弃什么。

一个原生音频模型(OpenAI 的 gpt-realtime、Gemini Live)直接听到韵律与情绪并富有表现力地说话,关键路径上没有转写税,且少两个串行延迟跳。代价是真实且不同的:

cascade           native speech-to-speech
+ inspectable     - audio reasoning is opaque
+ swap any stage  - vendor-coupled, fewer voices
+ text guardrails - guardrail the audio, async, harder
- transcript tax  + hears tone, no STT tax
- 2 extra hops    + lowest latency

OpenAI 报告 gpt-realtime 在 MultiChallenge 音频指令遵循基准上为 30.5%,高于其 2024 年 12 月前代的 20.6%——真实进步,同时也提醒:音频原生的指令遵循仍落后于文本。成本敏感的路径可降到 gpt-realtime-mini;你用余量换价格。

STEP 5

电话现实:8 kHz 改变一切。

一通电话是窄带——8 kHz μ-law,为 1970 年代人类语音设计,而非为 STT。在 16 kHz 录音棚音频上得分漂亮的模型,在一通有背景噪声、编解码伪影、且来电者在车里用蓝牙耳机的真实 PSTN 通话上会退化。永远在与你将实际发布的通道相符的音频上评估你的语音栈,而非在干净样本上。

STEP 6

诚实的权衡。

级联以一笔永久的转写错误税为代价,给你可检视性与逐级可替换性;原生以不透明的音频推理与更难的护栏为代价,给你表现力与最低延迟——没有不缴税的栈,只有一种你已选择缴的税。