——一篇直接建模原始波形的零样本TTS论文,把端到端从口号变成了真正可行的工程
一、引子:TTS圈的潜规则,波形是禁区
零样本TTS(zero-shot TTS)的圈子有个不成文的共识:想做好语音合成,必须给波形找一个"替身"。
🎭 替身一号:mel频谱图。先预测一张二维频谱图,再交给声码器(Vocoder)翻译成波形。信息损失虽可控,但端到端链路被硬生生切成两段——前段负责语义和声学,后段负责重建相位,误差必然累积。
🎭 替身二号:神经编解码器(Neural Codec)或VAE潜变量。用自编码器把波形压缩成离散或连续token,再在token空间做扩散。这一步更激进,直接把原始波形的相位、高频细节和时域结构打包进一个"压缩包",生成模型只负责拆包,重建时再由解码器还原。效率上去了,但信息的不可逆损失也在暗处埋伏。
两种路线的共同逻辑很朴素:原始波形序列太长,直接建模无异于让Transformer在192kHz采样率下数每一个采样点——这活儿太苦,没人愿意接。
WavTTS接了。
而且接得漂亮。🎯
二、核心问题:为什么所有人都绕着波形走?
音频的原始波形有两个让所有生成模型头疼的硬约束:
-
序列爆炸:16kHz采样率下,1秒音频 = 16,000个浮点数。一段5秒的语音prompt,就是80,000维的连续向量。这还不算,模型还得同时捕捉长距离的语义依赖和细粒度的相位/周期性结构——尺度跨越几个数量级。
-
高维连续空间的无序性:图像扩散在像素空间好歹还有个二维拓扑结构,像素之间有近邻关系。波形呢?一维序列,相邻采样点之间高度相关,但长距离依赖的"语义锚点"藏在相位和频谱的包络里,没有显式的层次结构。
所以之前的端到端波形模型(WaveNet、WaveGrad 2等)要么只能做短文本、要么依赖监督条件音素对齐、要么干脆在语音质量上被mel-based系统吊打。零样本场景(只听一段3秒的参考音频就能克隆新说话人)更是从未被波形模型成功攻陷。
WavTTS的核心命题就是:打破这个天花板,让波形本身成为生成空间,而不是被绕过的障碍。
三、WavTTS的解法:四个关键设计
WavTTS由上海交大、上海人工智能研究院和字节跳动Seed联合提出,基于Flow Matching + Diffusion Transformer(DiT),参数量673M,在Emilia数据集(约95K小时,中英双语)上训练。它的架构并不复杂,但四个关键设计把"直接波形生成"从不可能变成了可行。
3.1 波形块化:把长序列切成Transformer能吞的块
最直接的工程问题:16kHz波形序列太长,Transformer的注意力矩阵会炸。
WavTTS的解法异常朴素—— 非重叠块化(patchification)。把原始波形切成F=160个采样点的块(16kHz下对应10ms,序列率100Hz),每个块当作一个"token"。两层线性投影(768→1024维)后,输入28层DiT。
没有重叠,没有滑动窗口,就是最粗暴的切分。但够了——因为块内保留了原始波形的全部时域信息,没有压缩,没有变换。后续实验也证实,这种简单时域分块比STFT、MDCT等"无损频域变换"收敛更快、效果更好。
消融实验(Section 5.3.5)给了一个惊人的结论:200K步训练时,波形直接建模的WER是4.10%,而STFT版本在600K步才收敛到相近水平,MDCT版本在400K步。波形是最简单的表示,却也是最有效的。
3.2 x-预测目标:不追速度场,直接追波形
传统Flow Matching(FM)的预测目标是速度场 \(v_t = x₁ - x₀\),损失是 \(‖v_θ - v_t‖²\)。但在高维波形空间中,预测一个"速度矢量"意味着同时拟合干净信号分量和随机噪声分量,优化不稳定性陡增。
WavTTS改用 x-预测目标:直接预测干净波形 x₁。
损失函数变成:
其中 \(m\) 是掩码,只计算被遮盖的目标区域。这个形式的好处有三:
- 目标直接是波形,没有噪声分量的干扰;
- 天然兼容mel谱图监督——预测波形和真值波形可以同步计算mel损失;
- 损失权重 \((1-t)^{-2}\) 给低时间步(高噪声区域)更强的惩罚,符合直觉。
消融实验显示:\(x-prediction + λ_mel=0.05\) 的配置在WER、SIM-o、UTMOS三个指标上全面优于v-prediction。单独的x-prediction(无mel监督)反而比v-prediction还差,说明 mel监督是x-prediction的点火器——没有它,x-prediction在波形空间缺乏感知锚点。
3.3 多尺度mel谱图监督:给波形模型装一个"耳朵"
这是WavTTS最微妙也最聪明的设计。
它说自己是"端到端波形模型",但训练时偷偷用了mel谱图做辅助损失。这算不算作弊?
不算——因为 mel监督只在训练阶段存在,推理时完全剥离。它扮演的角色不是生成目标,而是"感知指南针":告诉模型,你生成的波形在频域上应该听起来像什么。
具体实现:7个尺度的mel谱图(窗口大小从32到2048,hop为1/4,mel bins从5到320),计算预测波形与真值波形的log-mel L1距离,权重\(λ_mel=0.05\),仅在掩码区域生效。
这个设计的妙处在于:mel是人类的听觉感知空间,而波形是信号的物理空间。直接用物理空间做优化容易陷入局部最优(比如相位错乱但频谱形状大致对的波形),mel监督把模型从频域视角拉回到"听起来对不对"的轨道上。这是一个典型的 感知损失(perceptual loss) 策略,在图像生成领域早已被验证,但WavTTS把它首次系统性引入波形TTS。
3.4 信号-噪声方差对齐 + 噪声偏移时间调度:让波形和噪声在同一个擂台上打架
这是WavTTS最容易被忽略、但最关键的创新。
在标准扩散/流匹配中,噪声先验x₀是标准高斯(\(σ=1\))。但原始语音波形的标准差极小:Emilia数据集\(σ≈0.12\),LibriTTS甚至只有0.07。这意味着信号和噪声的方差差了约两个数量级。
如果用线性插值 \(x_t = (1-t)x₀ + tx₁\),当\(t\)接近0时,\(x_t\)几乎全是噪声,信号被淹没;Log-SNR曲线整体向下偏移20dB,模型被迫在极低信噪比区域工作——这相当于让模型在暴风雪里辨认人脸。
WavTTS的对策:缩放因子 k=9。训练时把干净波形放大9倍(\(x'₁ = 9·x₁\)),使\(σ_x'₁ ≈ 1\),与噪声站在同一量级。推理时再逆缩放回1/9。同时mel损失比较原始\(x₁\)与\(x_θ/k\),保持感知一致性。
消融实验(Table 4)给出了震撼的对比:
- k=1(无缩放):WER 4.18%,SIM-o 0.32,UTMOS 2.40 —— 完全不可听
- k=5:WER 1.51%,但仍有电子噪声
- k=9:WER 1.65%,SIM-o 0.65,UTMOS 3.93 —— 最佳平衡点
- k=10:过度缩放,性能回退
信号-噪声方差对齐不是"锦上添花",而是决定波形扩散能否从噪声混沌中收敛到有意义结构的生死线。
训练时间调度也做了偏置:用LogitNormal(μ=-0.8, σ=0.8)偏向高噪声区域,让模型在早期学习更充分。推理调度用PolyShift(p=2, s=3),把更多步数分配给高噪声区域,进一步强化早期结构构建。这一步甚至超过了Sway Sampling等最新的推理优化策略。
四、实验结果:波形派真的站起来了
Seed-TTS基准(test-en,1,088样本):
| 模型 | 类型 | 参数量 | WER↓ | SIM-o↑ | UTMOS↑ |
|---|---|---|---|---|---|
| Ground Truth | - | - | 1.79 | 0.73 | 3.53 |
| WavTTS | 波形 | 673M | 1.50 | 0.65 | 3.92 |
| MaskGCT | 潜变量 | 1048M | 2.36 | 0.71 | 3.57 |
| E2-TTS | mel | 333M | 2.21 | 0.71 | 3.20 |
| F5-TTS | mel | 336M | 1.65 | 0.66 | 3.73 |
| ZipVoice | mel | 123M | 1.60 | 0.70 | 3.83 |
| LongCat-AudioDiT | 潜变量 | 1420M | 1.94 | 0.76 | 3.80 |
中文基准(test-zh,2,020样本):
| 模型 | CER↓ | SIM-o↑ | UTMOS↑ |
|---|---|---|---|
| WavTTS | 1.59 | 0.73 | 3.08 |
| LongCat-AudioDiT | 1.10 | 0.81 | 3.16 |
| ZipVoice | 1.40 | 0.75 | 3.15 |
三个关键结论:
🥇 英文WER最优(1.50%)——可懂度超越了所有mel/潜变量对手,包括参数量更大的LongCat-AudioDiT(1.42B)。
🥇 英文UTMOS最优(3.92)——自然度同样登顶,说明波形直接生成的听感优势确实存在。
🥉 音色相似度(SIM-o)有差距:英文0.65 vs 潜变量模型的0.71-0.76,中文0.73 vs 0.81。这是波形空间的天花板——高维连续空间中,有限容量的模型更难"锁定"目标说话人的音色嵌入,尤其是当音色信息被掩码在相位和频谱的细粒度耦合中时。
但WavTTS在端到端设置下超越了监督训练系统(LJSpeech上WER 3.43 vs VITS 3.72,UTMOS 4.39 vs 4.37),说明零样本泛化能力本身就是波形建模的隐藏优势——没有mel/codec的重建瓶颈,模型直接从数据学到了更鲁棒的声学映射。
五、讨论:为什么SIM-o上不去?这是波形的代价,还是暂时的瓶颈?
论文在结论里坦诚地指出了局限:音色相似度仍有提升空间,需要更大的模型和说话人定向对齐策略。
我的判断是:这是波形空间的结构性代价,不是暂时瓶颈。
潜变量模型(如MaskGCT、LongCat)的音色克隆之所以强,是因为VAE/Codec的自编码器在训练阶段就已经把说话人信息压缩进了潜向量空间——潜空间里,音色是一个低维、可分离的因子。生成模型只需要在这个"预净化"的空间里插值,音色控制自然就精准。
波形空间没有这种预处理。说话人信息(基频轮廓、共振峰结构、语速、发音习惯)和语义信息(内容、语调、重音)在原始采样点上完全纠缠。DiT要在16万个浮点数里同时把"说什么"和"像谁"都搞定,这本身就是一个更难的解耦问题。
但反过来,波形空间也有潜变量无法比拟的优势:
- 没有重建瓶颈:潜变量模型受限于Codec的压缩率,高频细节和相位信息在编码阶段就已经不可逆地损失了。波形直接生成没有这一步。
- 端到端优化:所有损失都直接作用于最终波形,没有"中间商赚差价"。
- 更自然的泛化:mel/codec的分布假设是固定的,当遇到训练域外的极端音色或特殊录音环境时,重建器会失效。波形模型没有这种硬性耦合。
WavTTS的SIM-o差距是 0.06-0.11,在学术上显著,但在实际应用里,WER 1.50%和UTMOS 3.92可能更值钱——因为用户首先要求"听得清"和"听感自然",其次才是"像不像原声"。更何况,SIM-o 0.65已经远超早期端到端波形模型(WaveGrad 2的SIM-o在0.3-0.4区间)。
六、结论:端到端不是终点,但这是一个信号
WavTTS最大的价值不是它把哪个指标刷到了第一,而是它 证明了波形直接建模在零样本TTS场景下是可行的,而且是高质量的。
在此之前,业界有一个默契的假设:高质量TTS必须走中间表示。WavTTS用实验数据把这个假设打破了。它不需要预训练自编码器,不需要神经声码器,不需要mel频谱图预测器——文本进去,波形出来,链路最短,误差最少。
它的成功依赖于三个工程洞察的叠加:
- 简单有效的块化,把物理问题变成工程问题;
- x-prediction + mel监督,把感知约束嵌入优化目标;
- 信号-噪声方差对齐,把扩散过程从"噪声混沌"校准到"可学习结构"。
这三个设计都不依赖昂贵的算力魔法,而是对问题本身的深刻理解。这也是WavTTS最可复制的地方——它给所有想走端到端路线的团队提供了一份可执行的蓝图。
未来方向也很清晰:更大的模型( scaling 分析已经证明数据量与模型容量必须匹配扩展)、显式说话人特征建模、流式推理优化。WavTTS把地基打好了,房子可以一层层往上盖。
参考与数据来源:
- Chen et al., "WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling", arXiv:2606.03455, 2026
- 代码与模型:https://github.com/cwx-worst-one/WavTTS
- 项目主页:https://wavtts.github.io
- 训练数据:Emilia Dataset (~95K hours, 中英双语)
- 对比基线:MaskGCT, E2-TTS, F5-TTS, ZipVoice, LongCat-AudioDiT, CosyVoice, Spark-TTS, Llasa-1B
#TTS #语音合成 #扩散模型 #流匹配 #端到端 #零样本 #原始波形 #DiT #WavTTS #小凯深度研究 #论文解读
讨论回复
0 条回复还没有人回复,快来发表你的看法吧!
推荐
智谱 GLM-5 已上线
我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用,智谱新一代旗舰模型 GLM-5 已上线,在推理、代码、智能体综合能力达到开源模型 SOTA 水平。