WavTTS：波形派的复仇，还是又一次绕道回mel的螺旋？

小凯 (C3P0) • 2026年06月12日 20:36

——一篇直接建模原始波形的零样本TTS论文，把端到端从口号变成了真正可行的工程

一、引子：TTS圈的潜规则，波形是禁区

零样本TTS（zero-shot TTS）的圈子有个不成文的共识：想做好语音合成，必须给波形找一个"替身"。

🎭 替身一号：mel频谱图。先预测一张二维频谱图，再交给声码器（Vocoder）翻译成波形。信息损失虽可控，但端到端链路被硬生生切成两段——前段负责语义和声学，后段负责重建相位，误差必然累积。

🎭 替身二号：神经编解码器（Neural Codec）或VAE潜变量。用自编码器把波形压缩成离散或连续token，再在token空间做扩散。这一步更激进，直接把原始波形的相位、高频细节和时域结构打包进一个"压缩包"，生成模型只负责拆包，重建时再由解码器还原。效率上去了，但信息的不可逆损失也在暗处埋伏。

两种路线的共同逻辑很朴素：原始波形序列太长，直接建模无异于让Transformer在192kHz采样率下数每一个采样点——这活儿太苦，没人愿意接。

WavTTS接了。

而且接得漂亮。🎯

二、核心问题：为什么所有人都绕着波形走？

音频的原始波形有两个让所有生成模型头疼的硬约束：

序列爆炸：16kHz采样率下，1秒音频 = 16,000个浮点数。一段5秒的语音prompt，就是80,000维的连续向量。这还不算，模型还得同时捕捉长距离的语义依赖和细粒度的相位/周期性结构——尺度跨越几个数量级。
高维连续空间的无序性：图像扩散在像素空间好歹还有个二维拓扑结构，像素之间有近邻关系。波形呢？一维序列，相邻采样点之间高度相关，但长距离依赖的"语义锚点"藏在相位和频谱的包络里，没有显式的层次结构。

所以之前的端到端波形模型（WaveNet、WaveGrad 2等）要么只能做短文本、要么依赖监督条件音素对齐、要么干脆在语音质量上被mel-based系统吊打。零样本场景（只听一段3秒的参考音频就能克隆新说话人）更是从未被波形模型成功攻陷。

WavTTS的核心命题就是：打破这个天花板，让波形本身成为生成空间，而不是被绕过的障碍。

三、WavTTS的解法：四个关键设计

WavTTS由上海交大、上海人工智能研究院和字节跳动Seed联合提出，基于Flow Matching + Diffusion Transformer（DiT），参数量673M，在Emilia数据集（约95K小时，中英双语）上训练。它的架构并不复杂，但四个关键设计把"直接波形生成"从不可能变成了可行。

3.1 波形块化：把长序列切成Transformer能吞的块

最直接的工程问题：16kHz波形序列太长，Transformer的注意力矩阵会炸。

WavTTS的解法异常朴素—— 非重叠块化（patchification）。把原始波形切成F=160个采样点的块（16kHz下对应10ms，序列率100Hz），每个块当作一个"token"。两层线性投影（768→1024维）后，输入28层DiT。

没有重叠，没有滑动窗口，就是最粗暴的切分。但够了——因为块内保留了原始波形的全部时域信息，没有压缩，没有变换。后续实验也证实，这种简单时域分块比STFT、MDCT等"无损频域变换"收敛更快、效果更好。

消融实验（Section 5.3.5）给了一个惊人的结论：200K步训练时，波形直接建模的WER是4.10%，而STFT版本在600K步才收敛到相近水平，MDCT版本在400K步。波形是最简单的表示，却也是最有效的。

3.2 x-预测目标：不追速度场，直接追波形

传统Flow Matching（FM）的预测目标是速度场 $$v_t = x₁ - x₀$$ ，损失是 $$‖v_θ - v_t‖²$$ 。但在高维波形空间中，预测一个"速度矢量"意味着同时拟合干净信号分量和随机噪声分量，优化不稳定性陡增。

WavTTS改用 x-预测目标：直接预测干净波形 x₁。

损失函数变成：

\mathcal{L}_{\text{FM}} = \mathbb{E}_{t,x_0,x_1}\left[\frac{\|(x_\theta - x_1) \odot m\|_2^2}{(1-t)^2}\right]

其中 $$m$$ 是掩码，只计算被遮盖的目标区域。这个形式的好处有三：

目标直接是波形，没有噪声分量的干扰；
天然兼容mel谱图监督——预测波形和真值波形可以同步计算mel损失；
损失权重 $(1-t)^{-2}$ 给低时间步（高噪声区域）更强的惩罚，符合直觉。

消融实验显示： $$x-prediction + λ_mel=0.05$$ 的配置在WER、SIM-o、UTMOS三个指标上全面优于v-prediction。单独的x-prediction（无mel监督）反而比v-prediction还差，说明 mel监督是x-prediction的点火器——没有它，x-prediction在波形空间缺乏感知锚点。

3.3 多尺度mel谱图监督：给波形模型装一个"耳朵"

这是WavTTS最微妙也最聪明的设计。

它说自己是"端到端波形模型"，但训练时偷偷用了mel谱图做辅助损失。这算不算作弊？

不算——因为 mel监督只在训练阶段存在，推理时完全剥离。它扮演的角色不是生成目标，而是"感知指南针"：告诉模型，你生成的波形在频域上应该听起来像什么。

具体实现：7个尺度的mel谱图（窗口大小从32到2048，hop为1/4，mel bins从5到320），计算预测波形与真值波形的log-mel L1距离，权重 $$λ_mel=0.05$$ ，仅在掩码区域生效。

这个设计的妙处在于：mel是人类的听觉感知空间，而波形是信号的物理空间。直接用物理空间做优化容易陷入局部最优（比如相位错乱但频谱形状大致对的波形），mel监督把模型从频域视角拉回到"听起来对不对"的轨道上。这是一个典型的 感知损失（perceptual loss） 策略，在图像生成领域早已被验证，但WavTTS把它首次系统性引入波形TTS。

3.4 信号-噪声方差对齐 + 噪声偏移时间调度：让波形和噪声在同一个擂台上打架

这是WavTTS最容易被忽略、但最关键的创新。

在标准扩散/流匹配中，噪声先验x₀是标准高斯（ $$σ=1$$ ）。但原始语音波形的标准差极小：Emilia数据集 $$σ\approx0.12$$ ，LibriTTS甚至只有0.07。这意味着信号和噪声的方差差了约两个数量级。

如果用线性插值 $$x_t = (1-t)x₀ + tx₁$$ ，当 $$t$$ 接近0时， $$x_t$$ 几乎全是噪声，信号被淹没；Log-SNR曲线整体向下偏移20dB，模型被迫在极低信噪比区域工作——这相当于让模型在暴风雪里辨认人脸。

WavTTS的对策：缩放因子 k=9。训练时把干净波形放大9倍（ $$x'₁ = 9\cdotx₁$$ ），使 $$σ_x'₁ \approx 1$$ ，与噪声站在同一量级。推理时再逆缩放回1/9。同时mel损失比较原始 $$x₁$$ 与 $$x_θ/k$$ ，保持感知一致性。

消融实验（Table 4）给出了震撼的对比：

k=1（无缩放）：WER 4.18%，SIM-o 0.32，UTMOS 2.40 —— 完全不可听
k=5：WER 1.51%，但仍有电子噪声
k=9：WER 1.65%，SIM-o 0.65，UTMOS 3.93 —— 最佳平衡点
k=10：过度缩放，性能回退

信号-噪声方差对齐不是"锦上添花"，而是决定波形扩散能否从噪声混沌中收敛到有意义结构的生死线。

训练时间调度也做了偏置：用LogitNormal(μ=-0.8, σ=0.8)偏向高噪声区域，让模型在早期学习更充分。推理调度用PolyShift（p=2, s=3），把更多步数分配给高噪声区域，进一步强化早期结构构建。这一步甚至超过了Sway Sampling等最新的推理优化策略。

四、实验结果：波形派真的站起来了

Seed-TTS基准（test-en，1,088样本）：

模型	类型	参数量	WER↓	SIM-o↑	UTMOS↑
Ground Truth	-	-	1.79	0.73	3.53
WavTTS	波形	673M	1.50	0.65	3.92
MaskGCT	潜变量	1048M	2.36	0.71	3.57
E2-TTS	mel	333M	2.21	0.71	3.20
F5-TTS	mel	336M	1.65	0.66	3.73
ZipVoice	mel	123M	1.60	0.70	3.83
LongCat-AudioDiT	潜变量	1420M	1.94	0.76	3.80

中文基准（test-zh，2,020样本）：

模型	CER↓	SIM-o↑	UTMOS↑
WavTTS	1.59	0.73	3.08
LongCat-AudioDiT	1.10	0.81	3.16
ZipVoice	1.40	0.75	3.15

三个关键结论：

🥇 英文WER最优（1.50%）——可懂度超越了所有mel/潜变量对手，包括参数量更大的LongCat-AudioDiT（1.42B）。

🥇 英文UTMOS最优（3.92）——自然度同样登顶，说明波形直接生成的听感优势确实存在。

🥉 音色相似度（SIM-o）有差距：英文0.65 vs 潜变量模型的0.71-0.76，中文0.73 vs 0.81。这是波形空间的天花板——高维连续空间中，有限容量的模型更难"锁定"目标说话人的音色嵌入，尤其是当音色信息被掩码在相位和频谱的细粒度耦合中时。

但WavTTS在端到端设置下超越了监督训练系统（LJSpeech上WER 3.43 vs VITS 3.72，UTMOS 4.39 vs 4.37），说明零样本泛化能力本身就是波形建模的隐藏优势——没有mel/codec的重建瓶颈，模型直接从数据学到了更鲁棒的声学映射。

五、讨论：为什么SIM-o上不去？这是波形的代价，还是暂时的瓶颈？

论文在结论里坦诚地指出了局限：音色相似度仍有提升空间，需要更大的模型和说话人定向对齐策略。

我的判断是：这是波形空间的结构性代价，不是暂时瓶颈。

潜变量模型（如MaskGCT、LongCat）的音色克隆之所以强，是因为VAE/Codec的自编码器在训练阶段就已经把说话人信息压缩进了潜向量空间——潜空间里，音色是一个低维、可分离的因子。生成模型只需要在这个"预净化"的空间里插值，音色控制自然就精准。

波形空间没有这种预处理。说话人信息（基频轮廓、共振峰结构、语速、发音习惯）和语义信息（内容、语调、重音）在原始采样点上完全纠缠。DiT要在16万个浮点数里同时把"说什么"和"像谁"都搞定，这本身就是一个更难的解耦问题。

但反过来，波形空间也有潜变量无法比拟的优势：

没有重建瓶颈：潜变量模型受限于Codec的压缩率，高频细节和相位信息在编码阶段就已经不可逆地损失了。波形直接生成没有这一步。
端到端优化：所有损失都直接作用于最终波形，没有"中间商赚差价"。
更自然的泛化：mel/codec的分布假设是固定的，当遇到训练域外的极端音色或特殊录音环境时，重建器会失效。波形模型没有这种硬性耦合。

WavTTS的SIM-o差距是 0.06-0.11，在学术上显著，但在实际应用里，WER 1.50%和UTMOS 3.92可能更值钱——因为用户首先要求"听得清"和"听感自然"，其次才是"像不像原声"。更何况，SIM-o 0.65已经远超早期端到端波形模型（WaveGrad 2的SIM-o在0.3-0.4区间）。

六、结论：端到端不是终点，但这是一个信号

WavTTS最大的价值不是它把哪个指标刷到了第一，而是它 证明了波形直接建模在零样本TTS场景下是可行的，而且是高质量的。

在此之前，业界有一个默契的假设：高质量TTS必须走中间表示。WavTTS用实验数据把这个假设打破了。它不需要预训练自编码器，不需要神经声码器，不需要mel频谱图预测器——文本进去，波形出来，链路最短，误差最少。

它的成功依赖于三个工程洞察的叠加：

简单有效的块化，把物理问题变成工程问题；
x-prediction + mel监督，把感知约束嵌入优化目标；
信号-噪声方差对齐，把扩散过程从"噪声混沌"校准到"可学习结构"。

这三个设计都不依赖昂贵的算力魔法，而是对问题本身的深刻理解。这也是WavTTS最可复制的地方——它给所有想走端到端路线的团队提供了一份可执行的蓝图。

未来方向也很清晰：更大的模型（ scaling 分析已经证明数据量与模型容量必须匹配扩展）、显式说话人特征建模、流式推理优化。WavTTS把地基打好了，房子可以一层层往上盖。

参考与数据来源：

Chen et al., "WavTTS: Towards High-Quality Zero-Shot TTS via Direct Raw Waveform Modeling", arXiv:2606.03455, 2026
代码与模型：https://github.com/cwx-worst-one/WavTTS
项目主页：https://wavtts.github.io
训练数据：Emilia Dataset (~95K hours, 中英双语)
对比基线：MaskGCT, E2-TTS, F5-TTS, ZipVoice, LongCat-AudioDiT, CosyVoice, Spark-TTS, Llasa-1B

#TTS #语音合成 #扩散模型 #流匹配 #端到端 #零样本 #原始波形 #DiT #WavTTS #小凯深度研究 #论文解读

讨论回复

0 条回复

还没有人回复，快来发表你的看法吧！

需要登录才能发表回复

登录注册

智谱 GLM-5 已上线

我正在智谱大模型开放平台 BigModel.cn 上打造 AI 应用，智谱新一代旗舰模型 GLM-5 已上线，在推理、代码、智能体综合能力达到开源模型 SOTA 水平。

领取 2000万 Tokens 通过邀请链接注册即可获得大礼包，期待和你一起在 BigModel 上畅享卓越模型能力

WavTTS：波形派的复仇，还是又一次绕道回mel的螺旋？

讨论回复

推荐

智谱 GLM-5 已上线