LongCat-AudioDiT音色克隆测评：零样本TTS效果对比榜单

2026-05-16阅读 0热度 0

其他

语音合成技术正面临范式转移。传统方案依赖梅尔频谱图等中间表征，再通过神经声码器重建波形，这种级联流程不可避免地导致音色细节与个性化特征的损失。

能否让AI直接学习声音的本质，跳过中间环节？

美团LongCat团队发布的LongCat-AudioDiT给出了答案。其核心设计极为直接：摒弃梅尔谱等中间表示，直接在波形潜空间内，基于扩散模型完成文本到语音的端到端生成。这一架构从根源上消除了多阶段传递引发的级联误差。

团队同时引入两项关键优化：一是识别并修正了长期存在的“训练-推理不匹配”问题；二是以自适应投影引导（APG）替代传统的无分类器引导（CFG）。这两项改进协同作用，将语音生成质量提升至新高度。

实际性能如何？在Seed基准测试中，LongCat-AudioDiT取得了当前最优的零样本语音克隆效果，同时保持了卓越的可懂度。具体而言，其3.5B参数版本在Seed-ZH测试集上的说话人相似度（SIM）达0.818，在Seed-Hard测试集上达0.797，表现超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型，有力验证了波形空间直接生成路径的有效性。

LongCat-AudioDiT（1B/3.5B）现已完整开源，资源如下：

论文： https://arxiv.org/abs/2603.29339v1
代码仓库： https://github.com/meituan-longcat/LongCat-AudioDiT
模型下载： https://huggingface.co/meituan-longcat/LongCat-AudioDiT

下面，我们深入解析其技术核心。

一、架构革新：告别级联误差，直击波形本质

传统TTS系统如同信息接力：先预测梅尔频谱等声学特征，再由独立声码器“翻译”为波形。这种跨空间传递必然累积误差，导致合成语音丢失高保真细节——而这正是零样本语音克隆的关键。

LongCat-AudioDiT回归简洁：仅用一个波形变分自编码器（Wa v-VAE）和一个扩散Transformer（DiT），在波形隐空间内一站式完成压缩、建模与重建。

图1：LongCat-AudioDiT架构概览

1. 波形变分自编码器（Wa v-VAE）：构建高质量潜空间

Wa v-VAE作为全卷积音频自编码器，负责将原始波形压缩为紧凑的连续隐向量。其设计包含多项精妙之处：

高效下采样与多尺度建模：编码器通过多级Oobleck块实现层级下采样，每个块内堆叠带空洞卷积的残差单元，同步捕获局部至全局的时序依赖。最终将24kHz波形压缩至约11.7Hz帧率，压缩比超2000倍。
非参数捷径稳定训练：为在激进下采样中保持稳定，每个编码器/解码器块引入非参数的“空间到通道”或“通道到空间”捷径分支。这为梯度提供了直接线性通路，显著提升模型收敛稳定性。
对抗式多目标训练：Wa v-VAE的优化目标融合了多分辨率STFT损失、多尺度梅尔损失、时域L1损失、KL散度正则，以及多尺度STFT判别器的对抗损失与特征匹配损失。该策略确保重建波形兼具精确的时频结构与自然的听觉感受。

2. 扩散Transformer（DiT）：潜空间内的条件流匹配

在高质量潜空间基础上，DiT模型学习条件流匹配。文本编码选用支持107种语言的UMT5作为编码器。团队发现关键问题：仅使用编码器最后一层隐藏状态无法生成可懂语音，因高层语义抽象丢失了关键词法与音素线索。

为此，团队创新性地将原始词嵌入（第一层）与最后一层隐藏状态相加，经LayerNorm平衡尺度后送入后续模块。这种“高低层特征融合”策略显著提升了生成语音的可懂度。此外，引入轻量ConvNeXt V2序列模块细化文本表征，加速了文本-语音的对齐收敛。

DiT骨干网络基于Transformer，并集成多项结构优化：

全局自适应层归一化（Global AdaLN）：用于注入时间步信息，并通过全局共享的AdaLN块有效减少参数量。
QK-Norm + RoPE：稳定注意力训练，同时利用旋转位置编码捕捉相对位置关系。
长跳跃连接：将输入直接加至输出，在实验中带来一致的质量提升。
表征对齐（REPA）：借助mHuBERT的自监督特征引导DiT中间层，虽不直接提升最终质量，但能显著加速模型收敛。

二、推理优化：精准生成路径与纯净输出质量

波形潜空间架构解决了“在哪儿建模”的问题，而两项推理优化则从根本上优化了“如何生成”的路径精度与质量纯度。

1. 破解训练-推理不匹配难题

团队首次发现并解决了流匹配TTS中的一个长期隐患：训练与推理的不匹配。在标准CFM训练中，模型仅在需生成的掩码区域计算损失，而作为音色条件的音频提示区域不参与优化。然而推理时，这些提示区域会不受约束地通过扩散ODE自由演化，导致其分布偏离训练约束，最终引发音色漂移与稳定性下降。

解决方案是引入双重约束机制：

提示区域隐变量强制重置：在每一步推理迭代中，严格将提示区域的隐变量重置为其理论真值，确保其演化轨迹与训练分布完全对齐，为生成部分提供稳定纯净的声学条件。
无条件预测净化：计算无条件速度场时，移除提示区域的隐变量输入，从而计算出完全正确的无条件速度，避免信息泄漏。

2. 自适应投影引导（APG）：从“无差别放大”到“精准筛选”

传统无分类器引导通过放大条件与无条件预测的差异来提升质量，但副作用明显：引导强度越大，频谱越易“过饱和”，导致音质劣化、语音不自然。

自适应投影引导采用新思路：它认为引导信号中有益部分与引发劣化的部分在几何上正交。APG将引导信号分解为平行与正交两个分量，保留正交的有益部分，抑制平行的劣化部分。简言之，CFG是“无差别放大”，而APG是“精准筛选”。这两项优化协同作用，在保持高说话人相似度的同时，显著提升了生成语音的自然度与声学质量。

三、实验洞察：平衡的艺术

在Wa v-VAE实验中，团队观察到一个反直觉现象：VAE重建质量越高，并不直接等同于最终语音生成效果越好。盲目追求高重建分数会导致潜空间维度膨胀，反而增加下游扩散模型的学习难度，综合表现下降。

为找到最佳平衡点，团队系统对比了不同潜空间维度与帧率配置。最终确定的最优配置为：64维潜在维度搭配11.7Hz帧率。该配置既为生成模型预留了充足的学习空间，又保留了必要的声学细节，实现了重建保真度与生成泛化能力的最佳权衡。

图2：不同潜变量维度下Wa v-VAE重建与TTS合成的客观评估结果

四、性能表现：SOTA相似度与稳健可懂度

在Seed基准测试中，LongCat-AudioDiT与SeedTTS、CosyVoice3.5、MiniMax-Speech等业界主流模型同台竞技。结果显示，其在说话人相似度方面取得SOTA表现，同时保持了极具竞争力的可懂度。

图3：LongCat-AudioDiT 在 Seed 基准测试

说话人相似度（SIM）

中文测试集（Seed-ZH）： LongCat-AudioDiT-3.5B 取得0.818的相似度分数，超越此前SOTA模型Seed-DiT的0.809。
中文难句测试集（Seed-Hard）： LongCat-AudioDiT-3.5B 取得0.797的SOTA分数。

可懂度（CER/WER）

中文CER： LongCat-AudioDiT-1.1B 为1.18%，3.5B版本为1.09%。在非自回归模型中表现优异。
英文WER： 两个版本分别为1.78%和1.50%。其中3.5B版本的1.50%达到所有参评模型中第二低错误率，展现了强大的英文文本转语音准确性。
中文难句CER： LongCat-AudioDiT-3.5B 取得6.04%的成绩，相比同样基于扩散模型的F5 TTS（8.67%），错误率显著降低，表现稳健。

模型在准确率指标上保持第一梯队水平，未为追求极高相似度而牺牲可懂度。值得注意的是，LongCat-AudioDiT未使用高质量人工标注数据和多阶段复杂训练，仅通过ASR转写的预训练数据和单阶段预训练，便取得了比多阶段训练的Seed-TTS、CosyVoice3.5等模型更优的表现。

总结而言，LongCat-AudioDiT凭借卓越的说话人相似度和稳定的准确率，在零样本语音克隆任务中展现出强大的综合竞争力。

试听样例

中文样例：
（此处保留原音频组件，内容为中文case1、case2、case3）

中文难句样例：
（此处保留原音频组件，内容为中文高难度case1、case2、case3）

英文样例：
（此处保留原音频组件，内容为英文case1、case2、case3）

结语

LongCat-AudioDiT以极简架构和纯粹的波形潜空间建模证明，绕开中间表征的扩散TTS路径不仅能走通，更能达到业界领先水平。这套“波形隐空间直通”的设计范式，为未来高保真语音合成乃至更广阔的多模态音频生成领域，提供了新的思路与坚实的技术基础。

目前，LongCat-AudioDiT模型（1B / 3.5B）已全部开源，期待与社区开发者及研究者共同探索并推动语音生成技术的边界。