LongCat-AudioDiT音色克隆测评:零样本TTS效果对比榜单

2026-05-16阅读 0热度 0
其他
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

语音合成技术正面临范式转移。传统方案依赖梅尔频谱图等中间表征,再通过神经声码器重建波形,这种级联流程不可避免地导致音色细节与个性化特征的损失。

能否让AI直接学习声音的本质,跳过中间环节?

美团LongCat团队发布的LongCat-AudioDiT给出了答案。其核心设计极为直接:摒弃梅尔谱等中间表示,直接在波形潜空间内,基于扩散模型完成文本到语音的端到端生成。这一架构从根源上消除了多阶段传递引发的级联误差。

团队同时引入两项关键优化:一是识别并修正了长期存在的“训练-推理不匹配”问题;二是以自适应投影引导(APG)替代传统的无分类器引导(CFG)。这两项改进协同作用,将语音生成质量提升至新高度。

实际性能如何?在Seed基准测试中,LongCat-AudioDiT取得了当前最优的零样本语音克隆效果,同时保持了卓越的可懂度。具体而言,其3.5B参数版本在Seed-ZH测试集上的说话人相似度(SIM)达0.818,在Seed-Hard测试集上达0.797,表现超越Seed-TTS、CosyVoice3.5、MiniMax-Speech等知名模型,有力验证了波形空间直接生成路径的有效性。

LongCat-AudioDiT(1B/3.5B)现已完整开源,资源如下:

  • 论文: https://arxiv.org/abs/2603.29339v1
  • 代码仓库: https://github.com/meituan-longcat/LongCat-AudioDiT
  • 模型下载: https://huggingface.co/meituan-longcat/LongCat-AudioDiT

下面,我们深入解析其技术核心。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

一、架构革新:告别级联误差,直击波形本质

传统TTS系统如同信息接力:先预测梅尔频谱等声学特征,再由独立声码器“翻译”为波形。这种跨空间传递必然累积误差,导致合成语音丢失高保真细节——而这正是零样本语音克隆的关键。

LongCat-AudioDiT回归简洁:仅用一个波形变分自编码器(Wa v-VAE)和一个扩散Transformer(DiT),在波形隐空间内一站式完成压缩、建模与重建。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图1:LongCat-AudioDiT架构概览

1. 波形变分自编码器(Wa v-VAE):构建高质量潜空间

Wa v-VAE作为全卷积音频自编码器,负责将原始波形压缩为紧凑的连续隐向量。其设计包含多项精妙之处:

  • 高效下采样与多尺度建模:编码器通过多级Oobleck块实现层级下采样,每个块内堆叠带空洞卷积的残差单元,同步捕获局部至全局的时序依赖。最终将24kHz波形压缩至约11.7Hz帧率,压缩比超2000倍。
  • 非参数捷径稳定训练:为在激进下采样中保持稳定,每个编码器/解码器块引入非参数的“空间到通道”或“通道到空间”捷径分支。这为梯度提供了直接线性通路,显著提升模型收敛稳定性。
  • 对抗式多目标训练:Wa v-VAE的优化目标融合了多分辨率STFT损失、多尺度梅尔损失、时域L1损失、KL散度正则,以及多尺度STFT判别器的对抗损失与特征匹配损失。该策略确保重建波形兼具精确的时频结构与自然的听觉感受。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

2. 扩散Transformer(DiT):潜空间内的条件流匹配

在高质量潜空间基础上,DiT模型学习条件流匹配。文本编码选用支持107种语言的UMT5作为编码器。团队发现关键问题:仅使用编码器最后一层隐藏状态无法生成可懂语音,因高层语义抽象丢失了关键词法与音素线索。

为此,团队创新性地将原始词嵌入(第一层)与最后一层隐藏状态相加,经LayerNorm平衡尺度后送入后续模块。这种“高低层特征融合”策略显著提升了生成语音的可懂度。此外,引入轻量ConvNeXt V2序列模块细化文本表征,加速了文本-语音的对齐收敛。

DiT骨干网络基于Transformer,并集成多项结构优化:

  • 全局自适应层归一化(Global AdaLN):用于注入时间步信息,并通过全局共享的AdaLN块有效减少参数量。
  • QK-Norm + RoPE:稳定注意力训练,同时利用旋转位置编码捕捉相对位置关系。
  • 长跳跃连接:将输入直接加至输出,在实验中带来一致的质量提升。
  • 表征对齐(REPA):借助mHuBERT的自监督特征引导DiT中间层,虽不直接提升最终质量,但能显著加速模型收敛。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

二、推理优化:精准生成路径与纯净输出质量

波形潜空间架构解决了“在哪儿建模”的问题,而两项推理优化则从根本上优化了“如何生成”的路径精度与质量纯度。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

1. 破解训练-推理不匹配难题

团队首次发现并解决了流匹配TTS中的一个长期隐患:训练与推理的不匹配。在标准CFM训练中,模型仅在需生成的掩码区域计算损失,而作为音色条件的音频提示区域不参与优化。然而推理时,这些提示区域会不受约束地通过扩散ODE自由演化,导致其分布偏离训练约束,最终引发音色漂移与稳定性下降。

解决方案是引入双重约束机制:

  1. 提示区域隐变量强制重置:在每一步推理迭代中,严格将提示区域的隐变量重置为其理论真值,确保其演化轨迹与训练分布完全对齐,为生成部分提供稳定纯净的声学条件。
  2. 无条件预测净化:计算无条件速度场时,移除提示区域的隐变量输入,从而计算出完全正确的无条件速度,避免信息泄漏。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

2. 自适应投影引导(APG):从“无差别放大”到“精准筛选”

传统无分类器引导通过放大条件与无条件预测的差异来提升质量,但副作用明显:引导强度越大,频谱越易“过饱和”,导致音质劣化、语音不自然。

自适应投影引导采用新思路:它认为引导信号中有益部分与引发劣化的部分在几何上正交。APG将引导信号分解为平行与正交两个分量,保留正交的有益部分,抑制平行的劣化部分。简言之,CFG是“无差别放大”,而APG是“精准筛选”。这两项优化协同作用,在保持高说话人相似度的同时,显著提升了生成语音的自然度与声学质量。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

三、实验洞察:平衡的艺术

在Wa v-VAE实验中,团队观察到一个反直觉现象:VAE重建质量越高,并不直接等同于最终语音生成效果越好。盲目追求高重建分数会导致潜空间维度膨胀,反而增加下游扩散模型的学习难度,综合表现下降。

为找到最佳平衡点,团队系统对比了不同潜空间维度与帧率配置。最终确定的最优配置为:64维潜在维度搭配11.7Hz帧率。该配置既为生成模型预留了充足的学习空间,又保留了必要的声学细节,实现了重建保真度与生成泛化能力的最佳权衡。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图2:不同潜变量维度下Wa v-VAE重建与TTS合成的客观评估结果

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

四、性能表现:SOTA相似度与稳健可懂度

在Seed基准测试中,LongCat-AudioDiT与SeedTTS、CosyVoice3.5、MiniMax-Speech等业界主流模型同台竞技。结果显示,其在说话人相似度方面取得SOTA表现,同时保持了极具竞争力的可懂度。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

图3:LongCat-AudioDiT 在 Seed 基准测试

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

说话人相似度(SIM)

  • 中文测试集(Seed-ZH): LongCat-AudioDiT-3.5B 取得0.818的相似度分数,超越此前SOTA模型Seed-DiT的0.809。
  • 中文难句测试集(Seed-Hard): LongCat-AudioDiT-3.5B 取得0.797的SOTA分数。
突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

可懂度(CER/WER)

  • 中文CER: LongCat-AudioDiT-1.1B 为1.18%,3.5B版本为1.09%。在非自回归模型中表现优异。
  • 英文WER: 两个版本分别为1.78%和1.50%。其中3.5B版本的1.50%达到所有参评模型中第二低错误率,展现了强大的英文文本转语音准确性。
  • 中文难句CER: LongCat-AudioDiT-3.5B 取得6.04%的成绩,相比同样基于扩散模型的F5 TTS(8.67%),错误率显著降低,表现稳健。

模型在准确率指标上保持第一梯队水平,未为追求极高相似度而牺牲可懂度。值得注意的是,LongCat-AudioDiT未使用高质量人工标注数据和多阶段复杂训练,仅通过ASR转写的预训练数据和单阶段预训练,便取得了比多阶段训练的Seed-TTS、CosyVoice3.5等模型更优的表现。

总结而言,LongCat-AudioDiT凭借卓越的说话人相似度和稳定的准确率,在零样本语音克隆任务中展现出强大的综合竞争力。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

试听样例

中文样例:
(此处保留原音频组件,内容为中文case1、case2、case3)

中文难句样例:
(此处保留原音频组件,内容为中文高难度case1、case2、case3)

英文样例:
(此处保留原音频组件,内容为英文case1、case2、case3)

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术

结语

LongCat-AudioDiT以极简架构和纯粹的波形潜空间建模证明,绕开中间表征的扩散TTS路径不仅能走通,更能达到业界领先水平。这套“波形隐空间直通”的设计范式,为未来高保真语音合成乃至更广阔的多模态音频生成领域,提供了新的思路与坚实的技术基础。

目前,LongCat-AudioDiT模型(1B / 3.5B)已全部开源,期待与社区开发者及研究者共同探索并推动语音生成技术的边界。

突破零样本TTS音色克隆上限:LongCat-AudioDiT 的声音克隆艺术
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策