美团开源LongCat-AudioDiT 首创波形建模刷新音色克隆SOTA
音频生成迈入端到端时代:美团开源LongCat-AudioDiT,刷新音色克隆SOTA
2026年4月2日,美团旗下的LongCat团队做了一件让行业瞩目的事:他们正式发布并开源了全新的端到端音频生成模型——LongCat-AudioDiT,直接提供了1B和3.5B两个参数版本供选用。这次发布,可不是简单的参数堆叠,而是一次架构上的“破与立”。这个模型最大的亮点,在于它彻底抛弃了传统TTS系统依赖的梅尔频谱中间表征,首创了直接在波形潜空间建模的架构。它搭载的全卷积Wa v-VAE,能把24kHz的高清波形压缩整整2000倍,帧率低至11.7Hz,从而大幅削减了信息在传递过程中的损耗与误差积累。正是这套底层革新,让它成功刷新了零样本音色克隆的性能纪录,拿下了当前的SOTA。
话说回来,最近这两年,音频生成技术正处在一个关键的转折点上:行业共识是,从多阶段的级联架构全面转向端到端架构,已经是大势所趋。传统TTS那套沿用多年的“先预测声学特征,再用神经声码器合成”的流水线,虽然经典,但如今已然成了音色还原度和生成效率进一步提升的核心瓶颈。
问题出在哪里?传统方案普遍依赖梅尔频谱这个“中间商”。流程上需要先把文本转成梅尔频谱,再把这个频谱转成最终音频。这个过程中,前后两个步骤产生的误差会层层叠加、不断放大。尤其是在对精度要求极高的零样本音色克隆场景下,传统方法就更容易露怯了——音色走样、咬字含混、情感干瘪,这些毛病屡见不鲜。即便投入大量精力反复调优,性能天花板也清晰可见,根本无法满足虚拟人、智能客服等新兴应用对音色保真度近乎苛刻的要求。
那么,LongCat-AudioDiT是如何破局的呢?答案很简单,却又很彻底:它完全绕开了梅尔频谱这个中间环节。整个模型由Wa v-VAE和DiT两大核心组件构成,架构极为简洁,实现了真正的端到端。它直接在波形潜空间里完成所有建模工作,这相当于重构了音频生成的底层逻辑。
具体来看,其中那个高效的Wa v-VAE采用了全卷积设计,为实现2000倍的极高压缩比立下了汗马功劳。更巧妙的是,它通过引入非参数化的捷径分支并结合多目标对抗训练,确保了重建后的波形质量。这意味着,压缩后的表征既精准保留了原始的时频结构,又能让最终生成的音频拥有接近真人发音的自然听感。从公开的测试数据来看,该模型在零样本音色相似度和自然度这两项核心指标上,均已超越现有同类模型,取得了当前行业的最佳成绩。目前开源的1B和3.5B两个版本,也经过了精心设计,可以分别适配端侧轻量化部署和云端高精度生成等不同的实际场景需求。
将视线拉回美团自身的业务生态,这项技术带来的价值是立竿见影的。更高精度的零样本音色克隆能力,意味着可以快速为骑手智能助手、商家客服系统、配送节点语音播报等众多场景,批量定制出各具特色的专属音色。这不仅能大幅降低语音交互功能的开发与定制成本,更能显著提升C端用户在每一次交互中的聆听体验。
当然,技术开源的意义远不止于此。当这项能力开放给业界,其影响力将迅速扩散至有声书制作、虚拟人语音驱动、智能硬件语音助手等多个领域。它极大地降低了中小型团队研发高性能音频生成模型的门槛,有望从整体上推动音频生成行业的技术性能向新的台阶迈进。
