2024语音克隆精选：小米OmniVoice模型测评，支持600+语言

2026-05-17阅读 0热度 0

Voice

小米AI实验室新一代Kaldi团队正式开源OmniVoice，一个支持数百种语言的语音克隆与合成模型。该模型在中英文主流场景下已达到业界领先水平，其多语言合成能力据称已超越部分现有商用解决方案。

OmniVoice的核心突破在于其极简的架构设计。它摒弃了传统语音合成模型中复杂的模块堆叠，仅采用单一的双向Transformer网络，实现了从文本到语音的端到端直接映射。这种去除了独立文本前端、混合架构与多级预测流程的设计，使其成为当前结构最简洁的非自回归TTS模型之一。

架构的简化并未牺牲性能。官方评估显示，OmniVoice在合成音质上优于主流同类模型。其效率优势更为显著：完成10万小时数据训练仅需一天，基于PyTorch的推理速度可达实时音频的40倍。这种高效的训练与推理性能，为其大规模部署与实际应用扫清了障碍。

模型的高性能源于两项底层技术创新。首先是“全码本随机掩蔽策略”，该技术大幅优化了训练效率，而效率的提升又全面增强了模型的整体表征与泛化能力。

其次，是首次在非自回归TTS模型中成功引入大语言模型进行参数预训练。此举直接大幅提升了合成语音的清晰度与可懂度，有效攻克了合成语音中常见的发音含糊、词句不清等技术痛点。

OmniVoice的战略价值体现在其对广泛语种，尤其是低资源语言的支持上。在24种语言的基准测试中，其语音相似度与可懂度均优于多个对比的商用系统。当测试语种扩展至102种时，其合成语音的可懂度已接近甚至媲美真实人声。

更具突破性的是，对于训练数据少于10小时的稀缺语种，模型依然能生成高质量的合成语音。这极大降低了为小语种构建语音合成服务的资源与技术门槛，推动了语音技术的普惠化。

除了核心的语音克隆与合成，OmniVoice还集成了一系列增强实用性的功能：

自定义音色设计：用户无需提供参考音频，仅通过文本描述音色特征（例如“沉稳的男中音”），即可生成目标音色，并支持合成耳语等特殊发声风格。

带噪音频适配：针对现实场景中参考音频含有背景噪声的问题，模型能鲁棒地提取纯净的音色特征。这意味着即使使用嘈杂环境下的录制音频，也能完成高保真的音色克隆。

丰富的语气表达：合成语音可摆脱单调。通过在输入文本中插入特定控制符，模型能为语音注入笑声、叹息等情感元素，使合成语音更具表现力与自然度。

发音精准纠正：针对中英文常见的多音字、专有名词发音错误，用户可通过简易的发音词典进行干预与纠正，从而确保合成内容的准确性。

OmniVoice的发布，标志着小米在语音AI基础模型领域取得了实质性进展。其“极简架构”、“高效训练”与“广泛语种支持”的技术路径，为语音合成技术的工程化与规模化应用提供了新的范本。未来的关键，在于如何将这种实验室级的性能优势，转化为稳定、易用且覆盖更多场景的产品化体验。

相关阅读