海螺语音实测对比:与ElevenLabs掰手腕的AI语音实力测评

2026-05-16阅读 0热度 0
MiniMax

设想一个典型的商务情境:你负责的香港客户订单在交付阶段出现延误,现在需要通过线上会议向对方解释情况。如果不提前说明,下面这段夹杂粤语和英语的对话录音,很容易被误认为是真实的商务沟通或某部TVB剧集的片段。

然而,这实际上是AI生成的语音,由海螺AI的语音合成技术驱动。

今年1月,继开源基础语言模型MiniMax-Text-01与视觉多模态模型MiniMax-VL-01后,MiniMax对其语音大模型进行了重要升级,推出T2A-01系列并集成于海螺AI平台,设立了独立的“海螺语音”模块。相较于前代,T2A-01系列在语音生成速度和稳定性上均有显著优化。其合成语音不仅具备清晰的音质与自然的韵律,还能精准传达多种情感,支持包括中文、粤语、英语在内的17种语言,并提供上百种预制音色供用户选择。

开篇的示例清晰表明,海螺语音能够准确解析并流畅输出混合语种的文本,同时以高度拟人化、富有情感的语气进行表达。这代表了其无需反复调试即可实现的稳定产出质量。这种“稳定的高水平输出”在实际应用中意味着什么?我们通过一项对比测试来具体感知。

测试选择了高难度绕口令《施氏食狮史》,全文由大量同音字构成,是检验语音模型在复杂同音字处理中清晰度与理解力的有效工具。

首先聆听ChatTTS的生成结果:整体上,字词间的区分度不足,产生了明显的粘连感,听起来近似于“石狮石狮石狮……”的循环,几乎无法辨识具体语义。

接下来是ElevenLabs的版本:模型可能出现了“幻觉”,生成的声音中带有类似“呱呱”的底噪,即使调整语速也难以消除。不过,相比ChatTTS,其质量已有明显改善,字词能够被基本区分,并且包含了语调与情绪。

最后是MiniMax海螺语音的输出:首先,整体听感更为自然,既避免了ChatTTS的全程单调问题,也消除了ElevenLabs版本中显著的“呱”声干扰。当然,它并非完美,部分词语的断句仍有优化空间。但在超过80%的短句处理上,其表现令人印象深刻——音调的起伏、词语的轻重、节奏的掌控以及断句的意图都能被清晰捕捉。这背后体现的,正是语音模型对文本的深层语义理解能力。在众多以生产力为核心的AI聊天机器人中,海螺AI是为数不多为用户提供独立语音模型模块,并支持自定义音频生成的产品。

一、能与ElevenLabs抗衡的多语言合成能力

在国内语音模型领域,无论是大型科技公司还是初创团队,常将ElevenLabs视为重要对标。ElevenLabs凭借其高质量的语音合成、广泛的多语言支持、个性化语音生成以及强大的API接口,已成为行业标杆之一。在T2A-01模型的支持下,海螺AI生成的语音在相似度、错误率和听感等多项核心评测中,表现已可媲美甚至部分超越同类产品,具备了与ElevenLabs正面竞争的实力。

MiniMax团队采用了与Seed-TTS论文一致的评测集和工具,来评估海螺语音的字错率和声音相似度。数据显示,海螺语音在中文上的字错率和相似度表现最优;在英文上,其字错率和相似度已极为接近真人录音(Human)的水平。

此外,团队基于真实用户场景构建了多语种评测集,对17种语言进行了客观评估。每种语言选取2-10个音色,生成超过50条音频进行测试。结果表明,海螺语音在声音相似度上整体领先,综合能力与ElevenLabs旗鼓相当。尤其在中文、粤语、英语、日语、韩语和阿拉伯语等多个关键语种上,其在相似度和正确率方面的优势更为突出。

T2A-01的实际多语种表现如何?我们尝试让其使用“嚣张小姐”音色,以开心的情绪和正常语速,用九种语言说出杨幂的经典广告词:“你没事吧?”(涵盖中文、英语、日语、法语、德语、西班牙语、俄语、韩语、意大利语)。

必须承认,第一句中文的生成效果颇具神韵。后续的小语种发音清晰,也能从语流语调中感知到欢快情绪。再看另一个示例视频,其配音采用德语,并叠加了“空旷回声”音效,最终效果完全脱离了“AI味”,宛如一位女政客在国会现场的激昂演说。

二、精准情绪控制与丰富音色库的强力组合

对机器而言,准确表达情绪一直是技术难点。语音模型的情感训练依赖于大量标注数据,但这些数据本身可能存在偏差——某些情感被过度标注,而另一些则被忽略,导致模型在处理稀缺情感时准确性不足。即便模型能够识别情感,其生成的情感表达也可能显得生硬或不连贯,难以模拟人类情感的微妙层次与动态变化。

为了让合成声音更加生动、情绪表达更加精准,MiniMax对超过千万小时的高质量音频数据进行了加工与训练,最终实现了高保真且情感饱满的合成效果。我们可以通过古诗朗读来初步体验:选取“惟觉时之枕席,失向来之烟霞。世间行乐亦如此,古来万事东流水”这段文本。由于粤语更接近古汉语音韵,用它朗诵古诗往往更具古风,对情感表达的要求也高于白话文。因此,我们输入的提示词是这段诗的粤语版本。

市面上多数语音模型都能对此进行稳定输出,但MiniMax的目标不止于此。最新发布的海螺语音具备深度情感理解能力,能够智能识别并复现语音中的细微情感差异。用户既可以让系统自动检测文本情绪,也可以直接指定“开心”、“难过”、“生气”、“害怕”、“厌恶”、“惊讶”或“中性”等具体情绪,从而生成能精准捕捉人类复杂情感状态的语音。

在日常对话或商业场景中,情绪往往是动态且多层次的,这正是以往语音大模型难以突破的瓶颈。海螺语音实现了技术跨越,支持在同一段语音中进行分段情绪控制。例如,同样是表达一位老人“害怕”的情绪,若想进一步展现从“害怕”到“难过”再到“开心”的完整情绪转变,海螺AI给出了如下演绎:

从老妇人发现陌生老头冲自己喊叫时的紧张、惊慌、害怕,到认出对方竟是失散多年、境遇潦倒的堂哥时的声音低沉与难过,再到重逢时刻音调明显上扬的欣喜,海螺AI不仅精准理解了输入文本,其输出的声音也能做到层次分明,实现了精细化的情绪控制。

除了精准的情绪控制,海螺语音的另一大优势在于其庞大的音色库。平台预置了超过300种涵盖不同语种的音色,用户可按语言、口音、性别和年龄进行筛选。音色风格多样,涵盖不羁、诙谐、慈祥等多种类型,适用于有声书、ASMR耳语、新闻播报等丰富场景。

在平台预设音色的基础上,用户还可以根据个人偏好,对声音的“低沉/明亮”、“力量感/柔和”、“磁性/清脆”等细节进行微调,同时也能添加如“空旷回声”、“礼堂广播”、“电话失真”等场景化音效。

例如,选择“花甲奶奶”这一音色后,用户可以通过调试台对语速、声调和音量进行精细调节。

将花甲奶奶的语速和声调调低,情绪指定为“害怕”,就能获得一个非常适合讲述恐怖故事的、氛围感极强的说书人声音。

87版《红楼梦》中林黛玉的形象深入人心,这部文学经典在香港也有多个改编版本。如果为87版黛玉的经典台词“花谢花飞花满天,红消香断有谁怜”制作粤语配音,效果会如何?一起来感受一下由海螺语音完成的这个片段。可以切实体会到,海螺语音在情绪与音色控制方面的综合实力。将两者结合,几乎能按需生成理想的语音效果,这为影视作品引进、配音等潜在需求提供了强大支持。

三、面向AGI,坚定推进多模态战略

在AI公司开发多模态能力的常规序列中,音频处理往往难以优先于文字、图片、视频,这给行业造成了“音频模型相对滞后”的观感。但事实上,语音大模型的开发难度与技术门槛极高。数据的稀缺性是制约模型能力的关键,从海量数据中剥离纯净语音,再到对多语言、多口音、多情绪的语音进行精准标注,都需要巨大的成本投入。因此,在多模态公司的技术布局中,语音模型的开发通常需要在积累足够的技术底蕴和资源后才稳步推进。

近半年来,国内多家大厂相继发布了语音模型。去年7月,阿里开源了语音大模型项目FunAudioLLM,包含SenseVoice(语音识别)和CosyVoice(语音生成)两个模型;今年1月,字节跳动上线了实时语音大模型,并基于此在全量豆包App中推出了实时语音通话功能。半年内,诸多大厂的跟进与取得的成果,正预示着语音大模型蕴藏着巨大的发展潜力。

而在AI创业公司中,鲜有在语音能力上特别突出的,MiniMax是其中之一,甚至其对语音大模型的投入时间早于许多大厂。2023年11月,MiniMax就发布了初代语音大模型abab-speech系列,支持多角色音频生成、文本角色分类等功能。发布至今,其语音模型已服务阅文起点有声书、高途教育等近万家企业用户与个人开发者。

2024年10月,MiniMax的Realtime API在RTE 2024实时互联网大会上亮相,成为国内首个实时语音API。进入2025年,MiniMax依然保持着快速的迭代节奏。在本次发布升级版语音模型之前,公司已接连发布了视频模型S2V-01,并在Github开源了新一代MiniMax-01模型,与DeepSeek等同行共同向传统的Transformer架构与高昂训练成本发起挑战。MiniMax创始人曾表示:“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进AI Agent时代的到来。开源一方面可以倒逼我们提高算法创新效率,另一方面也能打造全球技术品牌。”

从文本、视频到语音能力的全面更新,可以说,MiniMax和海螺AI确实能带来惊喜——这也是其对多模态模型长期投入、持续发力的必然结果。其战略核心始终是面向通用人工智能(AGI)进行投入,而打造强大的多模态能力,正是现阶段最明晰的实现路径。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策