MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符
MiniMax发布T2A-01语音模型,海螺语音AI正式上线
就在昨天,AI领域又迎来一个重磅更新。MiniMax正式发布了全新升级的T2A-01系列语音模型,并借此在全球范围同步推出了旗下新产品——海螺语音。这意味着一款新的语音生成工具,正式加入了市场角逐。
那么,这个新模型到底能带来什么?简单来说,用户现在只需要在海螺AI里输入文字,就能直接生成听起来非常自然、流畅的“人声”。有意思的是,它单次能“吃下”的文本量相当惊人,最长支持高达10000字符的输入。这无疑为生成长篇内容,提供了极大的便利。
更关键的是,生成过程并非“一锤子买卖”。用户能够根据自己的具体需求,对输出的声音进行精细调节。情绪是高昂还是低沉?语速是急促还是舒缓?音调是高是低?甚至,你还能调整最终声音的“质感”。这种高度可控性,让它能轻松应对各种复杂场景下的定制化需求。
支持17种语言,中英文表现突出
在全球化应用的背景下,语言支持度是硬指标。据观察,海螺语音在这方面准备充分,目前已支持包括中文、粤语、英语、日语、韩语、阿拉伯语、葡萄牙语、西班牙语、法语、意大利语、印尼语、荷兰语、俄语、德语、越南语、土耳其语、乌克兰语在内的17种语言。这个覆盖范围,已经能满足绝大部分主流市场的需求。
当然,支持语种多是一个方面,合成质量好不好,还得看硬数据。官方披露了其评测结果:他们采用了与Seed-TTS论文相同的评测集和工具,主要衡量字错率(WER,数值越低越好)和相似度(SIM,数值越高越好)。结果显示,海螺语音在中文合成上的字错率和相似度都达到了最佳水准;而在英文合成上,其字错率和相似度指标,已经非常接近于真实的“Human”录音。这个数据表现,可以说颇具竞争力。
情感化与多样化:不止于“听得清”
如今的语音合成技术,早就不再满足于“把字读对”。海螺语音被强调的一个能力,就是情感理解。它能够识别文本中的细微情感线索,并在生成的语音中复现这些差别。这样一来,声音就不再是千篇一律的电子音,而是有了“温度”和“情绪”,听起来更加鲜活、精准。
此外,为了满足不同场景的听觉需求,产品内置了一个庞大的音色库。按照语言、口音、性别和年龄等维度分类,预置了超过300种不同音色可供选择。从桀骜不驯到幽默诙谐,从慈祥温和到冷静专业,风格跨度极大。无论是制作有声读物、尝试ASMR耳语,还是合成新闻播报,都能找到相对匹配的声音选项。这种“百变”特性,大大扩展了其应用想象力。
