2024语音生成模型排行榜:阶跃AI斩获国产榜首与全球前三深度测评
5月9日,全球权威的TTS评测榜单Artificial Analysis Speech Arena Leaderboard发布最新排名。来自中国的阶跃星辰StepAudio 2.5 TTS语音生成模型表现突出,成功进入全球前三,成为该榜单上排名最高的中国大模型。
该榜单采用盲测Elo评分机制,评测逻辑与传统实验室指标测试截然不同。其核心是让用户在不知情的情况下,对同一文本生成的两段语音进行听感投票,测试场景覆盖客户服务、知识分享、数字助手及娱乐等真实应用环境。因此,StepAudio 2.5 TTS取得这一排名,其价值超越了单纯的参数提升,直接反映了模型在真实用户听感中展现出的更高自然度与拟人化水平,这为其实际应用落地提供了关键的用户体验背书。
近期,阶跃星辰在语音技术领域密集发布了StepAudio 2.5系列模型。该系列完整覆盖语音交互链路,包含追求高自然度的TTS模型、强调高速高精度识别的ASR模型,以及最新上线的Realtime实时语音交互模型。这款实时模型旨在构建更具“真人感”的AI对话伙伴,其设计重点在于顶级的副语言表达能力、支持千万量级的人设自定义,并在智商与情商维度追求领先,目标是为用户提供有温度、有深度的实时对话体验。
语音模型是驱动下一代人机交互的核心技术。从OpenAI到Google,全球科技巨头均在此领域持续投入。阶跃星辰的语音布局已取得系列成果:其开源推理语音模型Step Audio R1.1在Artificial Analysis Speech Reasoning榜单上已连续四个月位居全球第一;另一开源模型Step Audio EditX作为全球首个迭代式情绪风格语音编辑模型,凭借zero-shot TTS技术,仅需3秒音频即可高保真复刻音色,其效果可媲美甚至超越部分闭源模型的主音色,目前位列同榜单开源榜全球第二。
技术的市场竞争力最终由落地场景验证。在商业化应用层面,阶跃语音模型已深入多个关键领域。在智能汽车赛道,其率先实现了端到端语音大模型在吉利银河M9上的量产搭载;同时,也为整车智能体超级Eva提供了核心语音交互能力,并随极氪8X首发上市。这些成功案例标志着其技术优势正高效转化为切实的产品力与市场占有率。
