阿里语音大模型登顶Speech Arena国产第一全球第五

2026-06-01阅读 0热度 0

Speech

5月28日，国际权威AI评测平台Artificial Analysis发布最新语音排行榜（Speech Arena）。阿里巴巴旗下语音大模型Fun-Realtime-TTS-Preview以Elo评分1190分斩获全球第五名、国产模型第一名。更值得关注的是，在ASR语音转文字、Chat端到端语音理解对话、TTS文字转语音三大核心赛道中，该模型均拿下全国第一，实现了语音交互领域的“大满贯”。

阿里语音大模型

语音大模型的能力可拆解为三大层级：语音识别（ASR，听得准）、语音合成（TTS，说得好）、语音对话（Chat，聊得棒）。三者既独立运作又相互协同，共同构成完整的语音交互闭环。此前，阿里语音大模型家族的另外两款——Fun-Realtime-ASR与Fun-Realtime-AudioChat，已先后在同一平台登顶，在听准、听懂、会聊三项指标上均拿下全球第一。整体表现甚至超越了GPT-Realtime-2等国际顶尖语音模型。

从落地应用来看，阿里语音大模型家族已深度融入千问App、高德地图、钉钉等国民级应用，提供实时语音转文字、智能导航交互、会议纪要自动生成等核心服务。此外，该模型还开放了企业级定制接口，可灵活适配金融、医疗等行业场景。值得一提的是，阿里语音团队开源的FunASR、CosyVoice等多款模型，在GitHub上累计获得数万星标，深受全球开发者关注与好评。

阿里语音大模型登顶Speech Arena国产第一全球第五

相关阅读

最新教程

最新资讯