Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型
Fun-ASR1.5是什么
阿里通义实验室推出的Fun-ASR1.5,是一款旨在解决复杂现实语音识别难题的端到端大模型。它在一个统一的模型中整合了对30种语言的识别能力,其核心突破在于对中文复杂语言生态的深度支持:不仅完整覆盖七大方言体系及二十余种地方口音,更对古诗词诵读进行了专项优化。该模型基于MoE架构,实现了无需预设的自动语种与方言切换,结合智能标点预测与文本归一化等后处理技术,显著提升了从原始语音到规整文本的可用性与准确性。
Fun-ASR1.5的主要功能
- 多语言识别:单一模型支持包括中、英、日、韩、法、德、西、葡、俄、阿拉伯语在内的30种语言识别,简化了多语种应用的部署架构。
- 自动语种切换:基于MoE架构,模型可自动检测并处理同一段语音中的多语言混合内容(Code-Switching),无需用户预先指定语种标签。
- 方言识别:深度支持七大方言体系,并对上海话、粤语、四川话等15种高使用频率的方言进行了重点优化,提升实际场景识别率。
- 古诗词识别:通过构建专项古诗词语音-文本对齐语料库,实现了对文言文及古诗词诵读的高精度转写,支持文化传承类应用。
- 智能标点预测:依据上下文语义,自动预测并插入逗号、句号、问号等标点符号,使转写文本更符合阅读习惯。
- 文本归一化:自动将语音中的数字、日期、金额、电话号码等口语化表达,转换为标准、统一的书面格式,减少后期人工校对工作量。
Fun-ASR1.5的技术原理
- MoE架构:采用混合专家模型架构。模型内部包含多个“语言专家”子网络,系统根据输入语音动态激活最相关的专家进行处理,从而实现高效、精准的多语言与方言识别。
- 分级分阶段训练:采用分阶段、分数据精度的训练策略,逐步引入更复杂、更贴近真实场景的语音数据,有效提升了模型的鲁棒性和泛化能力。
- 方言数据驱动:基于数十万小时的真实方言语音数据进行训练,使得模型在方言识别任务上的平均字错误率(CER)相比前代版本降低了56.2%。
- 古诗词语料库:为攻克古诗词韵律和生僻字难题,专门构建了涵盖《诗经》《楚辞》及唐宋诗词等经典作品的真人诵读语料库,为高精度识别提供了数据基础。
如何使用Fun-ASR1.5
- 阿里云百炼平台:开发者可通过阿里云百炼平台,在模型体验中心的语音板块直接调用Fun-ASR1.5的API接口,将其集成到自有产品或服务中。
- 魔搭社区:如需快速体验模型效果,可访问 https://modelscope.cn/studios/iic/FunAudio-ASR ,在魔搭社区提供的在线环境中进行功能测试。
Fun-ASR1.5的关键信息和使用要求
- 产品定位:端到端语音识别大模型。
- 支持语言:覆盖欧洲、东亚、东南亚、南亚及中东地区的30种主流语言。
- 方言覆盖:支持七大方言体系,其中15种高需求方言获得专项优化。
- 古诗词准确率:在内部专项评测集上,字符级转写准确率达到97%。
- 使用方式:主要提供API接口调用,亦可通过魔搭社区进行在线体验。
- 无需预设:处理多语言混合语音时,用户无需预先设定语种,模型自动完成识别与切换。
Fun-ASR1.5的核心优势
- 单模型多语言:一个模型处理30种语言,极大降低了企业在多语种场景下的模型部署、维护和算力成本。
- 方言识别领先:依托海量方言数据训练,字错误率显著降低,能更准确地转写各类方言,满足本地化需求。
- 自动Code-Switching:无缝处理对话中的语言混合现象,无需任何前置配置,特别适合国际化团队沟通、跨国会议等场景。
- 文化场景专项优化:针对古诗词诵读的专项训练,实现了97%的字符准确率,为教育、文化数字化等领域提供了实用的技术工具。
- 后处理智能化:集成的自动标点与文本归一化功能,可直接产出规整文本,大幅降低会议记录、媒体采访、庭审笔录等场景的后期编辑成本。
Fun-ASR1.5的同类竞品对比
| 维度 | Fun-ASR1.5 | Seed-ASR | Tencent-ASR |
|---|---|---|---|
| 语言覆盖 | 30种语言,单模型覆盖 | 多语言支持 | 多语言支持 |
| 方言支持 | 七大方言体系,15种重点优化,CER降56.2% | 基础支持 | 基础支持 |
| Code-Switching | 无需预设标签,自动识别切换 | 支持 | 支持 |
| 古诗词识别 | 专项优化,97%字符准确率 | 未明确 | 未明确 |
| 智能后处理 | 自动标点+文本归一化(数字/日期/金额/电话) | 基础标点能力 | 基础标点能力 |
| 架构特点 | MoE混合专家架构 | 未公开 | 未公开 |
| 开放体验 | 阿里云百炼API + 魔搭社区 | 火山引擎 | 腾讯云 |
Fun-ASR1.5的应用场景
- 跨国会议:实时转写多语言混合的会议讨论,自动识别并切换语种,提升跨国协作的沟通效率和记录准确性。
- 智能音箱:赋能智能家居与车载设备,精准识别不同用户的方言指令,提升语音交互的普适性和用户体验。
- 在线教育:特别适用于国学、语言学习类应用,高精度转写古诗词诵读内容,辅助教学与学习效果评估。
- 新闻采访:自动为采访录音转写文本添加标点、规整数字日期,显著缩短内容从录音到文稿的产出周期。