菜鸟AI AI提示词 · 教程 · 资讯

首页>产业资讯

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

2026-04-27阅读 587热度 587

ai工具

Fun-ASR1.5是什么

阿里通义实验室推出的Fun-ASR1.5，是一款旨在解决复杂现实语音识别难题的端到端大模型。它在一个统一的模型中整合了对30种语言的识别能力，其核心突破在于对中文复杂语言生态的深度支持：不仅完整覆盖七大方言体系及二十余种地方口音，更对古诗词诵读进行了专项优化。该模型基于MoE架构，实现了无需预设的自动语种与方言切换，结合智能标点预测与文本归一化等后处理技术，显著提升了从原始语音到规整文本的可用性与准确性。

Fun-ASR1.5 – 阿里通义推出的端到端语音识别模型

Fun-ASR1.5的主要功能

多语言识别：单一模型支持包括中、英、日、韩、法、德、西、葡、俄、阿拉伯语在内的30种语言识别，简化了多语种应用的部署架构。
自动语种切换：基于MoE架构，模型可自动检测并处理同一段语音中的多语言混合内容（Code-Switching），无需用户预先指定语种标签。
方言识别：深度支持七大方言体系，并对上海话、粤语、四川话等15种高使用频率的方言进行了重点优化，提升实际场景识别率。
古诗词识别：通过构建专项古诗词语音-文本对齐语料库，实现了对文言文及古诗词诵读的高精度转写，支持文化传承类应用。
智能标点预测：依据上下文语义，自动预测并插入逗号、句号、问号等标点符号，使转写文本更符合阅读习惯。
文本归一化：自动将语音中的数字、日期、金额、电话号码等口语化表达，转换为标准、统一的书面格式，减少后期人工校对工作量。

Fun-ASR1.5的技术原理

MoE架构：采用混合专家模型架构。模型内部包含多个“语言专家”子网络，系统根据输入语音动态激活最相关的专家进行处理，从而实现高效、精准的多语言与方言识别。
分级分阶段训练：采用分阶段、分数据精度的训练策略，逐步引入更复杂、更贴近真实场景的语音数据，有效提升了模型的鲁棒性和泛化能力。
方言数据驱动：基于数十万小时的真实方言语音数据进行训练，使得模型在方言识别任务上的平均字错误率（CER）相比前代版本降低了56.2%。
古诗词语料库：为攻克古诗词韵律和生僻字难题，专门构建了涵盖《诗经》《楚辞》及唐宋诗词等经典作品的真人诵读语料库，为高精度识别提供了数据基础。

如何使用Fun-ASR1.5

阿里云百炼平台：开发者可通过阿里云百炼平台，在模型体验中心的语音板块直接调用Fun-ASR1.5的API接口，将其集成到自有产品或服务中。
魔搭社区：如需快速体验模型效果，可访问 https://modelscope.cn/studios/iic/FunAudio-ASR ，在魔搭社区提供的在线环境中进行功能测试。

Fun-ASR1.5的关键信息和使用要求

产品定位：端到端语音识别大模型。
支持语言：覆盖欧洲、东亚、东南亚、南亚及中东地区的30种主流语言。
方言覆盖：支持七大方言体系，其中15种高需求方言获得专项优化。
古诗词准确率：在内部专项评测集上，字符级转写准确率达到97%。
使用方式：主要提供API接口调用，亦可通过魔搭社区进行在线体验。
无需预设：处理多语言混合语音时，用户无需预先设定语种，模型自动完成识别与切换。

Fun-ASR1.5的核心优势

单模型多语言：一个模型处理30种语言，极大降低了企业在多语种场景下的模型部署、维护和算力成本。
方言识别领先：依托海量方言数据训练，字错误率显著降低，能更准确地转写各类方言，满足本地化需求。
自动Code-Switching：无缝处理对话中的语言混合现象，无需任何前置配置，特别适合国际化团队沟通、跨国会议等场景。
文化场景专项优化：针对古诗词诵读的专项训练，实现了97%的字符准确率，为教育、文化数字化等领域提供了实用的技术工具。
后处理智能化：集成的自动标点与文本归一化功能，可直接产出规整文本，大幅降低会议记录、媒体采访、庭审笔录等场景的后期编辑成本。

Fun-ASR1.5的同类竞品对比

维度	Fun-ASR1.5	Seed-ASR	Tencent-ASR
语言覆盖	30种语言，单模型覆盖	多语言支持	多语言支持
方言支持	七大方言体系，15种重点优化，CER降56.2%	基础支持	基础支持
Code-Switching	无需预设标签，自动识别切换	支持	支持
古诗词识别	专项优化，97%字符准确率	未明确	未明确
智能后处理	自动标点+文本归一化（数字/日期/金额/电话）	基础标点能力	基础标点能力
架构特点	MoE混合专家架构	未公开	未公开
开放体验	阿里云百炼API + 魔搭社区	火山引擎	腾讯云

Fun-ASR1.5的应用场景

跨国会议：实时转写多语言混合的会议讨论，自动识别并切换语种，提升跨国协作的沟通效率和记录准确性。
智能音箱：赋能智能家居与车载设备，精准识别不同用户的方言指令，提升语音交互的普适性和用户体验。
在线教育：特别适用于国学、语言学习类应用，高精度转写古诗词诵读内容，辅助教学与学习效果评估。
新闻采访：自动为采访录音转写文本添加标点、规整数字日期，显著缩短内容从录音到文稿的产出周期。

上一篇离散制造业智能自动化全场景落地解决方案详解 下一篇马斯克暴走官宣：Grok 5就是AGI，五月连轰两代万亿怪兽，OpenAI慌了

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

相关阅读

最新教程

Stable Diffusion WebUI整合包下载与模型放置全指南 HunyuanVideo安装失败排查指南：依赖、显存与工作流问题解决 Runway官网入口与使用指南：下载注册及常见问题全解析 Notion AI新手入门指南：从下载到模板设置的完整教程 GitHub Copilot安装指南：JetBrains插件市场一键配置与激活全流程 2026年ComfyUI安装与配置终极指南：从零部署到高效出图全流程解析 CogVideoX安装包获取与部署指南：从下载到剪辑机配置的完整教程 2024图像识别实战精选：基于EasyDL的完整案例解析与测评

最新资讯

Claude Code之父Boris：8个高效编程技巧助你进阶高手 Cube Sandbox部署问题全解析与高效解决方案 AI文件整理工具测评：论文PDF与发票扫描件效率对比 SpringBoot AI Agent 开源框架排行榜TOP3 企业语音转写选型指南：5大主流方案技术对比语音转写工具选型：4类主流方案场景对比语音提取文字工具实测排行榜：4款主流产品全场景选型指南 WordPress中文URL完美支持设置指南

欢迎回来 登录或注册后，可保存提示词和历史记录

用户

密码

登录后可同步收藏、历史记录和常用模板

用户

设置密码

确认密码

注册即表示同意服务条款与隐私政策