时间:26-04-07
AI语音转录的“天花板”,又被刷新了。就在昨天(4月2日),微软正式发布了其自研AI模型家族的新成员——MAI-Transcribe-1。这款模型一亮相就带着一项惊人的头衔:凭借在权威基准测试中平均3.9%的字错误率,它被宣称为目前全球最精准的语音转录模型。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这个“全球最精准”的称号,可不是空口无凭。其成绩来源于行业公认的FLEURS基准测试,该测试覆盖了中文、英文、法语等全球25种主要语言。正是在这个高难度的多语言“考场”上,MAI-Transcribe-1交出了平均字错误率仅3.9%的答卷。这意味着什么?简单来说,其转录的准确度已经达到了一个令人惊叹的新高度。
如果拆开来看,它的表现更具冲击力。在测试涵盖的25种语言中,MAI-Transcribe-1在11种核心语言上直接登顶榜首。而在其余14种语言的对比中,它成功击败了行业强劲的对手——OpenAI的Whisper-large-v3。更值得一提的是,在与谷歌最新发布的Gemini 3.1 Flash模型的较量中,它在其中11种语言上也实现了超越。微软特别强调,该模型最大的优势之一,是能在所有支持的语言间保持高度一致且稳定的准确度,这无疑让它能轻松应对全球化、多样化的语音转文字场景。
当然,对于企业级应用而言,光有精准度还不够,速度和成本同样是关键决策因素。而MAI-Transcribe-1在这两方面也拿出了亮眼的数据。在转录速度上,其批量处理能力达到了现有Microsoft Azure Fast服务的2.5倍,效率提升显著。在成本定价方面,它更是打出了“性价比最优”的招牌,每小时转录成本仅为0.36美元。在大型云厂商的竞品中,这个价格确实颇具竞争力。
目前,这款模型已经在Microsoft Foundry平台面向开发者开放使用。不过,需要留意的是,其首发版本暂时还未包含实时转录、说话人分离和偏见调整这几项高级功能。但根据微软的规划,这些能力将在后续的更新中陆续提供。可以预见,随着功能的不断完善,语音转录市场的竞争格局,恐怕又要迎来新的变数了。