Mistral AI 发布 Voxtral Transcribe 2 系列语音转文字模型，其一延迟不足 0.2s

2026-05-05阅读 0热度 0

Mistral AI模型

Mistral AI发布Voxtral Transcribe 2系列语音转文字模型

昨天深夜刷到消息时，我差点从椅子上跳起来——Mistral AI这次真是放了个大招！他们刚刚推出了Voxtral Transcribe 2系列的两款新模型，包括专门做批量处理的Voxtral Mini Transcribe V2，以及能实时转录的Voxtral Realtime。最让人惊喜的是，后者居然以Apache 2.0许可证开放了权重，这种开放精神在现在的AI圈里真的很难得。

说到Voxtral Realtime，这个4B参数的模型在设计上确实花了不少心思。根据我的经验，实时转录最难啃的骨头就是延迟问题，而他们采用的全新流式架构简直是为解决这个问题量身定制的。想象一下，音频数据就像流水一样，到达的瞬间就能开始转录，把延迟压到了200毫秒以下。这个数字什么概念？差不多就是你眨一下眼的时间，它已经完成了一次转录。

另一边的Voxtral Mini Transcribe V2，在我看来更像是性价比之王。从他们公布的数据来看，准确率确实超过了GPT-4o mini Transcribe和Gemini 2.5 Flash，而且单次请求就能处理长达3小时的录音。这让我想起之前处理长音频时不得不分段处理的痛苦经历，现在这个问题终于有了更好的解决方案。

值得一提的是，这两款模型都支持13种语言，包括我们最关心的中文。价格方面也相当亲民——Voxtral Mini Transcribe V2每分钟只要0.003美元，而Voxtral Realtime是每分钟0.006美元。说实话，这个定价在当前的转录市场里相当有竞争力，看来Mistral AI这次是铁了心要抢占这个细分市场了。

上一篇八部门：运用 AI 等新一代信息技术，构建经典名方、名老中医经验方知识图谱 下一篇优必选无人物流车赤兔 α 在富士康郑州工厂下线，人形机器人 Walker S2 参与生产

免责声明

本网站新闻资讯均来自公开渠道，力求准确但不保证绝对无误，内容观点仅代表作者本人，与本站无关。若涉及侵权，请联系我们处理。本站保留对声明的修改权，最终解释权归本站所有。

Mistral AI 发布 Voxtral Transcribe 2 系列语音转文字模型，其一延迟不足 0.2s

Mistral AI发布Voxtral Transcribe 2系列语音转文字模型

相关阅读

最新教程

最新资讯