Mistral AI 发布 Voxtral Transcribe 2 系列语音转文字模型,其一延迟不足 0.2s
Mistral AI发布Voxtral Transcribe 2系列语音转文字模型
昨天深夜刷到消息时,我差点从椅子上跳起来——Mistral AI这次真是放了个大招!他们刚刚推出了Voxtral Transcribe 2系列的两款新模型,包括专门做批量处理的Voxtral Mini Transcribe V2,以及能实时转录的Voxtral Realtime。最让人惊喜的是,后者居然以Apache 2.0许可证开放了权重,这种开放精神在现在的AI圈里真的很难得。
说到Voxtral Realtime,这个4B参数的模型在设计上确实花了不少心思。根据我的经验,实时转录最难啃的骨头就是延迟问题,而他们采用的全新流式架构简直是为解决这个问题量身定制的。想象一下,音频数据就像流水一样,到达的瞬间就能开始转录,把延迟压到了200毫秒以下。这个数字什么概念?差不多就是你眨一下眼的时间,它已经完成了一次转录。
另一边的Voxtral Mini Transcribe V2,在我看来更像是性价比之王。从他们公布的数据来看,准确率确实超过了GPT-4o mini Transcribe和Gemini 2.5 Flash,而且单次请求就能处理长达3小时的录音。这让我想起之前处理长音频时不得不分段处理的痛苦经历,现在这个问题终于有了更好的解决方案。
值得一提的是,这两款模型都支持13种语言,包括我们最关心的中文。价格方面也相当亲民——Voxtral Mini Transcribe V2每分钟只要0.003美元,而Voxtral Realtime是每分钟0.006美元。说实话,这个定价在当前的转录市场里相当有竞争力,看来Mistral AI这次是铁了心要抢占这个细分市场了。