Mistral开源Voxtral TTS:多语言流式输出,谷歌翻译登陆iOS

2026-06-15阅读 0热度 0
人工智能

各位开发者,大家好:

欢迎来到 「RTE 开发者日报」,每日一刊,聚焦实时互动领域动态。社区编辑团队从技术、产品、观点、活动等多个维度,筛选出值得关注的内容。以下分享仅代表编辑个人视角,欢迎留言讨论。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.1 Flash Live:音频推理能力提升,ComplexFuncBench 得分达 90.8%

Google 正式推出原生音频模型 Gemini 3.1 Flash Live,核心目标是在实时语音交互中同时压低延迟并提高推理精度。该模型强化了复杂指令的遵循能力,长程对话表现也显著增强。目前已接入 Google AI Studio 和全球 Gemini Live 服务。

  • 复杂函数调用能力跃升:在专门评估多约束多步骤函数调用准确率的 ComplexFuncBench Audio 评测中,得分飙升至 90.8%。
  • 强化长程推理与抗干扰性:在 Scale AI 的 Audio MultiChallenge 中(开启 thinking 模式)得分 36.1%,该测试模拟真实场景中的说话中断、犹豫和长指令序列,考察模型在复杂语音环境下的逻辑一致性。
  • 深度声学特征感知:相比 2.5 Flash Native Audio,新模型对音高(Pitch)和语速(Pace)的辨识力明显提升,关键能力是根据用户的挫败或困惑情绪实时调整话术。
  • 上下文维持时长翻倍:在 Gemini Live 场景中,模型追踪对话脉络的能力是前代的两倍,支持更长时间跨度的思维发散和逻辑闭环。
  • 原生 SynthID 水印集成:所有 3.1 Flash Live 生成的音频均在输出层级嵌入不可感知的 SynthID 水印,确保 AI 内容可检测与合规。

开发者可通过 Google AI Studio 预览版获取 Gemini Live API;企业级功能已集成至 Gemini Enterprise;普通用户可在 Gemini Live 及全球 200 多个国家和地区的 Search Live 中直接体验。

( @Google Blog)

2、Gradium 发布 TTS 延迟评测:基于 DSM 架构实现 258ms TTFA,优于 ElevenLabs 与 OpenAI

Gradium 公开了其语音合成引擎的核心性能指标,重点优化级联语音智能体中的 Time to First Audio (TTFA) 延迟。通过延迟流建模(DSM)架构及多项工程优化,Gradium 在实时语音交互中实现了优于 ElevenLabs 和 OpenAI 的响应速度。

  • 精准 TTFA 测量协议:跳过 WAV 报头(44 字节)、Ogg/Opus 标识页和 MP3 ID3 标签,仅对第一个包含有效编码音频样本的帧计时,规避传统「首字节延迟」无法反映实际起播时间的问题。
  • DSM 架构与 CUDA 优化:采用延迟流建模架构,在维持流式传输的同时支持批处理生成;结合 CUDA graph 优化与可配置的代码本深度,降低推理耗时。
  • 基准测试数据(P50 延迟):同等网络环境下(Paris 节点,~5ms Ping),Gradium 的 P50 TTFA 为 258ms,领先 Eleven Turbo v2.5(304ms)、Eleven Flash v2.5(324ms)及 GPT-4o Mini(420ms)。
  • WebSocket 多路复用:通过持久化 WebSocket 连接及 client_req_id 标识区分会话,规避单次 turn-taking 约 50ms 的 TCP/TLS 建连开销,优化后 P50 延迟可降至 214ms。
  • 端到端部署矩阵:提供 Cloud API、托管实例及支持医疗/金融合规的本地化部署方案。

https://gradium.ai/blog/time-to-first-audio

( @Gradium Blog)

3、Mistral AI 开源首个 TTS 模型 Voxtral TTS:4B 参数量,端到端延迟 70ms,支持零样本跨语言克隆

Mistral AI 推出首款文本转语音模型 Voxtral TTS,主打高自然度、低延迟的多语言语音生成。模型基于流匹配架构,仅需 3 秒音频素材即可实现零样本声音克隆,面向企业级智能体及实时语音交互场景。

  • 混合模型架构:总参数 4B,包括 3.4B Transformer 解码器(基于 Ministral 3B)、390M 流匹配声学 Transformer 和 300M 神经音频编解码器(对称式 Encoder-Decoder)。
  • 极低推理延迟:对于 10 秒音频/500 字符的标准输入,端到端延迟仅 70ms,实时因子约 9.7x;原生支持最长 2 分钟音频生成,API 具备智能交错处理长文本的能力。
  • 自研音频编解码器:采用因果处理,包含 8192 词表语义 VQ 及 36 维、21 层级声学 FSQ 潜空间,输出帧率 12.5Hz。
  • 零样本克隆与跨语言适配:支持 3s–25s 参考音频进行音色克隆,能捕捉语速、节奏及情感细节;具备零样本跨语言能力,例如用法语语音 Prompt 引导生成带自然法语口音的英语语音。
  • 性能对标 ElevenLabs:人工评估显示,在 9 种支持语言(英、法、德、西、荷、葡、意、印、阿)中,其语音自然度超越 ElevenLabs Flash v2.5,整体质量与 ElevenLabs v3 持平。

API 已上线,定价 $0.016 / 1k 字符;带有参考语音的模型权重已在 Hugging Face 开源(CC BY NC 4.0 协议)。

https://mistral.ai/news/voxtral-tts

( @Mistral AI Blog)

4、Cohere 发布 Transcribe ASR 模型:基于 2B Conformer 架构,WER 均值降至 5.42%

Cohere 推出开源语音识别模型 Transcribe。该模型采用 2B 参数规模的 Conformer 架构,目前在 Hugging Face Open ASR 排行榜中位列第一。定位清晰:为企业级智能体提供高精度、高吞吐的语音输入层。

  • SOTA 精度表现:模型在 Hugging Face Open ASR 排行榜的平均词错率为 5.42%,在 AMI(会议场景)、Voxpopuli(多口音场景)等高难度数据集上优于 Whisper Large v3 与 ElevenLabs Scribe v2。
  • Conformer 混合架构:采用 Conformer 编码器提取声学特征,结合轻量化 Transformer 解码器进行 Token 生成;输入端处理 log-Mel 谱图,在 2B 参数规模下优化了推理能效比。
  • 高吞吐实时处理:在 1B+ 参数量级 ASR 模型中处于 Pareto 前沿,具备更高实时因子倍数,支持通用 GPU 及边缘设备低延迟部署。
  • 多语言支持与开源协议:涵盖英语、中文、日语、韩语、法语、德语等 14 种语言;模型权重采用 Apache 2.0 协议开放,允许商用及私有化部署。
  • 企业级全栈集成:已接入 Cohere Model Vault 托管平台,并计划深度集成至智能体编排平台 North,作为企业语音智能的基础设施。

模型权重已在 Hugging Face 开放下载;同时提供免费限速 API 供实验,生产环境可通过 Model Vault 按小时计费接入。

https://huggingface.co/CohereLabs/cohere-transcribe-03-2026

( @Cohere Blog)

02 有亮点的产品

1、Amazon 收购 Fauna Robotics:整合 59 磅双足机器人 Sprout 及前 Meta/Google 研发团队

Amazon 确认收购家庭人形机器人初创公司 Fauna Robotics,目标明确:吸纳其具备 Meta 与 Google 背景的创始团队及 59 磅级双足机器人平台,强化家用及室内移动机器人硬件布局。核心产品是一款重 59 磅(约 26.8kg)的「儿童体型」人形机器人,具备双足行走能力,此前已向特定研发合作伙伴交付。收购完成后,全体团队成员及两位前 Meta/Google 工程师创始人将迁往纽约,直接并入 Amazon 机器人业务板块。这是 Amazon 本月内第二起机器人并购(此前是苏黎世爬楼机器人公司 Rivr),两笔交易表明 Amazon 正在集中获取能处理复杂室内地形(阶梯、障碍物)的移动方案。

( @TechCrunch)

2、谷歌 Google Translate「实时翻译」功能正式登陆 iOS 平台

IT 之家 3 月 27 日消息,谷歌宣布 Google Translate 的「耳机实时翻译」功能正式登陆 iOS 平台。iPhone 用户佩戴耳机时,可实现跨 70 多种语言的实时对话翻译。该功能去年以测试版形式推出,此次覆盖更多国家和地区。用户在应用中进入「实时翻译」模式并选择「倾听」,即可通过耳机接收翻译内容。谷歌表示该功能可适用于跨语言家庭交流、出境旅行等场景,支持超过 70 种语言(包括英语、中文、日语、韩语、法语、德语、西班牙语等),不仅进行语义翻译,还保留说话者的语气、重音和节奏,提升对话自然度,帮助区分不同发言者。随着实时语音翻译能力成熟,手机+耳机组合正成为跨语言沟通的重要入口。苹果已在海外版 iPhone/iPad 配对的 AirPods 中推出类似实时翻译功能,支持同传级翻译。

(@IT 之家)

3、Bland 发布 Norm:通过自然语言指令构建生产级语音智能体,响应延迟低于 400ms

Bland 推出 AI 助手 Norm,目标是将复杂的语音智能体构建过程自动化。用户只需输入自然语言指令,Norm 就能生成具备状态管理、中断处理及 API 调度能力的生产级配置,确保语音交互响应延迟维持在 400ms 以内的工业标准。

  • 全栈架构自动解构:从单一 Prompt 自动生成包含人格设定、对话路径、验证条件及数据提取规则的结构化逻辑。
  • 状态化对话管理优化:针对语音交互的实时性和状态化需求,专门优化了用户中断处理、静默检测及上下文追踪逻辑,而非简单的文本模型转接。
  • 安全分支与 Diff 校验系统:引入 Safe Branching 机制,所有逻辑变更在隔离分支执行;支持原始 Prompt 与更新版本的差异对比,确保变更合并至生产环境前可审计。
  • 智能体模拟压力测试:支持 Agent-on-agent 模拟,通过模拟调用者与目标智能体进行对抗性对话,用于部署前识别逻辑边缘用例。
  • 多源数据与 API 动态集成:支持在对话中途触发外部 API 调用(如集成 Cal.com 进行日程调度),并允许挂载文件或现有知识库作为智能体构建的逻辑基准。

目前 Norm 已在 Bland 平台正式上线,提供 24/7 自助服务,支持技术团队通过自然语言实时修改或启动语音智能体。

( @Bland Blog)

03 有态度的观点

1、Kimi CEO:AI 研发正进入「AI 主导研究」时代,行业标准「已具备被挑战的条件」

月之暗面 CEO 杨植麟在 2026 中关村论坛全体会议上发表主题演讲《开源 AI:加速探索智能上限》,系统阐述了 Kimi 在大模型规模化效率与底层架构创新方面的最新进展。杨植麟将大模型的本质概括为「把更多的能源转化成智能」,强调规模化是过去数年 AI 发展的核心基础。他指出 Kimi 围绕三个维度提升规模化效率:

  • TOKEN 效率:通过更优的网络架构与优化器,从相同数据中提取更多智能;
  • 长上下文能力:Kimi 自研的 Kimi Linear 架构可在更长上下文下获得更低的损失函数,支持更复杂任务的完成;
  • Agent 集群(Agent Swarm):通过并行调度数百个 Agent 协同工作,使任务执行时间不再随复杂度指数增长,从而让此前「完全不可能实现的任务变得有可能」。

杨植麟还援引英伟达 GTC 2026 黄仁勋主题演讲中的幻灯片指出,Kimi 系列开源模型正在成为全球芯片厂商和研究机构的评测基准,「如果要发布一个新的芯片,你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升」。在研发范式的判断上,杨植麟描绘了一条清晰的演进路径:

三年前以互联网天然数据加少量人工标注为主,去年转向大规模强化学习,而今年起将进入「AI 主导研究」阶段——AI 将自主合成任务与训练环境、设计奖励函数,乃至探索新的网络架构。

他认为,过去十年被视为行业标准的技术(如 Adam 优化器、标准 Attention 架构)如今均已具备被挑战的条件。

很多以前认为是标准的东西,现在都是可以被挑战的。

(@APPSO)

阅读更多 Voice Agent 学习笔记:了解最懂 AI 语音的头脑都在思考什么

写在最后:

我们欢迎更多小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

作者提示:个人观点,仅供参考

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策