Mistral开源Voxtral TTS：多语言流式输出，谷歌翻译登陆iOS

2026-06-15阅读 0热度 0

人工智能

各位开发者，大家好：

欢迎来到 「RTE 开发者日报」，每日一刊，聚焦实时互动领域动态。社区编辑团队从技术、产品、观点、活动等多个维度，筛选出值得关注的内容。以下分享仅代表编辑个人视角，欢迎留言讨论。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、Google 发布 Gemini 3.1 Flash Live：音频推理能力提升，ComplexFuncBench 得分达 90.8%

Google 正式推出原生音频模型 Gemini 3.1 Flash Live，核心目标是在实时语音交互中同时压低延迟并提高推理精度。该模型强化了复杂指令的遵循能力，长程对话表现也显著增强。目前已接入 Google AI Studio 和全球 Gemini Live 服务。

复杂函数调用能力跃升：在专门评估多约束多步骤函数调用准确率的 ComplexFuncBench Audio 评测中，得分飙升至 90.8%。
强化长程推理与抗干扰性：在 Scale AI 的 Audio MultiChallenge 中（开启 thinking 模式）得分 36.1%，该测试模拟真实场景中的说话中断、犹豫和长指令序列，考察模型在复杂语音环境下的逻辑一致性。
深度声学特征感知：相比 2.5 Flash Native Audio，新模型对音高（Pitch）和语速（Pace）的辨识力明显提升，关键能力是根据用户的挫败或困惑情绪实时调整话术。
上下文维持时长翻倍：在 Gemini Live 场景中，模型追踪对话脉络的能力是前代的两倍，支持更长时间跨度的思维发散和逻辑闭环。
原生 SynthID 水印集成：所有 3.1 Flash Live 生成的音频均在输出层级嵌入不可感知的 SynthID 水印，确保 AI 内容可检测与合规。

开发者可通过 Google AI Studio 预览版获取 Gemini Live API；企业级功能已集成至 Gemini Enterprise；普通用户可在 Gemini Live 及全球 200 多个国家和地区的 Search Live 中直接体验。

( @Google Blog)

2、Gradium 发布 TTS 延迟评测：基于 DSM 架构实现 258ms TTFA，优于 ElevenLabs 与 OpenAI

Gradium 公开了其语音合成引擎的核心性能指标，重点优化级联语音智能体中的 Time to First Audio （TTFA）延迟。通过延迟流建模（DSM）架构及多项工程优化，Gradium 在实时语音交互中实现了优于 ElevenLabs 和 OpenAI 的响应速度。

精准 TTFA 测量协议：跳过 WAV 报头（44 字节）、Ogg/Opus 标识页和 MP3 ID3 标签，仅对第一个包含有效编码音频样本的帧计时，规避传统「首字节延迟」无法反映实际起播时间的问题。
DSM 架构与 CUDA 优化：采用延迟流建模架构，在维持流式传输的同时支持批处理生成；结合 CUDA graph 优化与可配置的代码本深度，降低推理耗时。
基准测试数据（P50 延迟）：同等网络环境下（Paris 节点，～5ms Ping），Gradium 的 P50 TTFA 为 258ms，领先 Eleven Turbo v2.5（304ms）、Eleven Flash v2.5（324ms）及 GPT-4o Mini（420ms）。
WebSocket 多路复用：通过持久化 WebSocket 连接及 client_req_id 标识区分会话，规避单次 turn-taking 约 50ms 的 TCP/TLS 建连开销，优化后 P50 延迟可降至 214ms。
端到端部署矩阵：提供 Cloud API、托管实例及支持医疗/金融合规的本地化部署方案。

https://gradium.ai/blog/time-to-first-audio

( @Gradium Blog)

3、Mistral AI 开源首个 TTS 模型 Voxtral TTS：4B 参数量，端到端延迟 70ms，支持零样本跨语言克隆

Mistral AI 推出首款文本转语音模型 Voxtral TTS，主打高自然度、低延迟的多语言语音生成。模型基于流匹配架构，仅需 3 秒音频素材即可实现零样本声音克隆，面向企业级智能体及实时语音交互场景。

混合模型架构：总参数 4B，包括 3.4B Transformer 解码器（基于 Ministral 3B）、390M 流匹配声学 Transformer 和 300M 神经音频编解码器（对称式 Encoder-Decoder）。
极低推理延迟：对于 10 秒音频/500 字符的标准输入，端到端延迟仅 70ms，实时因子约 9.7x；原生支持最长 2 分钟音频生成，API 具备智能交错处理长文本的能力。
自研音频编解码器：采用因果处理，包含 8192 词表语义 VQ 及 36 维、21 层级声学 FSQ 潜空间，输出帧率 12.5Hz。
零样本克隆与跨语言适配：支持 3s–25s 参考音频进行音色克隆，能捕捉语速、节奏及情感细节；具备零样本跨语言能力，例如用法语语音 Prompt 引导生成带自然法语口音的英语语音。
性能对标 ElevenLabs：人工评估显示，在 9 种支持语言（英、法、德、西、荷、葡、意、印、阿）中，其语音自然度超越 ElevenLabs Flash v2.5，整体质量与 ElevenLabs v3 持平。

API 已上线，定价 $0.016 / 1k 字符；带有参考语音的模型权重已在 Hugging Face 开源（CC BY NC 4.0 协议）。

https://mistral.ai/news/voxtral-tts

( @Mistral AI Blog)

4、Cohere 发布 Transcribe ASR 模型：基于 2B Conformer 架构，WER 均值降至 5.42%

Cohere 推出开源语音识别模型 Transcribe。该模型采用 2B 参数规模的 Conformer 架构，目前在 Hugging Face Open ASR 排行榜中位列第一。定位清晰：为企业级智能体提供高精度、高吞吐的语音输入层。

SOTA 精度表现：模型在 Hugging Face Open ASR 排行榜的平均词错率为 5.42%，在 AMI（会议场景）、Voxpopuli（多口音场景）等高难度数据集上优于 Whisper Large v3 与 ElevenLabs Scribe v2。
Conformer 混合架构：采用 Conformer 编码器提取声学特征，结合轻量化 Transformer 解码器进行 Token 生成；输入端处理 log-Mel 谱图，在 2B 参数规模下优化了推理能效比。
高吞吐实时处理：在 1B+ 参数量级 ASR 模型中处于 Pareto 前沿，具备更高实时因子倍数，支持通用 GPU 及边缘设备低延迟部署。
多语言支持与开源协议：涵盖英语、中文、日语、韩语、法语、德语等 14 种语言；模型权重采用 Apache 2.0 协议开放，允许商用及私有化部署。
企业级全栈集成：已接入 Cohere Model Vault 托管平台，并计划深度集成至智能体编排平台 North，作为企业语音智能的基础设施。

模型权重已在 Hugging Face 开放下载；同时提供免费限速 API 供实验，生产环境可通过 Model Vault 按小时计费接入。

https://huggingface.co/CohereLabs/cohere-transcribe-03-2026

( @Cohere Blog)

02 有亮点的产品

1、Amazon 收购 Fauna Robotics：整合 59 磅双足机器人 Sprout 及前 Meta/Google 研发团队

Amazon 确认收购家庭人形机器人初创公司 Fauna Robotics，目标明确：吸纳其具备 Meta 与 Google 背景的创始团队及 59 磅级双足机器人平台，强化家用及室内移动机器人硬件布局。核心产品是一款重 59 磅（约 26.8kg）的「儿童体型」人形机器人，具备双足行走能力，此前已向特定研发合作伙伴交付。收购完成后，全体团队成员及两位前 Meta/Google 工程师创始人将迁往纽约，直接并入 Amazon 机器人业务板块。这是 Amazon 本月内第二起机器人并购（此前是苏黎世爬楼机器人公司 Rivr），两笔交易表明 Amazon 正在集中获取能处理复杂室内地形（阶梯、障碍物）的移动方案。

( @TechCrunch)

2、谷歌 Google Translate「实时翻译」功能正式登陆 iOS 平台

IT 之家 3 月 27 日消息，谷歌宣布 Google Translate 的「耳机实时翻译」功能正式登陆 iOS 平台。iPhone 用户佩戴耳机时，可实现跨 70 多种语言的实时对话翻译。该功能去年以测试版形式推出，此次覆盖更多国家和地区。用户在应用中进入「实时翻译」模式并选择「倾听」，即可通过耳机接收翻译内容。谷歌表示该功能可适用于跨语言家庭交流、出境旅行等场景，支持超过 70 种语言（包括英语、中文、日语、韩语、法语、德语、西班牙语等），不仅进行语义翻译，还保留说话者的语气、重音和节奏，提升对话自然度，帮助区分不同发言者。随着实时语音翻译能力成熟，手机+耳机组合正成为跨语言沟通的重要入口。苹果已在海外版 iPhone/iPad 配对的 AirPods 中推出类似实时翻译功能，支持同传级翻译。

（@IT 之家）

3、Bland 发布 Norm：通过自然语言指令构建生产级语音智能体，响应延迟低于 400ms

Bland 推出 AI 助手 Norm，目标是将复杂的语音智能体构建过程自动化。用户只需输入自然语言指令，Norm 就能生成具备状态管理、中断处理及 API 调度能力的生产级配置，确保语音交互响应延迟维持在 400ms 以内的工业标准。

全栈架构自动解构：从单一 Prompt 自动生成包含人格设定、对话路径、验证条件及数据提取规则的结构化逻辑。
状态化对话管理优化：针对语音交互的实时性和状态化需求，专门优化了用户中断处理、静默检测及上下文追踪逻辑，而非简单的文本模型转接。
安全分支与 Diff 校验系统：引入 Safe Branching 机制，所有逻辑变更在隔离分支执行；支持原始 Prompt 与更新版本的差异对比，确保变更合并至生产环境前可审计。
智能体模拟压力测试：支持 Agent-on-agent 模拟，通过模拟调用者与目标智能体进行对抗性对话，用于部署前识别逻辑边缘用例。
多源数据与 API 动态集成：支持在对话中途触发外部 API 调用（如集成 Cal.com 进行日程调度），并允许挂载文件或现有知识库作为智能体构建的逻辑基准。

目前 Norm 已在 Bland 平台正式上线，提供 24/7 自助服务，支持技术团队通过自然语言实时修改或启动语音智能体。

( @Bland Blog)

03 有态度的观点

1、Kimi CEO：AI 研发正进入「AI 主导研究」时代，行业标准「已具备被挑战的条件」

月之暗面 CEO 杨植麟在 2026 中关村论坛全体会议上发表主题演讲《开源 AI：加速探索智能上限》，系统阐述了 Kimi 在大模型规模化效率与底层架构创新方面的最新进展。杨植麟将大模型的本质概括为「把更多的能源转化成智能」，强调规模化是过去数年 AI 发展的核心基础。他指出 Kimi 围绕三个维度提升规模化效率：

TOKEN 效率：通过更优的网络架构与优化器，从相同数据中提取更多智能；
长上下文能力：Kimi 自研的 Kimi Linear 架构可在更长上下文下获得更低的损失函数，支持更复杂任务的完成；
Agent 集群（Agent Swarm）：通过并行调度数百个 Agent 协同工作，使任务执行时间不再随复杂度指数增长，从而让此前「完全不可能实现的任务变得有可能」。

杨植麟还援引英伟达 GTC 2026 黄仁勋主题演讲中的幻灯片指出，Kimi 系列开源模型正在成为全球芯片厂商和研究机构的评测基准，「如果要发布一个新的芯片，你必须要通过 Kimi 或者其他的开源模型来评测你的性能的提升」。在研发范式的判断上，杨植麟描绘了一条清晰的演进路径：

三年前以互联网天然数据加少量人工标注为主，去年转向大规模强化学习，而今年起将进入「AI 主导研究」阶段——AI 将自主合成任务与训练环境、设计奖励函数，乃至探索新的网络架构。

他认为，过去十年被视为行业标准的技术（如 Adam 优化器、标准 Attention 架构）如今均已具备被挑战的条件。

很多以前认为是标准的东西，现在都是可以被挑战的。

(@APPSO)

阅读更多 Voice Agent 学习笔记：了解最懂 AI 语音的头脑都在思考什么

写在最后：

我们欢迎更多小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

作者提示：个人观点，仅供参考

Mistral开源Voxtral TTS：多语言流式输出，谷歌翻译登陆iOS

01 有话题的技术

02 有亮点的产品

03 有态度的观点

相关阅读

最新教程

最新资讯