电话智能体与谷歌语音听写测评：双向翻译+端侧模型+Gmail同步

2026-06-15阅读 0热度 0

人工智能

各位开发者：

「RTE 开发者日报」新一期内容已上线。本期编辑团队梳理了 RTE（实时互动）领域近期值得关注的技术突破、产品迭代与行业洞察，涵盖语音转写、AI 电话智能体、智能音频眼镜等方向。欢迎交流指正。

本期编辑：@koki、@鲍勃

01 有话题的技术

1、ElevenLabs Scribe v2 升级，新增实体脱敏及关键词提示扩容

ElevenLabs 的 Scribe v2 模型迎来一次架构级更新，主要攻克了两个实际痛点：多语言混合转录的规范性，以及专业领域术语的控制瓶颈。此次升级引入原生 PII 实体脱敏和非逐字稿模式，补齐了行业多个关键短板。

内置 PII 实体脱敏（Entity Redaction）： 转录过程中可自动识别姓名、信用卡号、社保号等敏感信息。提供三种处理模式：全量脱敏（输出为 [REDACTED]）、分类脱敏（输出为 [CREDIT_CARD]），以及编号分类脱敏（输出为 [CREDIT_CARD_1]）。敏感数据不会流入下游存储系统。
印欧语系语料混合转录（Code-switching）优化： 针对印地语、泰卢固语、卡纳达语等语言与英语混用的场景，模型自动识别英文部分并以拉丁字符输出，无需手动配置语言代码。
新增「非逐字稿」（No Verbatim）模式： 转录时自动滤除语气词（如 "um"、"uh"）、重复词和口吃内容，直接输出标准化的书面文本，大幅降低后期清理成本。
关键术语提示（Keyterm Prompting）上限提升至 1000 个： 单词转录支持的专业词汇或品牌名数量从 100 提升至 1000 个，对医疗、法律等术语密集的垂直行业尤其友好。

参考链接：

https://elevenlabs.io/blog/scribe-v2-just-got-an-upgrade

(@elevenlabs)

2、OpenBMB 发布 VoxCPM 2：扩散-自回归混合架构，48kHz 高采样率与 30+ 语言

开源 TTS 模型 VoxCPM 2 正式发布，从 V1（零样本克隆）演进到 V1.5（长文本+微调）后，此次引入 Diffusion-Autoregressive 混合架构。支持 48kHz 高保真音频合成和 30 余种语言，并实现了基于文本描述的零样本（zero-shot）语音风格设计。

扩散-自回归（Diffusion-Autoregressive）混合架构： 不同于 Qwen3-TTS 这类纯 Token 序列模型，该架构通过扩散模型补偿声学细节，语音克隆时能更完整保留情感特征与环境音色。
48kHz 采样率原生输出： 支持录音室级高保真音频合成，解决了传统 TTS 模型在高频段细节丢失的问题，提升了声音的厚度与真实感。
基于 Prompt 的语音设计（Infinite Voice Design）： 支持通过文本描述直接定义音色风格——例如 whisper 细语、booming cinematic 电影感，实现对生成音频表现力的细粒度控制。
多语言统一建模： 单一模型内集成 30+ 语言支持，具备全球语种的 zero-shot 克隆能力，无需针对特定语种切换模型。

GitHub 链接：

https://github.com/OpenBMB/VoxCPM/

(@OpenBMB)

02 有亮点的产品

1、Google 发布语音听写应用 AI Edge Eloquent：基于 Gemma 的端侧离线语音转文字

Google 在 iOS 平台推出了一款实验性听写应用——Google AI Edge Eloquent。基于 Gemma 模型实现端侧 ASR（自动语音识别），支持全离线运行，还具备自动过滤口头禅、语境修饰及 Gmail 词库同步功能。

Gemma 端侧 ASR 模型： 核心语音识别能力基于 Gemma 模型构建，下载模型包后即可 100% 离线运行，降低转录延迟的同时也提升了隐私安全性。
混合处理架构（Cloud Mode）： 提供可选的云端模式，开启后利用云端 Gemini 模型对原始转录文本进行深度润色与重构，处理复杂语义逻辑。
语义级自动编辑： 实时识别并自动滤除 "um"、"ah" 等无意义填充词，还能对转录结果进行一键转换——提取要点、转为正式文体、长短缩写等，均可完成。
个性化词库同步： 支持从用户的 Gmail 账户导入特定关键词、人名和专业术语，也允许用户手动添加自定义词条，提升特定场景下的识别准确率。
系统级集成： 目前仅限 iOS，但官方文档确认 Android 版本将支持设为「系统默认键盘」以及类似 Wispr Flow 的浮动按钮，实现跨应用的全局语音录入。

(@TechCrunch)

2、独立开发者郭宇发布电话 Agent 服务 tuwa.ai：多语种双向实时翻译和外部智能体接入

独立开发者郭宇推出了 AI 电话网络服务 tuwa。它在传统 PSTN（公共交换电话网络）之上封装了 AI 语音翻译与智能体接管能力，用户无需安装任何应用，就能与全球任意固话或手机实现跨语言双向语音通话。

0.3s 延迟与动态语种切换： 实时双向语音翻译延迟低至 0.3s，支持 100 多种语言，通话过程中可随时切换源语言或目标语言。
零客户端依赖的 PSTN 接入： 主叫方拨打统一免费热线（如 +1 888 886 2968）并语音报出目标号码即可发起呼叫，被叫方通过标准电话网络接听，无需任何软硬件适配。
外接智能体接管通话： 提供 Web 接口支持接入外部智能体（如 openclaw、codex / claude code），开发者可配置专属智能体执行自主呼入与外呼任务（例如自动完成餐厅预订），并提供通话内容的完整记录与翻译。
动态语音克隆： 基于实时通话音频抓取特征，跨语言翻译后保留主叫方的原始音色与语气，随通话次数增加持续优化拟合度（该功能限 Pro 与 Ultra 套餐）。

服务已上线，提供每月 5 分钟免绑卡免费额度，进阶功能依赖 Pro/Ultra 套餐及按量付费。

官网：https://tuwa.ai/

（@turingou@X）

3、原小米硬件高管徐睿将成为 Meta 新组建 AI 硬件团队负责人

原小米、字节跳动硬件业务高管徐睿，将担任 Meta 旗下 MSL（超级智能实验室）新组建的 AI 硬件团队负责人。

据了解，由 Alexandr Wang 领导的 MSL 将成立一个全新的 AI 硬件团队，徐睿将参与该新部门的组建和领导工作。

徐睿在小米、字节跳动、英特尔、亚马逊、联想等互联网科技公司历任硬件业务专家和负责人。2015 年 -2017 年期间，他在小米工作，曾管理小米电视全球团队，负责分析全球智能电视和机顶盒市场，制定了小米电视全球产品路线图，是早期小米电视/盒子团队的核心成员之一，全程经历了小米从单一手机厂商向米家/AIoT 生态链转型的关键阶段。

加入 Meta 前，徐睿曾任硅谷人形机器人创业公司 K-Scale Labs 的 COO；2025 年底，K-Scale 因资金问题关闭。随后，他加盟由前小米副总裁 Hugo Barra 创立的 AI 硬件公司 Dreamer，担任产品经理。今年 3 月，Dreamer 以「Acqui-hire」（人才收购）的方式被 Meta 收购。

（@极客公园）

4、九维声瞳发布智能音频眼镜 SparkRider：150° 旋转音腔与 aptX 编解码，80% 抗风噪及 99% 漏音控制

新锐创业公司九维声瞳（Nine Dimension Acoustic Vision）发布了专为运动骑行设计的智能音频眼镜 SparkRider。通过定制旋转声学结构与高通音频芯片方案，解决了骑行高风噪环境下的音质损耗与通话质量问题。

150° 旋转音腔物理调节系统： 采用 7 级可调节旋转结构适配不同头型，出音口直接指向耳道，从物理结构层面减少声能损耗并提升佩戴舒适度。
定制超磁低音 Box 喇叭与降噪芯片： 集成高通滤波及专业降噪芯片，配合 Box 结构喇叭，官方数据显示可实现 80% 抗风噪效果，漏音减少 99%，中低音频表现提升 100%。
支持高通 aptX 音频编解码： 作为首款支持 aptX 协议的智能眼镜，利用其专有编解码技术提升蓝牙带宽下的传输质量，降低端到端延迟，解决传统 SBC 编码音质差、延迟高的问题。
跨地域实时语音对讲： 集成多人实时对讲功能，突破传统蓝牙对讲的距离限制，支持不限距离的组队语音通讯。
多摄像头硬件架构演进： 除已发布的音频版外，公司同步在研单摄、双摄及全球首创的三摄像头版本，目标锁定第一视角高清运动拍摄场景。

(@AI Vision)

03 有态度的观点

1、罗福莉谈 Anthropic 封杀「龙虾」：情有可原，OpenClaw 上下文管理「糟透了」

昨天，小米 MiMo 团队负责人罗福莉（@_LuoFuli）在 X 发文，评价了 Anthropic 近日切断第三方工具框架（harness）对 Claude 订阅服务访问权限一事。此举直接影响了「龙虾」OpenClaw 等依赖 Claude 订阅接口的 AI 智能体开发工具。

罗福莉指出，Claude Code 的订阅机制本身是一套“经过精心设计的算力均衡分配系统”，但在第三方框架接入后，这套系统承受了远超预期的压力。

她以 OpenClaw 为例，详细说明了其上下文管理存在的严重缺陷：处理单个用户请求时，OpenClaw 会触发多轮低价值的工具调用，每次调用均携带超过 10 万 Token 的长上下文窗口，即便命中缓存也存在大量浪费，极端情况下还会拉高其他请求的缓存未命中率。实际请求次数是 Claude Code 原生框架的数倍，换算成 API 定价，真实成本可能是订阅价格的数十倍。

对于这次封禁措施，罗福莉认为短期阵痛反而是正向压力。第三方框架被迫转向 API 付费后，成本骤增数十倍的压力将倒逼开发者改善上下文管理、提升 prompt 缓存命中率、削减无效 Token 消耗——“痛苦最终会转化为工程纪律”。

她同时向其他大模型厂商发出警示，呼吁在尚未厘清编程订阅计划定价模型之前，不要盲目跟进价格战。低价出售 Token 的同时对第三方框架大开门户，看似对用户友好，实则是个陷阱——Anthropic 刚刚从这个坑里爬出来。她还指出，若用户长期使用低质量的 AI 智能体框架、不稳定的推理服务和为控制成本而降级的模型，最终仍无法完成实际任务，这对用户体验和留存都是恶性循环。

(@APPSO)

电话智能体与谷歌语音听写测评：双向翻译+端侧模型+Gmail同步

01 有话题的技术

02 有亮点的产品

03 有态度的观点

相关阅读

最新教程

最新资讯