电话智能体与谷歌语音听写测评:双向翻译+端侧模型+Gmail同步

2026-06-15阅读 0热度 0
人工智能

各位开发者:

「RTE 开发者日报」新一期内容已上线。本期编辑团队梳理了 RTE(实时互动)领域近期值得关注的技术突破、产品迭代与行业洞察,涵盖语音转写、AI 电话智能体、智能音频眼镜等方向。欢迎交流指正。

本期编辑:@koki、@鲍勃

01 有话题的技术

1、ElevenLabs Scribe v2 升级,新增实体脱敏及关键词提示扩容

ElevenLabs 的 Scribe v2 模型迎来一次架构级更新,主要攻克了两个实际痛点:多语言混合转录的规范性,以及专业领域术语的控制瓶颈。此次升级引入原生 PII 实体脱敏和非逐字稿模式,补齐了行业多个关键短板。

  • 内置 PII 实体脱敏(Entity Redaction): 转录过程中可自动识别姓名、信用卡号、社保号等敏感信息。提供三种处理模式:全量脱敏(输出为 [REDACTED])、分类脱敏(输出为 [CREDIT_CARD]),以及编号分类脱敏(输出为 [CREDIT_CARD_1])。敏感数据不会流入下游存储系统。
  • 印欧语系语料混合转录(Code-switching)优化: 针对印地语、泰卢固语、卡纳达语等语言与英语混用的场景,模型自动识别英文部分并以拉丁字符输出,无需手动配置语言代码。
  • 新增「非逐字稿」(No Verbatim)模式: 转录时自动滤除语气词(如 "um"、"uh")、重复词和口吃内容,直接输出标准化的书面文本,大幅降低后期清理成本。
  • 关键术语提示(Keyterm Prompting)上限提升至 1000 个: 单词转录支持的专业词汇或品牌名数量从 100 提升至 1000 个,对医疗、法律等术语密集的垂直行业尤其友好。

参考链接:

https://elevenlabs.io/blog/scribe-v2-just-got-an-upgrade

(@elevenlabs)

2、OpenBMB 发布 VoxCPM 2:扩散-自回归混合架构,48kHz 高采样率与 30+ 语言

开源 TTS 模型 VoxCPM 2 正式发布,从 V1(零样本克隆)演进到 V1.5(长文本+微调)后,此次引入 Diffusion-Autoregressive 混合架构。支持 48kHz 高保真音频合成和 30 余种语言,并实现了基于文本描述的零样本(zero-shot)语音风格设计。

  • 扩散-自回归(Diffusion-Autoregressive)混合架构: 不同于 Qwen3-TTS 这类纯 Token 序列模型,该架构通过扩散模型补偿声学细节,语音克隆时能更完整保留情感特征与环境音色。
  • 48kHz 采样率原生输出: 支持录音室级高保真音频合成,解决了传统 TTS 模型在高频段细节丢失的问题,提升了声音的厚度与真实感。
  • 基于 Prompt 的语音设计(Infinite Voice Design): 支持通过文本描述直接定义音色风格——例如 whisper 细语、booming cinematic 电影感,实现对生成音频表现力的细粒度控制。
  • 多语言统一建模: 单一模型内集成 30+ 语言支持,具备全球语种的 zero-shot 克隆能力,无需针对特定语种切换模型。

GitHub 链接:

https://github.com/OpenBMB/VoxCPM/

(@OpenBMB)

02 有亮点的产品

1、Google 发布语音听写应用 AI Edge Eloquent:基于 Gemma 的端侧离线语音转文字

Google 在 iOS 平台推出了一款实验性听写应用——Google AI Edge Eloquent。基于 Gemma 模型实现端侧 ASR(自动语音识别),支持全离线运行,还具备自动过滤口头禅、语境修饰及 Gmail 词库同步功能。

  • Gemma 端侧 ASR 模型: 核心语音识别能力基于 Gemma 模型构建,下载模型包后即可 100% 离线运行,降低转录延迟的同时也提升了隐私安全性。
  • 混合处理架构(Cloud Mode): 提供可选的云端模式,开启后利用云端 Gemini 模型对原始转录文本进行深度润色与重构,处理复杂语义逻辑。
  • 语义级自动编辑: 实时识别并自动滤除 "um"、"ah" 等无意义填充词,还能对转录结果进行一键转换——提取要点、转为正式文体、长短缩写等,均可完成。
  • 个性化词库同步: 支持从用户的 Gmail 账户导入特定关键词、人名和专业术语,也允许用户手动添加自定义词条,提升特定场景下的识别准确率。
  • 系统级集成: 目前仅限 iOS,但官方文档确认 Android 版本将支持设为「系统默认键盘」以及类似 Wispr Flow 的浮动按钮,实现跨应用的全局语音录入。

(@TechCrunch)

2、独立开发者郭宇发布电话 Agent 服务 tuwa.ai:多语种双向实时翻译和外部智能体接入

独立开发者郭宇推出了 AI 电话网络服务 tuwa。它在传统 PSTN(公共交换电话网络)之上封装了 AI 语音翻译与智能体接管能力,用户无需安装任何应用,就能与全球任意固话或手机实现跨语言双向语音通话。

  • 0.3s 延迟与动态语种切换: 实时双向语音翻译延迟低至 0.3s,支持 100 多种语言,通话过程中可随时切换源语言或目标语言。
  • 零客户端依赖的 PSTN 接入: 主叫方拨打统一免费热线(如 +1 888 886 2968)并语音报出目标号码即可发起呼叫,被叫方通过标准电话网络接听,无需任何软硬件适配。
  • 外接智能体接管通话: 提供 Web 接口支持接入外部智能体(如 openclaw、codex / claude code),开发者可配置专属智能体执行自主呼入与外呼任务(例如自动完成餐厅预订),并提供通话内容的完整记录与翻译。
  • 动态语音克隆: 基于实时通话音频抓取特征,跨语言翻译后保留主叫方的原始音色与语气,随通话次数增加持续优化拟合度(该功能限 Pro 与 Ultra 套餐)。

服务已上线,提供每月 5 分钟免绑卡免费额度,进阶功能依赖 Pro/Ultra 套餐及按量付费。

官网:https://tuwa.ai/

(@turingou@X)

3、原小米硬件高管徐睿将成为 Meta 新组建 AI 硬件团队负责人

原小米、字节跳动硬件业务高管徐睿,将担任 Meta 旗下 MSL(超级智能实验室) 新组建的 AI 硬件团队负责人。

据了解,由 Alexandr Wang 领导的 MSL 将成立一个全新的 AI 硬件团队,徐睿将参与该新部门的组建和领导工作。

徐睿在小米、字节跳动、英特尔、亚马逊、联想等互联网科技公司历任硬件业务专家和负责人。2015 年 -2017 年期间,他在小米工作,曾管理小米电视全球团队,负责分析全球智能电视和机顶盒市场,制定了小米电视全球产品路线图,是早期小米电视/盒子团队的核心成员之一,全程经历了小米从单一手机厂商向米家/AIoT 生态链转型的关键阶段。

加入 Meta 前,徐睿曾任硅谷人形机器人创业公司 K-Scale Labs 的 COO;2025 年底,K-Scale 因资金问题关闭。随后,他加盟由前小米副总裁 Hugo Barra 创立的 AI 硬件公司 Dreamer,担任产品经理。今年 3 月,Dreamer 以「Acqui-hire」(人才收购)的方式被 Meta 收购。

(@极客公园)

4、九维声瞳发布智能音频眼镜 SparkRider:150° 旋转音腔与 aptX 编解码,80% 抗风噪及 99% 漏音控制

新锐创业公司九维声瞳(Nine Dimension Acoustic Vision)发布了专为运动骑行设计的智能音频眼镜 SparkRider。通过定制旋转声学结构与高通音频芯片方案,解决了骑行高风噪环境下的音质损耗与通话质量问题。

  • 150° 旋转音腔物理调节系统: 采用 7 级可调节旋转结构适配不同头型,出音口直接指向耳道,从物理结构层面减少声能损耗并提升佩戴舒适度。
  • 定制超磁低音 Box 喇叭与降噪芯片: 集成高通滤波及专业降噪芯片,配合 Box 结构喇叭,官方数据显示可实现 80% 抗风噪效果,漏音减少 99%,中低音频表现提升 100%。
  • 支持高通 aptX 音频编解码: 作为首款支持 aptX 协议的智能眼镜,利用其专有编解码技术提升蓝牙带宽下的传输质量,降低端到端延迟,解决传统 SBC 编码音质差、延迟高的问题。
  • 跨地域实时语音对讲: 集成多人实时对讲功能,突破传统蓝牙对讲的距离限制,支持不限距离的组队语音通讯。
  • 多摄像头硬件架构演进: 除已发布的音频版外,公司同步在研单摄、双摄及全球首创的三摄像头版本,目标锁定第一视角高清运动拍摄场景。

(@AI Vision)

03 有态度的观点

1、罗福莉谈 Anthropic 封杀「龙虾」:情有可原,OpenClaw 上下文管理「糟透了」

昨天,小米 MiMo 团队负责人罗福莉(@_LuoFuli)在 X 发文,评价了 Anthropic 近日切断第三方工具框架(harness)对 Claude 订阅服务访问权限一事。此举直接影响了「龙虾」OpenClaw 等依赖 Claude 订阅接口的 AI 智能体开发工具。

罗福莉指出,Claude Code 的订阅机制本身是一套“经过精心设计的算力均衡分配系统”,但在第三方框架接入后,这套系统承受了远超预期的压力。

她以 OpenClaw 为例,详细说明了其上下文管理存在的严重缺陷:处理单个用户请求时,OpenClaw 会触发多轮低价值的工具调用,每次调用均携带超过 10 万 Token 的长上下文窗口,即便命中缓存也存在大量浪费,极端情况下还会拉高其他请求的缓存未命中率。实际请求次数是 Claude Code 原生框架的数倍,换算成 API 定价,真实成本可能是订阅价格的数十倍。

对于这次封禁措施,罗福莉认为短期阵痛反而是正向压力。第三方框架被迫转向 API 付费后,成本骤增数十倍的压力将倒逼开发者改善上下文管理、提升 prompt 缓存命中率、削减无效 Token 消耗——“痛苦最终会转化为工程纪律”。

她同时向其他大模型厂商发出警示,呼吁在尚未厘清编程订阅计划定价模型之前,不要盲目跟进价格战。低价出售 Token 的同时对第三方框架大开门户,看似对用户友好,实则是个陷阱——Anthropic 刚刚从这个坑里爬出来。她还指出,若用户长期使用低质量的 AI 智能体框架、不稳定的推理服务和为控制成本而降级的模型,最终仍无法完成实际任务,这对用户体验和留存都是恶性循环。

(@APPSO)

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策