OpenAI Realtime API专业评测:Voice Agent语音模型深度推理与自主执行演进

2026-06-12阅读 0热度 0
人工智能
距离 GPT-4o 首次发布已过去整整两年。就在这一节点,OpenAI 一口气推出三款全新语音模型,重新定义了实时语音交互的技术边界。 先给结论:**语音交互正从“问答式”转向“执行式”**。新模型 GPT-Realtime-2 将上下文窗口从 32K 扩展至 128K,同时支持多工具并行调用。这意味着它能处理更长、更连贯、更复杂的业务逻辑,且错误恢复机制显著提升。 这揭示了一个清晰的演进方向——语音应用不再满足于“你问我答”,而是进化为这样一条链路:**聆听 → 推理 → 翻译 → 转录 → 采取行动**。为语音模型注入深度推理与自主执行能力,这才是下一代语音交互应有的形态。 下文翻译自 OpenAI 官方解读,包含音频示例,帮助你全面理解此次更新的意义。如需深挖细节,可直接查阅开发文档:https://developers.openai.com/api/docs/guides/realtime ![img](http://img.318050.com/uploads/20260610/17810820456a2927bd4e7a7916464894.webp) ## 通过 Realtime API 新模型全面升级语音智能 我们正在 API 中推出三款音频模型,为开发者解锁全新的语音应用类别。借助它们,你可以构建更自然、响应更智能、且能实时采取行动的语音体验: - **GPT-Realtime-2**,首款**具备 GPT-5 级推理能力**的语音模型,能处理更复杂的请求,并自然地推动对话进展。 - **GPT-Realtime-Translate**,一种**实时翻译模型**,支持 70 多种输入语言的语音,实时翻译成 13 种输出语言,且与说话人节奏同步。 - **GPT-Realtime-Whisper**,全新的流式**语音转文字**功能,可在说话的同时**实时转录**。 语音正成为最自然的人机交互方式之一。用户可以在驾车时语音求助,在机场边走边改行程,用自己最熟悉的语言获得帮助,或在不中断打字的情况下完成任务。 但要打造真正好用的语音产品——仅靠低延迟对话切换或自然语音输出远远不够。成熟的语音智能体需能理解意图、保持上下文记忆,**灵活应对指令变更**,支持**对话过程中同步调用工具**,并在恰当时机做出响应。 我们推出的这批模型,旨在将实时音频从简单的问答模式,提升至**能实际干活的语音界面**:倾听、推理、翻译、转录,并在对话展开过程中采取行动。 ### 语音作为人与产品之间的界面 随着语音成为更自然的软件入口,**我们看到开发者正围绕语音 AI 的三个新兴模式进行探索与构建**: - **语音到行动(Voice-to-action)**:人们描述需求,系统推理请求、调用工具并完成操作。例如 Zillow 正在打造一个助手,能倾听、推理并处理这样的请求:“帮我找一套符合 BuyAbility 的房源,避开繁忙街道,安排周六看房。” - **系统到语音(Systems-to-voice)**:软件能将上下文信息转化为实时语音提示。比如旅行应用可主动告知用户:“您入境的航班晚点了,但接续航班仍可赶上。我找到了新登机口,也规划了穿行航站楼的最佳路线,行李会直接中转。” - **语音到语音(Voice-to-voice)**:AI 能**跨越不同语言、处理多种任务、应对不断变化的语境**。例如德国电信正在构建语音支持体验,让客户用最舒服的语言交流,同时模型实时翻译对话内容。 ![img](http://img.318050.com/uploads/20260610/17810820456a2927bdb6131718128058.webp) 这些模式还可**协同工作**。Priceline 正在规划一个未来,让旅行者能通过语音管理整段行程:搜索航班和酒店、处理变更(如航班延误后调整酒店预订)、获取实时 TSA 等待时间,甚至抵达目的地后直接用来翻译。 ### 实时语音:助力语音模型推理并采取行动 GPT-Realtime-2 专为**实时语音交互**设计。它在推理请求、调用工具、应对修正或中断的同时,能保持对话流畅,并以符合上下文的方式做出回应。 - **开场白**:开发者可在正式回复前设置简短过渡语(例如“我来查一下”或“请稍等”),让用户知道智能助手正在处理请求。 - **并行工具调用与工具透明度**:模型可**同时调用多个工具**,并用类似“正在查看您的日历”或“马上为您查询”的提示语,将操作过程反馈给用户。这能让助手在执行任务时始终保持响应感。 - **更强的异常恢复能力**:模型能更妥善地从错误中恢复。例如遇到困难时,它会主动提示“我现在处理这个问题遇到点麻烦”,**而不是直接断线或陷入沉默**。 - **支持智能体工作流的更长上下文**:上下文窗口从 32K 扩展至 128K,支持更长、更连贯的对话以及更复杂的任务流。 - **更强的领域理解能力**:模型能更好地识别并记住专业术语、专有名词、医疗词汇等在实际生产环境中至关重要的词语。 - **语气与表达更具可控性**:模型能更好地调整语气——解决问题时平稳,用户沮丧时充满同理心,确认操作成功时语气轻快。 - **可调节的推理强度**:开发者可从“极低”“低”“中”“高”“极高”五个级别中选择推理强度(默认“低”),在简单交互的低延迟与复杂请求的深度推理之间灵活平衡。 这些提升在实际评测中得到了验证。在测试“音频理解能力”的 Big Bench Audio 上,GPT-Realtime-2(高)比 GPT-Realtime-1.5 高出 15.2%。在测试“指令遵循能力”的 Audio MultiChallenge 上,GPT-Realtime-2(极高)比 1.5 高出 13.8%。这些数据表明,升级后的模型在实时对话中的推理能力、上下文管理与控制能力确实上了一个台阶。 ![img](http://img.318050.com/uploads/20260610/17810820466a2927be2c389973438272.webp) ![img](http://img.318050.com/uploads/20260610/17810820466a2927beaab78986278247.webp) ### Demo 展示 #### 战略推理能力 **用户**:“我正在考虑在通勤轻轨站旁边开一家 900 平方英尺的独立咖啡馆。客流高峰集中在周二至周四早 7 点到 10 点;周一、周五和下午冷清很多。租金很贵,但我很向往这种模式:提供舒适的座位、慢节奏的手冲咖啡和本地烘焙糕点。请帮我做一个战略性的‘失败推演’:如果一年后倒闭,最可能的原因是什么?在正式投入之前,我应该用多大的规模试水?” **GPT-Realtime-2**(文本记录): “让我们对这个想法做个压力测试,然后构思一个最小可用的试点方案。如果一年后倒闭,最可能的原因是商业模型与客流需求节奏不匹配。你承担着高租金,却用慢工出细活的饮品和舒适座位来迎合想快速买杯咖啡的通勤者。手冲咖啡和过多座位成了出杯量和翻台率的瓶颈;冷清的周一、周五和下午,只会让你白白为闲置空间交租。加上人工成本、菜单复杂造成的损耗,以及非高峰时段难以拉动生意,现金流就在不知不觉中枯竭了。验证这个构想的最小测试版本是‘极简菜单+仅高峰时段营业’。在车站附近搞个咖啡推车或售卖亭,只做周二到周四早 7 点到 10 点。只供应滴滤黑咖和一款基础意式,搭配本地合作伙伴的糕点。在你真金白银投入一家完整咖啡馆之前,先用这个模式测试出杯速度、回头客转化率和价格接受度。” **GPT-Realtime-1.5**(文本记录): “如果一年后倒闭,原因可能包括高估了通勤者在店内逗留的意愿、非高峰时段收入不足,以及高租金和人工成本无法被销售额覆盖。或许你的理念与‘即买即走’的通勤者不匹配,又或者下午生意不见起色,导致利润空间被挤压。你可能在营销上遇到了困难,或者没有根据客流变化及时调整产品。要小规模验证,你可以在早高峰时段经营一辆快闪咖啡车,提供招牌手冲咖啡和糕点。这样不需要签下大铺面租约,就能评估市场需求、优化菜单、积累客源并测试定价。等到有了稳定的销售业绩,再规划更大的店面。” #### 语气和表现力 **用户**:“我现在非常生气。我公寓被入室盗窃了,这已经是第三次打电话问理赔的事了。告诉我接下来怎么走流程,但别用那种念稿子似的客服腔调敷衍我。” **GPT-Realtime-2**(文本记录): “很遗憾您遇到这种烦心事。请放心,我为您清晰地梳理一下接下来的常规流程。理赔员会审核您的理赔申请,核实警方报告、现场照片和被盗物品凭证。他们可能会安排现场查勘,或要求您补充材料。之后您会收到是否理赔的决定。如果通过,会有一份包含赔付金额和打款时间的方案。如果您觉得进展缓慢,可以随时要求了解进度,或询问是否有升级处理的途径。” **GPT-Realtime-1.5**(文本记录): “得知你在经历这些,我很难过。接下来,保险公司会审核你的理赔细节、报警记录和提交的证明。理赔员可能联系你核实损失情况。如果觉得进度停滞,要求与主管直接沟通或索要书面处理时间表可能有用。此外,如果你需要心理支持,找专业人士或值得信赖的朋友倾诉,也许能帮你渡过难关。” #### 空间推理能力 **用户**:“我正站在酒店走廊里找 214 房间。我右手边刚经过 218、220、222,左手边经过 217、219、221。我应该继续往前走还是转身?214 在哪一边?” **GPT-Realtime-2**(文本记录): “转身往回走。顺着你现在的方向,门牌号越来越大,214 应该排在 217 到 222 前面。单号在左边、双号在右边,所以 214 在你右手边,往回走的路上。” **GPT-Realtime-1.5**(文本记录): “听起来你往前走的时候房间号越来越小。双号一直在右边,214 也在右边。继续顺着这个方向,房间号会一直变小,直到找到 214。祝顺利!” #### 数字字母能力 **用户**:“Before you pull up the account, read back exactly the order ID I’m about to give you. My order ID is R E T dash six twenty A dash nine C two.” **GPT-Realtime-2**(文本记录): “R E T dash six twenty A dash nine C two.” **GPT-Realtime-1.5**(文本记录): “Got it. Your order ID is R E T dash 620 A dash 9 C 2.” #### 逻辑推理能力 **用户**:“所有的 dax 都是 wug。有些 wug 是 nim。没有任何 nim 是 lorp。我们能得出结论说‘有些 dax 不是 lorp’吗?回答‘是’或‘否’,并简要解释。” **GPT-Realtime-2**(文本记录): “否。因为‘属于 nim 的那部分 wug’里可能根本没有 dax。所以我们无法确定那些‘绝不可能是 lorp 的 nim’中到底包不包含 dax。” **GPT-Realtime-1.5**(文本记录): “是的。因为所有的 dax 都是 wug,有些 wug 是 nim,所以 dax 和 nim 之间至少存在一些交集。又因为没有任何 nim 是 lorp,那么这些存在交集的 dax 就不可能是 lorp。因此,必定有一些 dax 不是 lorp。” ### 实时翻译:构建多语种实时语音体验 GPT-Realtime-Translate 专门用于构建实时多语种语音交互。每个人都可以用自己偏好的语言发言,实时收听翻译并阅读文本转录。它支持 70 多种输入语言和 13 种输出语言,非常适合客服支持、跨境销售、教育、活动、媒体以及服务全球受众的创作平台。 对开发者来说,实时翻译需在紧跟说话者语速的同时准确传达原意——即使面对自然交流中的语速变化、语境切换,或者地方口音和行业术语,也能从容应对。德国电信已在测试该模型,用于多语种语音交互,更低的延迟和更出色的流畅度使跨语言对话体验变得更自然。 Vimeo 也展示了 GPT-Realtime-Translate 如何实时翻译正在播放的产品教育视频。这样一来,全球客户可用自己的语言听到更新内容,而无需等待单独制作的版本。 ### 实时字幕:构建低延迟字幕体验 GPT-Realtime-Whisper 是一款专为低延迟“语音转文本”打造的流式转写模型。它能做到“边说边转写”,让实时交互产品更快、更灵敏、更自然——无论是瞬间呈现的实时字幕,还是紧跟对话的会议记录。 该模型能在语音发生的当下直接将其融入业务工作流。团队可用它为会议、课堂、广播及大型活动提供字幕支持;在对话进行时同步生成纪要和摘要;构建能持续理解用户意图的语音智能体;并为客服、医疗、销售、招聘等高频率语音交互场景打造更快捷的后续跟进工作流。 ### 安全 Realtime API 整合了多重安全防护与风险缓解机制,用于防范滥用行为。我们在 Realtime API 会话中部署了主动分类器,一旦检测到某段对话违反不良内容政策,该会话会被立即中止。此外,开发者还可借助 Agents SDK 轻松添加自定义安全护栏。 我们的使用政策严禁将本服务输出内容用于垃圾信息、欺诈或其他有害目的。开发者也必须向终端用户明确说明正在与 AI 交互,除非从语境中已显而易见。 对于运行在欧盟地区的应用,Realtime API 全面支持欧盟数据驻留,并受企业隐私承诺的保护。 ### 定价 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper 现已通过 Realtime API 提供。定价方面,GPT-Realtime-2 为每百万音频输入 Tokens 32 美元(缓存的输入 Tokens 0.40 美元),每百万音频输出 Tokens 64 美元。GPT-Realtime-Translate 价格每分钟 0.034 美元。GPT-Realtime-Whisper 价格每分钟 0.017 美元。 ### 开始使用 你可以在 Playground 中测试新的实时语音模型。要开始构建,请在 Codex 中打开相关 prompt,将 GPT-Realtime-2 添加到现有应用或启动新应用。如果你还没有 Codex,请先下载 Codex 应用。 相关链接:Agents SDK | Playground | Codex app | Realtime and audio ![img](http://img.318050.com/uploads/20260610/17810820476a2927bf2152c702297273.webp) ![img](http://img.318050.com/uploads/20260610/17810820476a2927bf8a8e0735519851.webp) ![img](http://img.318050.com/uploads/20260610/17810820486a2927c02d343933040072.webp)
免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策