GPT4o语音交互对比:Coze智能体同样支持
字节跳动旗下的 Coze 智能体搭建平台,最近有了一个关键更新。其实很多人最早接触字节的 AI 产品,是从“豆包”开始的——尤其是它的语音交互功能,那种像打电话一样的对话体验,确实让人眼前一亮。过去我们想用 Coze 搭好一个 Bot,再发布到豆包里去用语音交互,比如船长之前做的“必读书目”和“儿童陪伴助手”两个 Bot,就是奔着这个功能去的。但那个时候,有些体验上的限制还没打通,比如快捷指令这类操作就没法在语音场景里实现。
现在情况不一样了。Coze 平台更新之后,直接在 Bot 商店的聊天界面里,就能实现语音对话功能。与此同时,国外 OpenAI 发布了 ChatGPT-4o,不仅支持语音交互,还能打断。豆包上周也上线了类似的语音打断功能,不过官方没有明确宣告 Coze 端同步上线。但经过摸索,其实 Coze 里已经藏了两种语音交互的使用方式,各有优劣。今天这篇文章,就围绕这两种语音交互方式,把它们的用法、区别和实际配置步骤,系统地聊一聊。
Coze 智能体语音交互的两种模式
Coze 的语音交互,核心区别在于模型的选择:一种是基于“豆包 Call 模型”,另一种是基于“角色扮演模型”。
前者不支持打断式语音交互,但可以添加工作流和插件,也就是说它能联网获取实时信息。后者则无法添加工作流和插件,不具备联网能力,对话只能依赖模型背后内置的知识库。
简单说,选豆包 Call 模型,你得到的是一个功能完整但对话节奏固定的“语音助手”;选角色扮演模型,你得到的是一个更灵活、可以随时插话的“对话伙伴”,但牺牲了联网等扩展能力。
两种模式之间的取舍很明确。如果你搭建的 Bot 需要查询实时数据、调用外部工具,那就只能选豆包 Call 模型,接受无法打断的对话流程。如果你更看重自然的交互体验,希望 Bot 能像真人一样随时被接话、打断、引导话题,那角色扮演模型是更合适的选择——当然,前提是你不需要它上网查资料。
语音功能的具体配置步骤
接下来,我们把实际操作流程过一遍。首先,你需要创建一个需要配置语音功能的 Bot,并设置好人设和提示词。
在 Bot 编辑界面的中间一栏,一直拉到最底部,你会看到“语音”选项。
打开语音开关后,就可以进行音色配置。目前 Coze 支持大约 200 种音色,选择范围相当大。
选好音色后,记得还要把“语音通话”选项一并打开。
配置完成后,在 Bot 的界面上就会出现电话标志,代表语音功能已经生效。
整个配置流程并不复杂,关键还是回到开头那个选择:是追求功能完整性还是追求打断式体验。根据你 Bot 的实际用途来做决定就好。