谷歌实时语音互译Gemini 3.5评测:70种语言实测
6月9日消息,北京时间今晚,谷歌正式推出新一代实时语音互译模型——Gemini 3.5 Live Translate。这一步直接补全了实时口译的关键拼图。
该模型可自动识别超过70种语言,并生成自然流畅的翻译语音,核心亮点在于完整保留说话者原有的语调、语速与音高。这正是它与同类方案拉开差距的关键。
技术层面,传统系统多采用“轮流式”处理:必须等对方说完才能开始翻译,全程存在明显的静默间隔。Gemini 3.5 Live Translate则采用连续语音生成机制,在“等待更多上下文以优化翻译准确性”与“即时跟上说话者节奏”之间找到动态平衡。对话过程中,翻译音频始终保持流畅无中断,仅比原始语音滞后数秒。
产品落地方面,Gemini 3.5 Live Translate即日起逐步部署至谷歌生态:
- 开发者即日起可在Gemini Live API和Google AI Studio体验公开预览版
- 企业客户本月起可在Google Meet中申请私有预览权限
- 普通用户更便捷,直接打开Android或iOS版谷歌翻译App即可使用
该模型在语音流式传输过程中同步处理内容,显著提升跨语言沟通效率。它还能自动应对多语言输入,无需手动切换设置。抗噪能力在嘈杂、复杂甚至不可预测场景中依然可靠。开发者的应用空间广阔:多语言通话、远程会议、视频课程、直播乃至广播场景均可直接接入实时口译能力。
Android用户额外获得专属“聆听模式”。该模式设计非常贴心——用户像接电话一样将手机贴近耳朵,通过听筒直接收听翻译音频。在人多的场合或未戴耳机时,既避免旁人听到翻译内容,又保障隐私,实用性极强。
