谷歌发布Gemini-TTS模型支持近70种语言可控语音生成

2026-04-26阅读 337热度 337

文本转语音

谷歌Gemini-TTS：用提示词重塑文本转语音的生成范式

2026年4月，谷歌在其Gemini 3.1模型系列中，正式推出了全新的文本转语音模型——Gemini-TTS。官方将其定位为“迄今最富表现力的文本转语音解决方案”。这个模型的亮点在于，它支持通过自然语言提示词来精细调节语音的情感、节奏与风格，覆盖了近70种语言。更省心的是，它能自动识别输入文本的语种，无需开发者手动标注，这无疑为全球多语种语音服务的开发降低了门槛。

传统TTS的局限：表现力单一与定制成本高昂

传统文本转语音技术长期面临一个核心痛点：生成的语音往往千篇一律。语气平淡、节奏僵硬，情绪表现力单薄，很难适配有声书、多角色对话、品牌配音等对表现力要求较高的复杂场景。过去，开发者若想调整语音风格，通常需要提前录制大量特定音色的样本，再单独训练定制模型，无论是时间成本还是资金投入，都相当可观。

核心突破：提示词赋予开发者精准的语音控制权

那么，Gemini-TTS究竟带来了什么改变？其最核心的突破，在于把语音定制的控制权真正交还到了开发者手中。现在，不需要任何额外的模型训练，只需输入一段自然语言提示词，就能精确调控输出语音的各项特征。比如，旁白需要低沉庄重，对话需要轻松自然，甚至具体到哪一句话需要停顿、哪个词需要加强情绪，都可以通过文字描述来实现。这使得生成语音的自然度和细腻度，相比前代产品有了肉眼可见的提升。

多语言适配：一套方案应对全球化需求

除了表现力的升级，Gemini-TTS在多语言适配上的能力，也精准切中了当下企业全球化业务的痛点。目前，该模型已支持近70种语言，中文普通话、英语、西班牙语、日语等全球主流语种悉数在列。更关键的是其自带的自动语种识别能力——开发者无需为输入文本手动标注语种，模型就能直接生成对应语言的标准语音输出。

这对于需要服务全球用户的企业而言，意味着什么呢？简单说，就是仅需接入一套API，就能搞定不同区域市场的多语种语音需求。不必再为每种语言去对接不同的技术供应商或方案，这在开发和运维层面，无疑能大幅降低成本，提升效率。

行业趋势：生成式AI重新定义语音交互体验

必须看到，生成式AI的普及，正在悄然重塑语音交互的体验标准。用户对AI语音的要求，早已从基础的“能听清”，升级到了“好听、贴合场景”。市场对于能够灵活定制、富有表现力的TTS需求，正在快速增长。

Gemini-TTS将提示词控制这一思路引入文本转语音领域，为低门槛的语音个性化定制打开了一条新路径。业内普遍认为，这种灵活、可控的生成范式，很可能将成为未来TTS模型发展的主流方向，进而推动AI语音在更多消费级和企业级服务场景中落地生根。

谷歌发布Gemini-TTS模型支持近70种语言可控语音生成

谷歌Gemini-TTS：用提示词重塑文本转语音的生成范式

传统TTS的局限：表现力单一与定制成本高昂

核心突破：提示词赋予开发者精准的语音控制权

多语言适配：一套方案应对全球化需求

行业趋势：生成式AI重新定义语音交互体验

相关阅读

最新教程

最新资讯