Qwen3-TTS评测：3秒语音克隆+精细调控，500万小时数据加持

2026-06-11阅读 0热度 0

Qwen

生成式AI早已不止步于文本生成，它正在真正“发声”。语音，这一曾经只作为信息传递通道的存在，如今已进化为可编程、可塑形的表达介质。从跨语言内容制作到实时语音交互，从虚拟主播到沉浸式对话系统，文本转语音（TTS）已成为多模态模型体系中的核心组件。然而，要让机器输出自然、稳定、可控的语音，并在流式场景下保持毫秒级响应，考验的远不止声学建模，更是架构设计与系统优化的综合能力。

在这一技术演进中，新一代模型开始突破传统TTS的边界——不满足于高保真度，更强调多语言泛化与精细化控制能力。由Qwen团队近期开源的Qwen3-TTS，基于双轨语言模型（LM）架构，在实现实时语音合成的同时，赋予用户对输出语音的细粒度调控。

具体来看，Qwen3-TTS支持3秒语音克隆与描述驱动的语音控制，训练数据覆盖10种语言、总计超500万小时语音。模型配备了两类语音分词器（speech tokenizer）：

· Qwen-TTS-Tokenizer-25Hz：采用单码本（single-codebook）编解码器，聚焦语义内容表达，可无缝对接Qwen-Audio，并借助基于分块（block-wise）的DiT实现流式波形重建。

· Qwen-TTS-Tokenizer-12Hz：实现极致码率压缩与超低延迟流式输出，基于12.5Hz、16层多码本设计及轻量级因果卷积网络（causal ConvNet），将首包输出延迟压缩至97毫秒。

大量实验表明，该系列模型在TTS多语言测试集、InstructTTSEval等多项客观与主观基准测评中，均达到SOTA水平。

目前，OpenBayes平台已在教程板块上线“Qwen3-TTS：高质量可控多语言语音合成 Demo”，感兴趣的用户可直接在平台内找到并运行。