Qwen3-TTS评测:3秒语音克隆+精细调控,500万小时数据加持
生成式AI早已不止步于文本生成,它正在真正“发声”。语音,这一曾经只作为信息传递通道的存在,如今已进化为可编程、可塑形的表达介质。从跨语言内容制作到实时语音交互,从虚拟主播到沉浸式对话系统,文本转语音(TTS)已成为多模态模型体系中的核心组件。然而,要让机器输出自然、稳定、可控的语音,并在流式场景下保持毫秒级响应,考验的远不止声学建模,更是架构设计与系统优化的综合能力。
在这一技术演进中,新一代模型开始突破传统TTS的边界——不满足于高保真度,更强调多语言泛化与精细化控制能力。由Qwen团队近期开源的Qwen3-TTS,基于双轨语言模型(LM)架构,在实现实时语音合成的同时,赋予用户对输出语音的细粒度调控。
具体来看,Qwen3-TTS支持3秒语音克隆与描述驱动的语音控制,训练数据覆盖10种语言、总计超500万小时语音。模型配备了两类语音分词器(speech tokenizer):
· Qwen-TTS-Tokenizer-25Hz:采用单码本(single-codebook)编解码器,聚焦语义内容表达,可无缝对接Qwen-Audio,并借助基于分块(block-wise)的DiT实现流式波形重建。
· Qwen-TTS-Tokenizer-12Hz:实现极致码率压缩与超低延迟流式输出,基于12.5Hz、16层多码本设计及轻量级因果卷积网络(causal ConvNet),将首包输出延迟压缩至97毫秒。
大量实验表明,该系列模型在TTS多语言测试集、InstructTTSEval等多项客观与主观基准测评中,均达到SOTA水平。
目前,OpenBayes平台已在教程板块上线“Qwen3-TTS:高质量可控多语言语音合成 Demo”,感兴趣的用户可直接在平台内找到并运行。
Demo 运行
01 运行阶段
登录 OpenBayes.com,进入“公共教程”页面,选择“Qwen3-TTS:高质量可控多语言语音合成 Demo”教程。

页面跳转后,点击右上角“克隆”,将该教程克隆至自己的容器中。

选择“NVIDIA GeForce RTX 5090”以及“PyTorch”镜像,按需选择计费模式,点击“继续执行”。
等待资源分配完成后,当状态变为“运行中”,点击“打开工作空间”进入 Jupyter Workspace。
02 效果演示
页面跳转后,点击左侧 README 页面,进入后点击上方“运行”。
待运行完成,即可点击右侧 API 地址跳转至 demo 页面。






