全球首个开源音频编辑模型：文字控制声音情绪评测

2026-06-24阅读 0热度 0

Step

音频编辑始终是技术密集型领域。传统专业软件学习门槛高、参数繁杂，普通用户制作高质量音频内容的难度长期居高不下。

近期，StepFun AI 开源了 Step-Audio-EditX 模型，宣称是“全球首个”音频编辑模型。核心逻辑直白：以文本指令操控音频。让AI语音携带情感？写提示词。加入呼吸声、笑声？同样是文字指令。从此无需面对波形图、频率曲线和旋钮参数，交互效率显著提升。

具体功能涵盖：情感控制支持愤怒、喜悦、悲伤、兴奋等十余种状态；说话风格可切换撒娇、老人、小孩、耳语等模式。副语言元素更为精细——呼吸、笑声、叹息、疑问语气，总计10种类型均可精准调控。若需四川话或粤语，仅在文本前添加标签即可实现。

技术架构上，这是一个3B参数规模的统一模型，支持中英文及多种方言的零样本语音合成。零样本意味着无需预先录制特定人的声音数据，模型可直接根据文字生成或编辑语音。采用Apache 2.0开源协议，单张GPU即可运行，12GB显存足矣。

模型架构示意

模型结构分为三块：双码本音频分词器将音频转为离散token，音频LLM生成token序列，音频解码器将token还原为音频波形。训练采用SFT与PPO，并支持迭代式编辑——可先调整语调，再添加呼吸声，不满意可回退重来。

对比实验数据显示，在零样本克隆与情感控制方面，Step-Audio-EditX 优于 MinV2-nd、Double TTS 2.0 等模型。指标表现亮眼，但实际部署中的稳定性与效果仍需验证。

部署流程简洁：Python 3.10及以上，PyTorch 2.4.1，CUDA支持。官方提供Docker镜像，以及Web演示与命令行工具。若显存有限，还可启用INT8与INT4量化，进一步降低硬件门槛。

“Vibe 一切”浪潮正在席卷各领域。图像生成如此，视频生成如此，音频亦不例外。传统模块化流水线被统一模型取代，复杂参数被自然语言指令替代。门槛持续降低，最终拉开差距的只剩下“创意”。

相关阅读