全球首个开源音频编辑模型:文字控制声音情绪评测

2026-06-24阅读 0热度 0
Step

音频编辑始终是技术密集型领域。传统专业软件学习门槛高、参数繁杂,普通用户制作高质量音频内容的难度长期居高不下。

近期,StepFun AI 开源了 Step-Audio-EditX 模型,宣称是“全球首个”音频编辑模型。核心逻辑直白:以文本指令操控音频。让AI语音携带情感?写提示词。加入呼吸声、笑声?同样是文字指令。从此无需面对波形图、频率曲线和旋钮参数,交互效率显著提升。

Step-Audio-EditX 音频编辑模型界面

具体功能涵盖:情感控制支持愤怒、喜悦、悲伤、兴奋等十余种状态;说话风格可切换撒娇、老人、小孩、耳语等模式。副语言元素更为精细——呼吸、笑声、叹息、疑问语气,总计10种类型均可精准调控。若需四川话或粤语,仅在文本前添加标签即可实现。

技术架构上,这是一个3B参数规模的统一模型,支持中英文及多种方言的零样本语音合成。零样本意味着无需预先录制特定人的声音数据,模型可直接根据文字生成或编辑语音。采用Apache 2.0开源协议,单张GPU即可运行,12GB显存足矣。

模型技术架构示意图模型架构示意

模型结构分为三块:双码本音频分词器将音频转为离散token,音频LLM生成token序列,音频解码器将token还原为音频波形。训练采用SFT与PPO,并支持迭代式编辑——可先调整语调,再添加呼吸声,不满意可回退重来。

Step-Audio-EditX 编辑流程演示

对比实验数据显示,在零样本克隆与情感控制方面,Step-Audio-EditX 优于 MinV2-nd、Double TTS 2.0 等模型。指标表现亮眼,但实际部署中的稳定性与效果仍需验证。

部署流程简洁:Python 3.10及以上,PyTorch 2.4.1,CUDA支持。官方提供Docker镜像,以及Web演示与命令行工具。若显存有限,还可启用INT8与INT4量化,进一步降低硬件门槛。

“Vibe 一切”浪潮正在席卷各领域。图像生成如此,视频生成如此,音频亦不例外。传统模块化流水线被统一模型取代,复杂参数被自然语言指令替代。门槛持续降低,最终拉开差距的只剩下“创意”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策