Stability Audio 3.0深度测评:6分钟专业级歌曲生成新标杆
Stability AI正式推出其第三代音频生成模型Stability Audio 3.0,将AI音乐创作的时长上限提升至专业作品级别。根据官方信息,其核心模型能够直接生成结构完整、时长超过六分钟的专业级音乐,显著拓展了生成式音频技术的应用边界。
此次发布的模型家族包含四个参数规格,以满足从轻量应用到专业创作的不同需求。参数为4.59亿的SFX/小型版专为本地设备端部署优化,可高效生成两分钟内的音效与音乐片段。14亿参数的中型版与27亿参数的大型版则具备更强的架构控制力,能够创作并维持长达6分20秒的完整乐曲的旋律一致性与结构稳定性。相比前代Stable Audio 2.0,其在长音频连贯性上实现了成倍的性能突破。
在模型获取方面,Stability AI延续了其分层开源策略。SFX、小型及中型模型已全面开源,供社区研究与开发。而顶级的27亿参数大型模型暂未开放权重,仅通过商业API及托管服务提供。公司明确设置了商业使用条款:年收入超过100万美元的企业需获取商业授权方可使用。
为应对AI生成的版权挑战,Stability AI强调了其数据源的合规性。基于此前与华纳音乐集团、环球音乐集团等达成的合作协议,Stability Audio 3.0全系列模型均使用经过合法授权的内容数据集进行训练,旨在从根源上降低侵权风险。
除了面向开发者的工具,该公司正积极开拓专业音乐制作市场。一个由行业资深人士伊桑·卡普兰(曾任环球音频与芬达首席数字官)领导的全新专业产品线正在开发中,这标志着Stability AI开始向专业级AI音乐制作工具的垂直领域深入布局。
