Stability Audio 3.0音频模型测评：6分钟歌曲创作能力深度解析

2026-05-21阅读 0热度 0

Audio

Stability AI正式推出其第三代音频生成模型Stability Audio 3.0，为AI驱动的音乐与音效创作设立了新的行业标杆。此次发布的核心突破在于，其顶级模型能够生成结构完整、时长超过六分钟的专业级音乐作品，显著提升了AI生成内容的连贯性与艺术深度。

Stability Audio 3.0是一个包含多规格模型的完整产品矩阵。为满足不同场景需求，它提供了两款适用于设备端的高效模型：参数约4.59亿的“小型XFS”版与标准“小型”版，专为快速生成两分钟内的音效或短旋律设计。面向更复杂的专业创作，则提供了参数分别达14亿的“中型”版与27亿的“大型”版。

中型与大型模型在生成长度和结构控制上实现了质的飞跃。它们能够创作出最长6分20秒的完整乐曲，并在此过程中精准维持乐曲的整体架构、和声进行与风格一致性，有效避免了早期AI音乐模型中常见的结构松散或主题偏离问题。相较于前代Stable Audio 2.0，新模型的单次生成时长提升了一倍以上。

在模型开放策略上，Stability AI采取了分层的混合模式。小型SFX、小型及中型模型已全面开源，开发者可自由访问、使用并调整其模型权重。然而，性能最强的27亿参数大型模型则采用商业授权模式，目前仅通过API接口及付费托管服务提供。公司设置了明确的商业使用门槛：年收入超过100万美元的企业需获取商业许可。

为应对音乐产业核心的版权挑战，Stability AI已进行了前瞻性布局。公司此前已与华纳音乐集团、环球音乐集团等主要版权方建立战略合作。Stability Audio 3.0全系列模型均基于经过合法授权的高质量音频数据集进行训练，这为其技术的规模化商业应用奠定了坚实的合规基础。

Stability AI的长期战略显然超越了通用模型工具。据悉，公司正在积极开发一条面向专业音乐制作人的专用产品线。为引领这一专业业务，公司已任命行业资深人士伊桑·卡普兰负责该板块。卡普兰曾担任环球音频与芬达（Fender）的首席数字官，他的加入预示着AI工具将更深度地集成到专业音乐创作、混音及制作工作流中。

Stability Audio 3.0音频模型测评：6分钟歌曲创作能力深度解析

相关阅读

最新教程

最新资讯