阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行

2026-05-06阅读 0热度 0
阿里巴巴 通义实验室 PrismAudio

阿里通义实验室发布PrismAudio视频音频生成框架:精准同步,重构音画逻辑

阿里巴巴通义实验室今日推出全新研究PrismAudio,这是一个专为视频生成同步背景音频的框架。其核心任务并非语音合成,而是为动态画面生成匹配的环境音与音效——例如精准对应马蹄落地的节奏,或同步模拟风雨掠过树枝的听觉细节,确保声音与视觉事件在时间与空间上严格对齐。

该研究的核心突破在于首次将强化学习与结构化“思维链”系统性地整合,用于视频伴音生成。这套方法指导AI执行“先规划、后生成”的创作流程,并由四位功能独立的评估模块——或称“评审”——对输出进行多维度质量把控。

这四位评审模块各司其职:
**语义评审**确保音频类别与视觉内容一致,画面中出现马匹则生成蹄声,杜绝声画不符。
**时序评审**专注于时间对齐,要求每个声音的起始、持续与结束时刻都与视觉动作完美同步。
**美学评审**评估声音本身的质量,追求自然、富有层次且听觉舒适的音响效果,过滤粗糙或失真的噪声。
**空间评审**判断声像定位,分析音频的立体声场是否真实反映了画面内声源的位置与运动轨迹。

随之而来的关键挑战是如何协调多评审标准。当语义评审通过而时序评审否决时,模型应如何决策?

PrismAudio的解决方案是引入结构化的推理过程,引导模型进行分步、可解释的生成。

第一步:规划先行,依据笔记生成

传统端到端音频生成模型如同黑箱,输入视频后直接输出波形,中间决策过程不可控。PrismAudio则要求模型像音频导演一样,首先创建一份详细的“声音设计笔记”。

画面包含哪些视觉元素?各需对应何种声音类型?
每种声音应于何时开始与结束?时间顺序如何编排?
声音应具备何种物理特质?是清脆、低沉还是柔和?空间距离感是近场还是远景?
声源在立体声场中的具体方位何在?位于左、右,或处于动态移动中?

这份涵盖语义、时序、美学与空间维度的笔记,将拼接为一份明确的生成指令。音频模型随后严格遵循此指令进行创作。这种“分解式思维链”大幅提升了生成过程的透明度、可控性与结果的一致性。

第二步:多维度评审与综合优化

生成音频后,需进行精准评估。若仅使用单一的“逼真度”标准,优化易陷入顾此失彼的困境。

PrismAudio为每位评审配备了专用的奖励模型进行量化评分:
**语义评审**采用MS-CLAP模型,评估音频与画面内容的语义匹配度。
**时序评审**基于Synchformer模型,精确测量音画同步的时间精度。
**美学评审**调用Meta Audiobox Aesthetics模型,从清晰度、动态范围与丰富性等多角度评判音质。
**空间评审**利用StereoCRW模型,验证立体声音频是否准确呈现了声源的空间位置。

最终评分由四个维度综合得出。模型通过强化学习持续优化,目标就是最大化这一综合评分,从而迫使生成策略必须平衡兼顾所有评审维度,避免任何单一方面的短板。

第三步:Fast-GRPO算法突破训练效率瓶颈

引入强化学习训练扩散模型常伴随极高的计算成本与缓慢的训练速度。

为解决此效率瓶颈,研究团队提出了Fast-GRPO高效训练算法。其核心思想是将随机探索集中在生成过程中最不确定、最关键的极短时段内,而在其余大部分时间采用高效的确定性路径。这种设计在保留模型探索优化能力的同时,将整体训练时间压缩至工程可接受的范围。

实验数据显示,在针对单指标优化时,Fast-GRPO仅需约200步训练即可达到传统方法600步的性能,实现了显著的效率提升。

实际性能与效果评估

在VGGSound基准测试集上,PrismAudio的各项指标均超越了现有最优方法,确立了领先优势。

阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行

在团队构建的、场景更复杂的AudioCanvas测试集上,PrismAudio的优势进一步扩大,证明了其在多样化、真实性视频内容上卓越的泛化能力与鲁棒性。

阿里通义实验室发布 PrismAudio 视频生成音频框架:声画同频,音效随行

其工程效率同样突出:模型参数量为5.18亿,生成一段9秒音频仅需0.63秒。相比数十亿参数量的庞大模型,PrismAudio在保持顶尖性能的同时,具备了更高的部署可行性与实用性。

此项工作已被ICLR 2026接收。相关论文(arXiv:2511.18833)已公开,项目代码也承诺于项目主页(https://prismaudio-project.github.io/)开源。这为视频-音频跨模态生成领域提供了重要的技术参考与扎实的推动力。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策