阿里通义实验室开源影视级配音多模态大模型 Fun-CineForge，解决音画同步与情感表达难题

2026-05-05阅读 0热度 0

ai 大模型阿里通义

阿里通义实验室开源影视级配音多模态大模型 Fun-CineForge

3月16日，阿里通义实验室正式发布并开源了业内首个支持影视级多场景配音的多模态大模型Fun-CineForge。与模型同步公开的，还有一套高质量数据集的构建方法。通过这种"数据+模型"的一体化设计，Fun-CineForge正试图攻克影视级AI配音长期面临的核心技术难题。

影视配音的四大严苛考验

在真实的影视制作环境中，一段优质配音需要同时通过四重严格考验：

口型同步：生成的语音必须与画面中人物的唇部动作高度匹配；

情绪表达：基于角色面部特征和指令描述，实现拟人化的情感语气呈现和灵活控制；

音色一致：在多角色配音的复杂场景中，确保每个角色音色的稳定性和一致性；

时间对齐：即使画面中说话人被遮挡或不在镜头内，语音也必须在精确的时间区间内生成。

现有技术的两大瓶颈

然而，当前AI配音技术普遍面临两个关键瓶颈：

高质量多模态数据集稀缺。优质的配音数据集需要融合多种模态信息，但现有数据集规模有限、标注类型单一，难以满足大模型的训练需求；过度依赖人工标注导致成本高昂，难以实现规模化生产；缺乏对话和多人场景的长视频数据，使得模型难以应对复杂的实际配音环境。

模型能力不足。传统配音模型在方法论上存在局限——仅依赖视频中清晰可见的唇部区域来学习音画同步。但真实的影视制作充满了复杂场景：多人对话、频繁镜头切换、人脸遮挡、面部模糊等，现有技术在这些说话人面部信息缺失的情况下，往往难以实现精准的音画同步。

Fun-CineForge的解决方案

针对这些问题，通义实验室推出了Fun-CineForge。本次开源的核心内容包括两个部分，共同构建了影视配音的"数据-模型"闭环：

模型侧：面向复杂影视场景的多模态配音大模型

数据侧：大规模多模态配音数据集构建流程（CineDub）

在坚实的数据基础之上，Fun-CineForge基于CosyVoice3强大的语音合成底层能力，构建了一个面向复杂影视场景的配音大模型，实现了从"视频+文本"到"语音"的完整转换流程。

模型的输入要素包括：无声视频片段、配音文本、角色属性和情感线索、时间信息以及参考语音。模型能够参考语音的音色特征，生成与时间信息和视频内容高度对齐的语音输出。

自动化数据集生产流程

Fun-CineForge首先构建了一套自动化的数据集生产流程，能够将原始影视素材转化为结构化的多模态数据。这套流程涵盖了人声分离、文本转录、长视频分段、音视频联合说话人分离等关键环节。

特别值得一提的是基于通用大模型思维链的双向矫正机制，这一创新大幅降低了转录文本和说话人分离的错误率：中文字错率从4.53%降至0.94%；英文词错率从9.35%降至2.12%；说话人分离错误率从8.38%降至1.20%。

数据集覆盖了独白、旁白、对话、多说话人等典型场景。每条数据都包含完整的多模态信息：转录台词、帧级人脸唇部数据、角色属性情感线索、毫秒级时间戳以及干净的人声音轨。这些相互补充的多模态信息为大模型的专业配音能力训练提供了坚实基础。

数据集统计

注释：从350多部中英文影视剧中生产的CineDub数据集在场景类别、年龄分布、性格分布、音色热词的统计情况。

时间模态的技术突破

Fun-CineForge最重要的技术创新，是在配音模型中首次引入了"时间模态"。传统的TTS模型通常只关注文本内容、声音特征或视觉信息，但在影视配音中还有一个关键维度常常被忽视：时间控制。

具体来说，模型需要精确理解：什么时候开始说话、什么时候结束说话、在特定时间区域内是哪个角色在发言。这些时间信息能够直接帮助模型深入理解"在什么时间段内，哪个角色在说什么"这一核心问题。

特别是在视觉模态"看不到"说话人的时候，时间模态作为一种强监督目标，能够确保语音出现在正确的时间区域内。这一突破使模型具备了在复杂场景下的稳定配音能力。

四模态协同工作机制

为了实现上述能力，Fun-CineForge模型同时利用了四类信息，它们相互补充、协同工作：

视觉模态：学习唇部运动，理解面部表情；

文本模态：提供台词内容，描述角色属性和情感语气；

音频模态：作为模型预测目标；

时间模态：控制语音出现的时间，在对话场景中指示说话人身份。

性能评估结果

实验结果显示，在多个关键指标上，Fun-CineForge配音模型都显著优于现有开源配音模型，包括：语音自然度、字错率、情感表达能力、音色相似度、唇形同步、时间对齐能力和指令遵循能力。

其中，Fun-CineForge在独白和旁白两种单人配音场景中表现最优，同时首次支持双人对话与多人对话场景，并能够实现精确的时间对齐、音画同步与音色一致。

在自建的CineDub数据集上的全面评估显示，模型在独白、旁白、对话、多人场景等多种典型影视配音场景中均表现出色。单人场景效果尤为突出，独白和旁白的中文字错率仅为1.49%和1.90%，同时实现了精准的音画同步。

在独白场景下，我们将Fun-CineForge与DeepDubber-V1和InstructDubber进行了对比。结果显示，Fun-CineForge在词错率、唇部同步、时间对齐、音色相似度等各项指标上均明显优于基线模型。

注：CER/WER为中文字/英文词错率（↓越低越准）；SPK-SIM为音色相似度（↑越高越像）；SPK-TL为时间对齐误差（↓越低越精准）；LSE-C/D为唇部同步度（C↑越高/D↓越低越好）。

开放与应用前景

目前，Fun-CineForge已经全面开源，开发者可立即体验各种复杂场景下的中英文影视配音能力，包括情绪化表达、镜头切换、面部遮挡等挑战性情景。

Fun-CineForge项目主页：https://funcineforge.github.io/

（网站提供了丰富的应用示例，涵盖独白、旁白、对话、多说话人、音色克隆、指令控制等场景，还能体验音色克隆和指令控制等进阶功能。样例展示了模型在实际影视环境中应对情绪化表达、镜头频繁切换、说话人频繁切换、面部遮挡、画面阴暗、多人共存等各种复杂情景的能力。）

技术论文《Fun-CineForge: A Unified Dataset Toolkit and Model for Zero-Shot Movie Dubbing in Diverse Cinematic Scenes》

数据集样例：网站开源了剔除原视频的CineDub数据集样例，包括CineDub-CN和CineDub-EN中英文双语种，供开发者参考使用。

代码与模型已在三个平台同步开源：

GitHub：https://github.com/FunAudioLLM/FunCineForge

HuggingFace：https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope：https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

行业影响与未来展望

现阶段，AI语音技术已经在客服、助手等场景得到广泛应用，但在专业的动漫或影视内容制作和后期加工中，仍然存在更高的技术要求。随着视频长度的增加，需要给定的时间戳区间和参考角色音频越多，音画同步性能和音色克隆准确性就会面临更大挑战，多人对话场景的鲁棒性也会相应降低。

Fun-CineForge为音频大模型技术在专业配音制作领域提供了创新的技术方案，当前支持30秒以内的视频片段推理。

展望未来，随着多模态大模型能力的持续提升，AI技术在影视、动画、游戏等内容生产领域的影响力将进一步扩大，为行业带来更多可能性。

阿里通义实验室开源影视级配音多模态大模型 Fun-CineForge，解决音画同步与情感表达难题