VividTalk:一张照片和一段音频生成高质量说话视频
VividTalk:静态人像的语音驱动合成技术解析
上述视频并非真人表演,而是由VividTalk框架生成的AI内容。这项由南京大学、阿里巴巴、字节跳动及南开大学联合研发的技术,在单样本音频驱动说话头生成领域实现了关键突破。其核心功能在于,仅需输入一张静态人像照片与一段音频,即可合成出面部表情生动、唇形同步精准的高质量说话视频。
从生成效果评估,VividTalk在多个维度表现出色。输出视频的面部保真度极高,能够捕捉从细微肌肉牵动到大幅笑容的完整表情谱系。头部姿态自然流畅,彻底避免了传统方法中常见的面部僵硬问题。其唇形同步精度达到了实用级水平,有效消除了音画不同步的感知。整体而言,该框架在动态自然度与视觉真实感方面设立了新的基准。
该框架具备良好的输入兼容性,不仅支持真人照片,也能处理卡通或艺术绘画风格的人像。其多语言音频驱动能力意味着,同一肖像可根据不同语种的输入音频,生成相应口型的连贯说话视频。
实现这一效果的技术架构清晰而高效,主要包含两个核心阶段:
第一阶段:音频到三维运动编码
此阶段旨在将音频信号转化为驱动人脸运动的参数化指令。VividTalk重点解耦并建模了两类运动:由面部肌肉活动主导的非刚性表情运动,以及涉及头部整体的刚性姿态运动。
针对表情生成,技术团队采用了混合形状与顶点偏移的双重中间表示策略。混合形状提供了一组基础表情模板,高效控制全局面部形变;顶点偏移则专注于嘴唇区域等局部的精细化运动建模。这种混合先验的协同工作,在保证生成效率的同时,实现了对微妙口型变化的精准控制。
为生成自然的头部姿态,框架引入了一个可学习的头部姿势代码本,并通过两阶段训练机制使其能够从数据中自主归纳合理的头部运动模式,在推理阶段进行动态且连贯的调用。
第二阶段:运动场到视频合成
在获得精确的3D面部运动网格后,下一阶段的目标是将其渲染为逼真的2D视频序列。VividTalk在此采用了双分支运动-VAE与神经渲染生成器的组合架构。
运动-VAE负责将3D运动网格编码并降维为2D密集运动场,该运动场实质上定义了图像空间内每个像素点的位移向量。生成器则依据这些运动指令,通过特征扭曲与内容补全,逐帧合成出高分辨率、高保真度的最终视频输出。
通过这一系列紧密耦合的模块化设计,VividTalk实现了音频特征到视觉动态的高保真映射。该技术不仅完成了准确的唇形驱动,更赋予了静态图像以鲜活的生命力与表现力,为虚拟数字人、个性化内容生成及交互式媒体等应用提供了坚实的技术基础。
相关链接
- 项目和演示地址:https://humanaigc.github.io/vivid-talk/
- 论文地址:https://arxiv.org/pdf/2312.01841.pdf
- GitHub:https://github.com/HumanAIGC/VividTalk