实时流式生成新纪元：Hallo-Live文本驱动音视频数字人深度测评

2026-05-25阅读 0热度 0

数字人

本文第一作者为复旦大学博士生李淳誉，其研究方向聚焦于视频生成扩散模型；共同一作为复旦大学硕士生李佳烨。通讯作者为复旦大学教授、上海创智学院全时导师朱思语。

驱动数字人“开口说话”已非技术壁垒，但实现其依据输入文本，如真人般实时、流畅地对话，则面临显著挑战。核心难点在于两方面：其一，同步生成高质量视频与语音本身计算负载巨大；其二，为追求实时性而采取的激进模型加速策略，极易引发唇形失准、语音生硬、人物细节丢失等一系列连锁问题，严重损害用户体验。

近期，上海创智学院与复旦大学等机构的研究团队提出名为Hallo-Live的新方法，旨在攻克这一难题。相关论文已于2026年4月26日发布于arXiv。该方案的核心创新在于融合异步双流扩散与人类偏好引导蒸馏技术。性能表现上，在两张NVIDIA H200 GPU上，系统实现了20.38 FPS的吞吐量与0.94秒的端到端延迟。相较于基准教师模型Ovi，吞吐量提升16.0倍，延迟降低99.3%。关键突破在于，在实现数量级速度飞跃的同时，其生成的视觉质量与音画同步效果仍能维持在接近教师模型的水平。

论文标题：Hallo-Live: Real-Time Streaming Joint Audio-Video A vatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
论文链接：https://arxiv.org/abs/2604.23632
代码地址：https://github.com/fudan-generative-vision/Hallo-Live

^{此demo展示了Hallo-Live在动漫风格、写实人物及多说话人场景下的实时文本驱动音视频生成效果。}

实时音视频生成的技术挑战

挑战源于任务本质。区别于传统的“音频驱动数字人”（给定语音生成对应口型视频），文本驱动音视频生成要求模型同步完成两项任务：首先，需深度理解文本蕴含的人物身份、场景、语气及声学环境；其次，需同步生成匹配的说话视频与语音流。这意味着模型不仅要独立保障画面精细度与语音自然度，更需将唇形、发音、表情乃至上半身微动作精准对齐于同一时间轴。任一环节的偏差都将导致数字人表现失真。

现有研究中，如Ovi等双流扩散模型已验证，将音频流与视频流分别建模再进行跨模态融合，是一条有效的技术路径。但此类模型通常侧重离线场景下的高质量生成，与实时交互需求存在差距。研究团队在论文中指出，将其改造为流式生成系统时，面临两大核心瓶颈：

严格因果约束导致生成“短视”。流式生成中，模型通常仅能基于当前及过去的音频块生成当前视频块。然而，人类说话存在“协同发音”现象，唇部动作常略微领先于声音。这种严格的因果注意力机制，使模型无法“预见”即将到来的语音片段，导致生成的口型动作缺乏自然的预备与过渡。
简单少步蒸馏引发质量“退化”。为提升速度，常采用蒸馏技术减少推理步数。但粗暴的少步蒸馏易导致模型输出趋向“平均化”，具体表现为视频纹理模糊、语音韵律机械、音画同步精度下降。

Hallo-Live技术框架解析

Hallo-Live的训练分为两个阶段。第一阶段为双流ODE初始化：模型同时输入不同噪声级别的音视频数据块，基于单模态与跨模态的块级因果掩码训练双流扩散Transformer，确保训练阶段的可见性约束与流式推理要求一致，为后续流式生成奠定基础。

第二阶段为自回归展开与双流蒸馏：学生模型基于缓存的关键值对，以自回归方式生成完整音视频序列。随后，引入针对音频质量、视频美学及音视频同步度的奖励函数，对双流蒸馏损失进行加权优化。此举旨在将教师模型的知识与人类偏好共同“蒸馏”至步数更少的学生模型中。

其中，因果融合模块是Hallo-Live双流扩散Transformer的核心单元。视频流与音频流先各自进行单模态的块级因果自注意力计算，并注入文本条件信息；随后，通过跨模态的块级因果交叉注意力机制交换信息。特别之处在于，视频流关注音频流时，采用了一种“未来扩展”的因果掩码，允许当前视频块访问一小段未来的音频上下文。

核心创新：未来扩展注意力机制

这是论文的首个创新点。研究团队观察到，若视频流仅能“看到”当前及过去的音频，模型难以模拟真人说话时自然的、略微提前的张口、闭口及唇齿过渡动作。为此，他们设计了一种非对称注意力机制：视频流仍聚焦于生成当前块，但在从音频流获取信息时，可额外“瞥见”未来一小段时间窗口内的音频内容。

这相当于为视频流提供了短暂的“语音预告”。需明确，被“预读”的未来音频块并非最终输出，而是一个可被后续步骤覆盖的过渡信息，因此无损最终生成音频的质量，却显著提升了口型动作的自然度与前瞻性。

^{直观对比：严格的块级因果注意力仅能访问当前音频，而未来扩展注意力允许视频块访问少量未来音频，从而改善口型同步效果。}

核心创新：人类偏好引导蒸馏策略

如果说“未来扩展注意力”解决了“看不见未来”的问题，那么人类偏好引导蒸馏则旨在破解“加速后为何失真”的难题。传统蒸馏目标是让学生模型模仿教师模型的输出分布，但这可能连同教师的不完美之处一并学习。

Hallo-Live的思路更具巧思：它将蒸馏目标从“模仿教师分布”，转向“模仿经人类偏好奖励加权后的教师分布”。具体而言，引入了三个评估器：

VideoAlign：评估视频美学质量及其与文本/画面的对齐度。
SyncNet：专门衡量唇形与语音的同步精度。
AudioBox：评估语音的自然度与声学质量。

学生模型生成的样本经这些评估器打分，所得奖励分数用于重新加权蒸馏损失。从概率分布视角看，这等价于让学生模型不再单纯拟合原始教师分布，而是逼近一个被人类偏好“修饰”过的、更优质的目标分布。该方法更接近“奖励加权的蒸馏”，相比传统强化学习策略优化更稳定、更直接地将质量约束注入加速过程。

性能评估：速度实现断层领先，质量守住基准线

主要实验结果表明，Hallo-Live最突出的贡献在于首次将文本到音视频的联合生成真正推入“实时”范畴。

具体数据如下：

速度表现：Hallo-Live达到20.38 FPS与0.94秒延迟，显著快于Ovi、LTX-2、Ja visDiT及UniVerse-1等对比方法。
质量保持：在VideoAlign Overall（2.32）、Sync-C（4.72）及多项人类评估保真度指标上，Hallo-Live整体表现接近Ovi与LTX-2等重型教师模型，未因大幅提速出现明显的质量滑坡。

这组数据表明，Hallo-Live并非以牺牲质量为代价换取速度，而是在守住生成质量基准线的前提下，将系统性能提升至可支持实时交互的水平。这对于数字人直播、实时虚拟角色扮演、交互式虚拟主持等应用场景至关重要。

技术意义与未来展望

Hallo-Live的价值不仅在于提升了速度，更在于展示了一条清晰可行的技术路径：如何在保持流式、因果生成框架的前提下，高效实现视频与语音的高质量联合生成。它为数字人行业提供了一种兼具高性能、可部署性与交互潜力的模型范式。

当然，研究亦有改进空间。论文指出，从指标看，Hallo-Live在同步精度与语音质量上尚未全面超越最强的离线模型；同时，当前实验基于两张NVIDIA H200 GPU，距离在更低成本硬件上普及部署仍有优化余地。然而，若将“实现实时文本驱动音视频数字人”视为一场马拉松，Hallo-Live无疑已取得令人瞩目的阶段性成果，为后续研究与应用指明了方向。