实时流式生成新纪元:Hallo-Live文本驱动音视频数字人深度测评
本文第一作者为复旦大学博士生李淳誉,其研究方向聚焦于视频生成扩散模型;共同一作为复旦大学硕士生李佳烨。通讯作者为复旦大学教授、上海创智学院全时导师朱思语。
驱动数字人“开口说话”已非技术壁垒,但实现其依据输入文本,如真人般实时、流畅地对话,则面临显著挑战。核心难点在于两方面:其一,同步生成高质量视频与语音本身计算负载巨大;其二,为追求实时性而采取的激进模型加速策略,极易引发唇形失准、语音生硬、人物细节丢失等一系列连锁问题,严重损害用户体验。
近期,上海创智学院与复旦大学等机构的研究团队提出名为Hallo-Live的新方法,旨在攻克这一难题。相关论文已于2026年4月26日发布于arXiv。该方案的核心创新在于融合异步双流扩散与人类偏好引导蒸馏技术。性能表现上,在两张NVIDIA H200 GPU上,系统实现了20.38 FPS的吞吐量与0.94秒的端到端延迟。相较于基准教师模型Ovi,吞吐量提升16.0倍,延迟降低99.3%。关键突破在于,在实现数量级速度飞跃的同时,其生成的视觉质量与音画同步效果仍能维持在接近教师模型的水平。
- 论文标题:Hallo-Live: Real-Time Streaming Joint Audio-Video A vatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
- 论文链接:https://arxiv.org/abs/2604.23632
- 代码地址:https://github.com/fudan-generative-vision/Hallo-Live
此demo展示了Hallo-Live在动漫风格、写实人物及多说话人场景下的实时文本驱动音视频生成效果。
实时音视频生成的技术挑战
挑战源于任务本质。区别于传统的“音频驱动数字人”(给定语音生成对应口型视频),文本驱动音视频生成要求模型同步完成两项任务:首先,需深度理解文本蕴含的人物身份、场景、语气及声学环境;其次,需同步生成匹配的说话视频与语音流。这意味着模型不仅要独立保障画面精细度与语音自然度,更需将唇形、发音、表情乃至上半身微动作精准对齐于同一时间轴。任一环节的偏差都将导致数字人表现失真。
现有研究中,如Ovi等双流扩散模型已验证,将音频流与视频流分别建模再进行跨模态融合,是一条有效的技术路径。但此类模型通常侧重离线场景下的高质量生成,与实时交互需求存在差距。研究团队在论文中指出,将其改造为流式生成系统时,面临两大核心瓶颈:
- 严格因果约束导致生成“短视”。流式生成中,模型通常仅能基于当前及过去的音频块生成当前视频块。然而,人类说话存在“协同发音”现象,唇部动作常略微领先于声音。这种严格的因果注意力机制,使模型无法“预见”即将到来的语音片段,导致生成的口型动作缺乏自然的预备与过渡。
- 简单少步蒸馏引发质量“退化”。为提升速度,常采用蒸馏技术减少推理步数。但粗暴的少步蒸馏易导致模型输出趋向“平均化”,具体表现为视频纹理模糊、语音韵律机械、音画同步精度下降。
Hallo-Live技术框架解析
Hallo-Live的训练分为两个阶段。第一阶段为双流ODE初始化:模型同时输入不同噪声级别的音视频数据块,基于单模态与跨模态的块级因果掩码训练双流扩散Transformer,确保训练阶段的可见性约束与流式推理要求一致,为后续流式生成奠定基础。
第二阶段为自回归展开与双流蒸馏:学生模型基于缓存的关键值对,以自回归方式生成完整音视频序列。随后,引入针对音频质量、视频美学及音视频同步度的奖励函数,对双流蒸馏损失进行加权优化。此举旨在将教师模型的知识与人类偏好共同“蒸馏”至步数更少的学生模型中。
其中,因果融合模块是Hallo-Live双流扩散Transformer的核心单元。视频流与音频流先各自进行单模态的块级因果自注意力计算,并注入文本条件信息;随后,通过跨模态的块级因果交叉注意力机制交换信息。特别之处在于,视频流关注音频流时,采用了一种“未来扩展”的因果掩码,允许当前视频块访问一小段未来的音频上下文。
核心创新:未来扩展注意力机制
这是论文的首个创新点。研究团队观察到,若视频流仅能“看到”当前及过去的音频,模型难以模拟真人说话时自然的、略微提前的张口、闭口及唇齿过渡动作。为此,他们设计了一种非对称注意力机制:视频流仍聚焦于生成当前块,但在从音频流获取信息时,可额外“瞥见”未来一小段时间窗口内的音频内容。
这相当于为视频流提供了短暂的“语音预告”。需明确,被“预读”的未来音频块并非最终输出,而是一个可被后续步骤覆盖的过渡信息,因此无损最终生成音频的质量,却显著提升了口型动作的自然度与前瞻性。
直观对比:严格的块级因果注意力仅能访问当前音频,而未来扩展注意力允许视频块访问少量未来音频,从而改善口型同步效果。
核心创新:人类偏好引导蒸馏策略
如果说“未来扩展注意力”解决了“看不见未来”的问题,那么人类偏好引导蒸馏则旨在破解“加速后为何失真”的难题。传统蒸馏目标是让学生模型模仿教师模型的输出分布,但这可能连同教师的不完美之处一并学习。
Hallo-Live的思路更具巧思:它将蒸馏目标从“模仿教师分布”,转向“模仿经人类偏好奖励加权后的教师分布”。具体而言,引入了三个评估器:
- VideoAlign:评估视频美学质量及其与文本/画面的对齐度。
- SyncNet:专门衡量唇形与语音的同步精度。
- AudioBox:评估语音的自然度与声学质量。
学生模型生成的样本经这些评估器打分,所得奖励分数用于重新加权蒸馏损失。从概率分布视角看,这等价于让学生模型不再单纯拟合原始教师分布,而是逼近一个被人类偏好“修饰”过的、更优质的目标分布。该方法更接近“奖励加权的蒸馏”,相比传统强化学习策略优化更稳定、更直接地将质量约束注入加速过程。
性能评估:速度实现断层领先,质量守住基准线
主要实验结果表明,Hallo-Live最突出的贡献在于首次将文本到音视频的联合生成真正推入“实时”范畴。
具体数据如下:
- 速度表现:Hallo-Live达到20.38 FPS与0.94秒延迟,显著快于Ovi、LTX-2、Ja visDiT及UniVerse-1等对比方法。
- 质量保持:在VideoAlign Overall(2.32)、Sync-C(4.72)及多项人类评估保真度指标上,Hallo-Live整体表现接近Ovi与LTX-2等重型教师模型,未因大幅提速出现明显的质量滑坡。
这组数据表明,Hallo-Live并非以牺牲质量为代价换取速度,而是在守住生成质量基准线的前提下,将系统性能提升至可支持实时交互的水平。这对于数字人直播、实时虚拟角色扮演、交互式虚拟主持等应用场景至关重要。
技术意义与未来展望
Hallo-Live的价值不仅在于提升了速度,更在于展示了一条清晰可行的技术路径:如何在保持流式、因果生成框架的前提下,高效实现视频与语音的高质量联合生成。它为数字人行业提供了一种兼具高性能、可部署性与交互潜力的模型范式。
当然,研究亦有改进空间。论文指出,从指标看,Hallo-Live在同步精度与语音质量上尚未全面超越最强的离线模型;同时,当前实验基于两张NVIDIA H200 GPU,距离在更低成本硬件上普及部署仍有优化余地。然而,若将“实现实时文本驱动音视频数字人”视为一场马拉松,Hallo-Live无疑已取得令人瞩目的阶段性成果,为后续研究与应用指明了方向。
